前にこんなツイートをしたけどもうちょっとちゃんとメモっておく
ゆるふわカジュアル勢()なので内容に間違ってる点があったら教えてくださると嬉しいです
勝手なイメージだと、MeCab →一番使われてる 。速い。辞書を弄くるのが簡単。いろいろ移植されてる。Juman→出力が詳しい。代表表記に正規化できる。KNPを使うときはこれ。KyTea→新しくていろいろ更新されてる。読みの推定ができる。部分的タグ付けによるドメイン適応ができる。
— 無限猿(id:sucrose)@12月病 (@Scaled_Wurm) October 22, 2014
大雑把に言うと形態素解析では文章を単語+品詞の列に分解する
いわゆる学校でならった文法とは違う文法を使っているので注意が必要
ただし形態素解析器によって品詞体系や辞書に載っている単語が異なる
形態素解析器では単語や品詞の列にコストが計算できるようになっていて、そのコストが最小になる形態素の分け方を計算して出力する
Rakuten MA
rakuten-nlp/rakutenma · GitHub
- 今年公開されてちょっと話題になってたのでメモ
- JavaScriptでできていてブラウザ上でも動くらしい
- Soft Confidence Weightedによる学習
- 追加で学習できる
Kuromoji(追記)
kuromoji - japanese morphological analyzer
Kuromojiの日本語のドキュメント
はてなブックマークのコメントで「Kuromojiはないの?」的なコメントがついていたので一応追加(あまり詳しくないので一般的な説明だけ
- 主にLuceneやSolrなどの全文検索エンジンで使われていることが多い
- 辞書込みで一つのjarファイルになっているので扱いやすい
- Apache License v2.0
- 検索でヒットしやすいように複合語を分割するようにするモードがある
- 辞書はMeCabと同様にIPADicやUniDicを使う
- 学習などどういう手法を使っているかはあまりドキュメント化されていない(下記の記事参照)
Kuromojiは何で研究にあまり使われないのか? - Topics Related to Computers and NLP