KyTea (京都テキスト解析ツールキット)は読み推定などの機能がついた最新の形態素解析器です.
おお、KyTeaがまともにWindowsで動きました!v. 0.4.1からWindows版も配布できそうです。Windowsでのビルド説明書( URL )を書いてくれた @knzm2011 さんに感謝感謝です!
2012-03-24 19:25:23 via web
上のようなツイートを見たので実際にWindowsで試してみました. KyTea 0.4.1ではWindows版バイナリも配布するらしいので以下のビルドの手順は必要なくなりました.
必要だったもの
- git
- svn
- python
- Visual Studio C++ 2010
ビルド
以下のような操作で実際にソリューション(.sln)ファイルができました. 一部フォルダの移動やリネームなどはGUIでやったので間違いがあるかも.git clone https://github.com/knzm/kytea.git cd kytea git checkout contrib-gyp mkdir third_party cd third_party svn checkout http://gyp.googlecode.com/svn/trunk/ gyp-read-only mv gyp-read-only gyp cd ../ python third_party/gyp/gyp --depth=. --include=build/common.gypi kytea.gyp -G msvs_version=2010 -D build_base=out_winあとはVisual Studio C++ 2010で開いてビルドしましょう. ソリューションを開いた時に「プラットフォーム 'x64' が見つかりません云々」というメッセージが出ましたが,動いたので大丈夫みたいです. ビルドされたrun_kytea.exeを実行すればいいのですが,cmd.exeはutf-8ではないので直接入力すると文字化けするのに注意.
run_kytea.exe -model model.bin < utf8.txt > output.txt
実行例
という訳でビルドが終わったので実行してみます.入力
東方キャラの名前の読み推定がうまくいくか試してみます(趣味博麗霊夢 霧雨魔理沙 十六夜咲夜 魂魄妖夢 東風谷早苗
出力
半分ぐらいうまくいきました.博麗/名詞/はくれい 霊夢/名詞/れいむ 霧雨/名詞/きりさめ 魔/助詞/ま 理沙/名詞/りさ 十/名詞/じゅう 六/名詞/ろく 夜/接尾辞/よる 咲/接尾辞/さ 夜/名詞/よる 魂魄/名詞/こんぱく 妖/名詞/あやかし 夢/名詞/ゆめ 東風谷/名詞/こちや 早苗/名詞/さなえ