読者です 読者をやめる 読者になる 読者になる

唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

形態素解析器KyTeaがWindowsで使えるようになったらしい

KyTea (京都テキスト解析ツールキット)は読み推定などの機能がついた最新の形態素解析器です.


上のようなツイートを見たので実際にWindowsで試してみました.

KyTea 0.4.1ではWindows版バイナリも配布するらしいので以下のビルドの手順は必要なくなりました.

必要だったもの

ビルド

以下のような操作で実際にソリューション(.sln)ファイルができました. 一部フォルダの移動やリネームなどはGUIでやったので間違いがあるかも.
git clone https://github.com/knzm/kytea.git
cd kytea
git checkout contrib-gyp
mkdir third_party
cd third_party
svn checkout http://gyp.googlecode.com/svn/trunk/ gyp-read-only
mv gyp-read-only gyp
cd ../
python third_party/gyp/gyp --depth=. --include=build/common.gypi kytea.gyp -G msvs_version=2010 -D build_base=out_win
あとはVisual Studio C++ 2010で開いてビルドしましょう. ソリューションを開いた時に「プラットフォーム 'x64' が見つかりません云々」というメッセージが出ましたが,動いたので大丈夫みたいです. ビルドされたrun_kytea.exeを実行すればいいのですが,cmd.exeはutf-8ではないので直接入力すると文字化けするのに注意.
run_kytea.exe -model model.bin < utf8.txt > output.txt

実行例

という訳でビルドが終わったので実行してみます.
入力
東方キャラの名前の読み推定がうまくいくか試してみます(趣味
博麗霊夢
霧雨魔理沙
十六夜咲夜
魂魄妖夢
東風谷早苗
出力
半分ぐらいうまくいきました.
博麗/名詞/はくれい 霊夢/名詞/れいむ
霧雨/名詞/きりさめ 魔/助詞/ま 理沙/名詞/りさ
十/名詞/じゅう 六/名詞/ろく 夜/接尾辞/よる 咲/接尾辞/さ 夜/名詞/よる
魂魄/名詞/こんぱく 妖/名詞/あやかし 夢/名詞/ゆめ
東風谷/名詞/こちや 早苗/名詞/さなえ
-->