唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

単語感情極性対応表のミス?

日記の下書き一覧を見てたら,昔の書き上がってる記事があったので蔵出し.


「単語感情極性対応表」という単語がポジティブ(+1)かネガティブ(-1)かというスコアをつけた辞書が公開されています.
商品や人物などについてどんな評判が囁かれているかを推定するといったタスクに使うことができます.


フォーマットは「見出し語:読み:品詞:感情極性実数値」.
同音異義語や,同表記だが音が異なる単語,表記の揺れなどがあるので目的の単語を探すのは難しいです.
単語がネガティブに寄っていたようなイメージがあります.
スコアの絶対値が高いような単語だけを評価に使うと信頼度が高いかも.

ミス?

中身を見ていていくつか辞書に誤りのようなものを発見.
一部は仕様かもしれないですが.

同じ見出し語で複数のエントリ
  • 群集:ぐんしゅう:名詞:-0.448989
  • 群集:ぐんしゅう:名詞:-0.457226
  • 気:け:名詞:-0.0170344
  • 気:け:名詞:-0.978644
単語の分割ミス?
  • 大和:やまとなでしこ:名詞:-0.255471
  • 大和:やまとことば:名詞:-0.256392
  • 大和:やまとうた:名詞:-0.355588
  • 大和:やまとしまね:名詞:-0.395319
  • 大和:やまとごころ:名詞:-0.400031
  • 大和:やまとごと:名詞:-0.407539
  • 大和:やまとだましい:名詞:-0.428098
  • 大和:やまとえ:名詞:-0.456326
  • 大和:やまと:名詞:-0.468667
  • 大和:やまといも:名詞:-0.469222
  • 大和:やまとべい:名詞:-0.571956
空白が入っている
  • ワン ピース:ワン ピース:名詞:-0.238879