論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012)

Twitterとかでの単語の正規化用の辞書を作る話。
例、2morw→tomorrow

一定の長さと頻度以上の単語のみを対象とする。

ある単語が出てきた時に周りに出てくる単語。
これが似ている単語は意味が似ていると考えられる。

品詞や構文的な情報は使っていない。

Amazon Mechanical Turkで作った正解データと一致したら、その頻度分スコアが増加。(Cumulative Gain)
窓幅3, bigram、ポジションインデックスあり、All、KLダイバージェンスのとき最も良い結果。

頻度とか編集距離とかstring subsequenceカーネルとか。
string subsequenceカーネルと、音声的な編集距離がよかった。

リランキングした結果をDiscounted Cumulative Gainで評価。
最終的に実際に文章の正規化に用いて評価。
既存の手作業によって作られた辞書と組み合わせると大きなF値の向上が見られた。

birthdayがbdayになったり、yがyouだったりwhyだったりするのは人間でも難しいと思いました(小学生並みの感想

唯物是真 @Scaled_Wurm