唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文感想: "Data-Driven Response Generation in Social Media"

研究室の論文紹介で紹介されたEMNLP2011の論文。

概要

Twitterなどのようなメッセージに対する応答を自動生成。
メッセージとその応答のコーパスに対して統計的機械翻訳の手法を使ったら、類似度の一番高いツイートを選ぶ方法よりもうまくいった。
人手と比べるとあまりうまくいってない。


単純にアラインメントをとると同じ単語同士の翻訳確率が高くなってしまうので、フレーズ内でかぶった単語数に基づくペナルティを与える。
またフレーズペアの抽出はフィッシャーの正確確率検定を使ってうんぬん。