唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文感想"Using paraphrases for improving first story detection in news and Twitter"

"Using paraphrases for improving first story detection in news and Twitter"
NAACL2012の論文。
パラフレーズ(言い換え)を利用してTwitterからFirst Story Detection(FSD)を行う。

概要

表現の多様性がFSDのタスクでは問題になる。
そこでパラフレーズの知識(Wordnetなど)を利用して、この問題を軽減する。
本論文はパラフレーズをFSDのタスクに利用した最初の論文であり、先行研究よりよい結果を示した。
またTwitterのデータをFSDのタスク用にラベル付けしたコーパスを作成。

感想

パラフレーズの行列を表す計算を近似したり、LSHを使ったり工夫しているが、あまり内容的には面白くなかった。
表現の多様性(データのスパース性)の対策としては、論文内で使ってるみたいにWordnetとかMSR paraphraseコーパスとか使ったほうが、LSAとかLDAで次元削減するよりもやっぱりいいんですかね?