唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文感想: "Finding Deceptive Opinion Spam by Any Stretch of the Imagination"

ACL2011の論文.

概要

最近食べログとかのステマが話題になりましたが,この研究は数値によるレビューではなく文章によるレビューに対するspamの検出.
Amazon Mechanical Turkを使って偽の褒めるレビューを書いてもらって,それと実際の高評価のレビューの中から信頼度の高いものを選んでgold-standardのデータセットを作成.
作成したデータセットで人間にspamかどうか判定してもらったところ精度は6割程度.
SVMで,n-gramや心理言語学的な素性(平均単語数やミススペル数,感情的な単語や空間的な単語といったキーワードの有無など)を利用して識別したところ9割弱の精度.
ただしn-gramだけでもほとんど同程度.

感想

偽のレビューのデータセットは入手できないので,Amazon Mechanical Turkで作成するっていうのが面白かった.
作成したデータセットが本当に真のレビューと偽のレビューの識別問題になっているかが少し疑問.
レビューを書いた人物の層の違いによって,実際には著者の推定や著者の属性推定的なものを解いている可能性もあるのかなと感じる.

参考

著者のサイト.データやスライドを配布してる.WWW 2012でも偽レビュー関係の論文を出してるらしい.