論文感想: "TopicSpam: a Topic-Model based approach for spam detection" (ACL 2013 short)

"TopicSpam: a Topic-Model based approach for spam detection"

概要

spam detectionとなっているけれど、以前紹介した以下の論文と同様に、偽のレビューの検出を行っている

論文感想: "Finding Deceptive Opinion Spam by Any Stretch of the Imagination" - 唯物是真 @Scaled_Wurm

データセットも上の論文と一緒

先行研究ではSVMなどでのテキスト分類で解かれていたが、この論文ではトピックモデル(LDAベース)を使っている
このトピックモデルでは単語は、バックグラウンドトピック、ホテル特有のトピック、「本当のレビュー」のトピック、「偽のレビュー」のトピックのいずれかから生成されたと考える

レビュー中の単語が「本当のレビュー」のトピックか「偽のレビュー」のトピックのどちらに属しているかの割合でレビューの真偽を判定

以下に論文中の生成モデルとグラフィカルモデルの図を示す
\(i\)はデータのラベル情報になっていて、\(i=1\)が偽のレビューのトレーニングデータ、\(i=2\)が本当のレビューのトレーニングデータ、\(i=3,4\)がテストデータを表している