与えられた文章が嘘かどうかを識別するタスク
Amazon Mechanical Turkで大勢の人に、本当の意見と嘘の意見を書いてもらってデータセットにしている。
ナイーブベイズやSVMを使って5から6割ぐらいうまくいっている(正例と負例が半々なのでランダムだと5割
特徴量については書いていないもののおそらく単語を使っている
正しい文と嘘の文に含まれていた単語を比べると、正しい方には「一人称」に関する単語"I, myself, mine, our"などや「洞察」に関する単語""believe, think, know, see"などが多かった
逆に嘘の方には、「二人称や三人称」、「人間」に関する単語と、度合いに関する単語"always, all, ver, truly"などが多かった
データセットを作るときに死刑や中絶などをテーマにしているが、意見を半々に分けていなさそうなので、かなり偏りがありそう。
なのでタスクとして目的の物を解いているか確かではない気がする