唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文感想: "The lie detector: explorations in the automatic recognition of deceptive language" (IJCNLP 2009 Short)

与えられた文章が嘘かどうかを識別するタスク

Amazon Mechanical Turkで大勢の人に、本当の意見と嘘の意見を書いてもらってデータセットにしている。
ナイーブベイズSVMを使って5から6割ぐらいうまくいっている(正例と負例が半々なのでランダムだと5割
特徴量については書いていないもののおそらく単語を使っている

正しい文と嘘の文に含まれていた単語を比べると、正しい方には「一人称」に関する単語"I, myself, mine, our"などや「洞察」に関する単語""believe, think, know, see"などが多かった
逆に嘘の方には、「二人称や三人称」、「人間」に関する単語と、度合いに関する単語"always, all, ver, truly"などが多かった

データセットを作るときに死刑や中絶などをテーマにしているが、意見を半々に分けていなさそうなので、かなり偏りがありそう。
なのでタスクとして目的の物を解いているか確かではない気がする