- Creating Stories: Social Curation of Twitter Messages
- Akisato Kimura: Research Interests: Assisting social curation of Twitter messages
追記
読んだ論文とリンク先の論文(4ページ)が微妙に違うっぽいというか、前に印刷したものと同じ内容の論文(8ページ)を見つけられなかった……なんで?
学習に用いたFeature
- 種となるツイートとの単語的な類似度の和(TF, TFIDF, binary, sumBM25, のcos類似度)。
- 種となるツイートとのハッシュタグの類似度の和
- 種に含まれる著者のツイートか
- 種に含まれるのと同じ@言及先を持つか
- 種に含まれるのと同じURLを含むか
- 種に含まれる著者への言及か
データ
Togetterからクロールしてきたデータをトレーニング、バリデーション、テスト用に分割。
別にランキング対象用のツイートを集めてくる。
まとめ内からランダムに取ってきた20%を種とし、集めてきたツイートをランキング付けする。
結果
SVMrankがMAPで0.857。
TFIDFでMAP0.825。
感想
教師なしの方法であるTFIDFでcos類似度を計算するだけでもMAPで0.825もいくのに驚いた。