唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文感想: "Creating Stories: Social Curation of Twitter Messages"(ICWSM2012)

追記

読んだ論文とリンク先の論文(4ページ)が微妙に違うっぽいというか、前に印刷したものと同じ内容の論文(8ページ)を見つけられなかった……なんで?

概要

自動でTogetterっぽいのを作る論文。

種となるツイート集合が与えられた時に追加すべきツイートをランキングするタスクに落としこんでいる。
SVMrankを使って学習。

学習に用いたFeature

  • 種となるツイートとの単語的な類似度の和(TF, TFIDF, binary, sumBM25, のcos類似度)。
  • 種となるツイートとのハッシュタグの類似度の和
  • 種に含まれる著者のツイートか
  • 種に含まれるのと同じ@言及先を持つか
  • 種に含まれるのと同じURLを含むか
  • 種に含まれる著者への言及か

データ

Togetterからクロールしてきたデータをトレーニング、バリデーション、テスト用に分割。
別にランキング対象用のツイートを集めてくる。
まとめ内からランダムに取ってきた20%を種とし、集めてきたツイートをランキング付けする。

結果

SVMrankがMAPで0.857。
TFIDFでMAP0.825。

感想

教師なしの方法であるTFIDFでcos類似度を計算するだけでもMAPで0.825もいくのに驚いた。