唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

Twitterのトピックを推定:"Finding Bursty Topics from Microblogs"(ACL 2012)

概要

トピック推定で用いられることの多いLDA(Latent Dirichlet Allocation)に以下の2つのマイクロブログ特有の要素を加えた.

  1. 同じ時間には同じようなトピックが出やすい.例えば大事件が起きた日
  2. ユーザーは時間に依存したイベントに関するトピックと,時間にはあまり依存しない個人的なトピックについて書く

1ツイート1トピックに限定.
LDAのパラメータはギブスサンプリングで推定.
バーストかどうかはトピックに割り当てられた個数の変化(LDAの出力)を元に推定.

既存のLDAや提案モデルから時間を考慮する部分をのぞいたモデル,個人的なトピックを考慮する部分をのぞいたモデルよりもうまくいった.

感想

マイクロブログの特性として挙げられている要素は納得のいくものばかりで綺麗なモデルだと感じた.