唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

単語の頻度からLDAまでの流れの簡単なイメージのメモ

自然言語処理

トピックモデルのLDA(Latent Dirichlet Allocation)が難しいって話をよく聞きますけど，詳しい理論的な部分はともかくどういう流れに位置するものかってのはわかりやすいので簡単にメモ．
専門でないので，詳しくは参考文献を読んだほうがいいです．

トピック

同じ文書内で使われる確率が高いような似た意味を持つ単語の集まり．
例えばスポーツトピックなら「野球」「サッカー」「ボール」が出やすい，など．
トピックモデルは文書のトピックと，トピックに属する単語を推定する．

単語頻度からトピックモデルまでの流れのイメージ

文書をモデル化しよう→単語の頻度
同義語や多義語を捉えよう≒次元削減をしよう→LSA＝SVD→以下がトピックモデル
確率的にしよう→PLSI
ベイズ的にしよう＝訓練データに登場しなかったものにも対応できる→LDA
トピック数が自動で決まるようにしよう→ノンパラメトリックベイズのモデル

LDAの推論

推論の話は比較的難しいです．
主に以下の2つのいずれか．

LDAの元々の論文は推論に変分ベイズが出てきて難しいです……．
PRMLなどの機械学習の本をちゃんと読んでないと厳しいかも．

参考文献