読んだ論文: Topic Modeling Ensembles

ICDM 2010の論文．
PLSA(PLSI)やLDAなどのトピックモデルに，アンサンブル学習の枠組みを導入する．

ある文書内の単語があるトピックをもとに生成されたと考えて，文書とトピック，単語間の関係を推定するモデル．
簡単に言うとある文書がどのトピックなのか，ある単語はどんなトピックで出現しやすいかなどを求める．

複数の学習の結果をまとめて一つのよりよい結果を得る手法．
三人寄れば文殊の知恵．

文書全体（コーパス）を複数のサブコーパスに分割し，それぞれに対してトピックモデルを適用する．
得られた結果（ベーストピック）に対してトピックモデルを適用することで最終的な（アンサンブル）トピックを得る．

通常のアンサンブル学習では頑健性や精度の向上などが強調されることが多いが，この手法では高速化やオンライン学習を期待．

$p(w,d)=p(d)p(w|d)=p(d) \sum_t p(t|d)p(w|t)$

$p(w,d|{c})=p(d|{c})p(w|d,{c})=p(d|{c}) \sum_{z \in Z_{c_d}} p({z}|d)p(w|{z})$

$p(w,{z})=p({}z})p(w|{z})=p({z}) \sum_{y} p({y}|{z})p(w|{y})$

PerplexityやAccuracyでアンサンブルでない手法に匹敵．場合によってはよりよい結果．
サブコーパスへの分割数を増やすごとに速度が向上し，十分な量があるコーパスに対しては分割数にほぼ比例するような結果

唯物是真 @Scaled_Wurm