『言語処理のための機械学習入門 (自然言語処理シリーズ)』(いわゆる高村本)で研究室の後輩が勉強会をしていて、自分でも一瞬わからなかったのでメモ。
PLSAとかPLSIとかアスペクトモデルとか名前がいろいろあってよくわからないです。
同時確率
文書を、単語を、トピック(クラスタ)をとしたとき同時確率は以下のようになる。
Q関数
とおくと
Q関数は
突然が出てきて説明が無いですが、たぶんになる回数とか頻度とかです。
Eステップ
Mステップ
確率なので、以下の制約を満たさなければならない。
このときラグランジュ関数
について
で偏微分して
式変形すると
制約より
よって
式変形後の式に代入すると
について
と同様。
制約より
について
と同様。
制約より
余談(他の定義)
- probabilistic latent semantic analysis - 機械学習の「朱鷺の杜Wiki」
- Probabilistic latent semantic analysis - Wikipedia, the free encyclopedia
↑の記事とかを見ると書いてあるんですが、PLSAは式の他にもの形で定義されているときもあります。
参考文献
- 作者: 高村大也,奥村学
- 出版社/メーカー: コロナ社
- 発売日: 2010/07
- メディア: 単行本
- 購入: 13人 クリック: 235回
- この商品を含むブログ (36件) を見る