唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

"A Simple Word Trigger Method for Social Tag Suggestion", EMNLP 2011

統計的機械翻訳の手法を用いて,説明文付きのリソースに対してタグ付けを行う論文.

従来手法の問題点

協調フィルタリング
  • 誰もタグ付けしていないリソースには推薦できない
識別モデル
  • ユーザーのタグ付けにはノイズが含まれる
  • 実応用ではタグ数(クラス数)が膨大
生成モデル(LDAなど)
  • トピック数の問題
  • 固有名詞などの粒度の細かいタグは推薦されにくい

提案手法

説明文とタグをパラレルコーパスとして,統計的機械翻訳手法のIBMモデル1を用いて対応関係を学習

  1. タグと説明文の長さの比率を整えるためにサンプリング
  2. IBMモデル1で説明文の単語からタグへの翻訳確率と逆方向の翻訳確率を学習
  3. 両方向の翻訳確率の調和平均を求め,確率として正規化
  4. 説明文中の単語のスコア(TF-IDFなど)と翻訳確率の積を最終的なスコアとし,説明文全体に対して推薦されるタグのスコアを計算
  5. スコアの値が上位のものを推薦