2012-01-16 "A Simple Word Trigger Method for Social Tag Suggestion", EMNLP 2011 論文 "A Simple Word Trigger Method for Social Tag Suggestion" 統計的機械翻訳の手法を用いて,説明文付きのリソースに対してタグ付けを行う論文. 従来手法の問題点 協調フィルタリング 誰もタグ付けしていないリソースには推薦できない 識別モデル ユーザーのタグ付けにはノイズが含まれる 実応用ではタグ数(クラス数)が膨大 生成モデル(LDAなど) トピック数の問題 固有名詞などの粒度の細かいタグは推薦されにくい 提案手法 説明文とタグをパラレルコーパスとして,統計的機械翻訳手法のIBMモデル1を用いて対応関係を学習 タグと説明文の長さの比率を整えるためにサンプリング IBMモデル1で説明文の単語からタグへの翻訳確率と逆方向の翻訳確率を学習 両方向の翻訳確率の調和平均を求め,確率として正規化 説明文中の単語のスコア(TF-IDFなど)と翻訳確率の積を最終的なスコアとし,説明文全体に対して推薦されるタグのスコアを計算 スコアの値が上位のものを推薦 IBMモデル1の説明 IBM Model 1の実装 - nokunoの日記 http://www.statmt.org/book/slides/04-word-based-models.pdf