概要
通常の統計的機械翻訳ではパラレルコーパスという同じ文の対訳データやコンパラブルコーパスという同じようなトピックについて書かれたデータなどを利用することが多い.
この研究では対訳データ等ではなく,単純なそれぞれの言語の文書から学習して統計的機械翻訳を行う.
ACL2011の"Deciphering Foreign Language"の発展系っぽい.
先行研究ではn-gramの情報を利用していたが,この研究では文脈の情報も利用している.
EMアルゴリズムにおいて,翻訳確率がゼロではない単語の個数を制限することによって10から20倍の大幅な高速化を達成している.
またBLEU値も1.6増加.
手法の概略
- EMアルゴリズムにおいて翻訳確率がゼロではない単語の個数を制限することによって高速化
- このとき翻訳候補となる単語は文脈ベクトルの類似度が高いもの
- 文脈類似度は,翻訳先言語での単語の文脈ベクトルと,翻訳元言語を現在のパラメータで翻訳した文における単語の文脈ベクトルの類似度で計算
感想
ACL2011の"Deciphering Foreign Language"を読んで面白いと思ったので,それを更に10倍以上高速化したと聞いて驚いた.
手法としてものすごいって感じではないけれど,タスクが興味深いので今後の進展が楽しみ.
ただしBLUEが10-20ぐらいなので,まだまだ実用的ではないのかなーって感じもする.