↑データなども公開されているみたいです
マイクロブログ(TwitterとWeibo)中のツイートから「パラレルな(翻訳になっている)」文章が含まれているものを集めてくる話
基本的には一つのツイート中に複数の言語が含まれている場合に限る
単語をカバーしてる割合、言語判定のスコア、IBMモデル1の確率などからスコアを計算して閾値以上のものを翻訳になっているとみなす
ツイートのうちのある範囲と別の範囲との間のスコアを動的計画法で計算
8,9割のPrecisionとRecallで翻訳が含まれているツイートを見つけられた
範囲はWord Error Rate(挿入と削除だけ)で10%強ぐらい間違っている(ツイート全体に対する比率なのでおよそ1から9単語ぐらい間違っているらしい
通常のデータにこの手法で得られたパラレルなデータを加えて機械翻訳すると、新語などが得られているのでよくなるらしい(評価の辺りの話は適切かどうかよくわからない
感想
英語と中国語、英語とアラビア語のペアについて実験しているが、他の言語でもこういうツイートがあるのか気になった
観測範囲の問題かもしれないが、英語と日本語のパラレルなツイートを見かける機会は全然ないので……