唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

最近読んだ論文(ACL2011)

"Deciphering Foreign Language"

パラレルコーパスや対訳辞書なしで機械翻訳を行っている論文!
モデルを作ってEMアルゴリズムやギブスサンプリングでパラメータ推定.
パラレルコーパスを使った方法とcomparableな結果って書いてあるけど,数値には大きな差があってどの辺からcomparableっていっていいものなのか気になった.

"Recognizing Named Entities in Tweets"

Twitterから半教師ありで固有表現を抽出.

"Lexical Normalisation of Short Text Messages: Makn Sens a #twitter"

Twitterのテキストをフォーマルなテキストに正規化.
文字の編集距離とか発音の近さとかを利用.