2011-08-24 Part-of-Speech Tagging for Twitter: Annotation, Features, and Experimentsを読んだ 論文 概要 pdf, ACL 2011, short paper. Twitterのテキスト(英語)に対して形態素解析を行っている論文で,そのデータやソースコードはTwitter Part-of-Speech Taggingから入手できる. ツイートに適したタグのセットを提案し実際にタグ付けしている. またTwitterの形態素解析に適した素性の提案をして,90%近い精度を得た. 内容 Twitterのツイート1827件に品詞やハッシュタグ,URLなどといった25種類のタグを付けた. タグ付けされたデータを下にCRF(Conditional Random Fields)で学習. 学習において,以下のような特殊な独自の素性を用いた. 加えて用いた素性 ハッシュタグやメンションなどの書式に対する正規表現マッチ 頻繁に先頭が大文字化される名詞かどうか 従来のタグの辞書 Distributional similarity. ラベルなしのトークンから分布の素性を作成 Metaphoneアルゴリズムによる発音的な正規化