唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

Part-of-Speech Tagging for Twitter: Annotation, Features, and Experimentsを読んだ

概要

内容

  • Twitterのツイート1827件に品詞やハッシュタグ,URLなどといった25種類のタグを付けた.
  • タグ付けされたデータを下にCRF(Conditional Random Fields)で学習.
  • 学習において,以下のような特殊な独自の素性を用いた.
加えて用いた素性
  • ハッシュタグやメンションなどの書式に対する正規表現マッチ
  • 頻繁に先頭が大文字化される名詞かどうか
  • 従来のタグの辞書
  • Distributional similarity. ラベルなしのトークンから分布の素性を作成
  • Metaphoneアルゴリズムによる発音的な正規化