唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文感想: "Stylometric Analysis of Scientific Articles"(NAACL-HLT 2012)

概要

論文の文体から以下の3つのタスクをSVMを用いて識別.

  1. 英語ネイティブか否か
  2. 性別
  3. カンファレンスかワークショップか

使用されているfeature

  • Bow(単語)
  • Style(文体)
  • Syntax(構文)

結果

F値でネイティブかどうかは90程度,性別は50弱,カンファレンスかどうかは65ぐらい.

featureの考察

色々あるので面白そうなのだけ.

ネイティブは"e.g."を好んで使うが非ネイティブは"i.e."や"cf", "etc"を使うらしい.
非ネイティブは受動態が多いとか納得できるようなよくわからないような…….

レベルの高い学会に通る論文に以下のような単語が特徴的ってのは納得がいった.
"baseline","significant","improvement","best", "error", "outperforms"
逆にワークショップの方だと以下のようなのが特徴的らしい.
"preliminary", "able to", "further NN", "will be", "possible"

女性は代名詞が多いらしい(?)

感想

手法はさておき,どんなfeatureが効果的だったかの考察が面白かった.

Tree Substituion Grammar(TSG)というのを始めてみた.

参考

画像処理の観点から国際会議に通る論文かどうかを識別する話.
面白いのでついでに紹介