概要
論文の文体から以下の3つのタスクをSVMを用いて識別.
- 英語ネイティブか否か
- 性別
- カンファレンスかワークショップか
使用されているfeature
- Bow(単語)
- Style(文体)
- Syntax(構文)
結果
F値でネイティブかどうかは90程度,性別は50弱,カンファレンスかどうかは65ぐらい.
featureの考察
色々あるので面白そうなのだけ.
ネイティブは"e.g."を好んで使うが非ネイティブは"i.e."や"cf", "etc"を使うらしい.
非ネイティブは受動態が多いとか納得できるようなよくわからないような…….
レベルの高い学会に通る論文に以下のような単語が特徴的ってのは納得がいった.
"baseline","significant","improvement","best", "error", "outperforms"
逆にワークショップの方だと以下のようなのが特徴的らしい.
"preliminary", "able to", "further NN", "will be", "possible"
女性は代名詞が多いらしい(?)
感想
手法はさておき,どんなfeatureが効果的だったかの考察が面白かった.
Tree Substituion Grammar(TSG)というのを始めてみた.