唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文感想: "Identification of Speakers in Novels" (ACL 2013)

論文自然言語処理

"Identification of Speakers in Novels"(pdf)

小説のセリフがどの登場人物のものかを推定する話。
教師ありのランキング学習(SVM-rankを利用)。
7割ぐらいは正解できるらしい

先行研究の教師ありの分類で使われている特徴量(セリフとの距離、登場人物の出現頻度、名前がセリフ中に出てくるかどうか)に加えて、以下のような情報を使っている

周囲のセリフの情報
- 連続したセリフは普通違う人物
- 2つ前のセリフと同じ人が発言している可能性が高い
Actor-Topic model(先行研究で提案された教師なしのトピックモデル)
対話中に(地の文を含む)その人物の名前が出てくるかどうか
呼びかけ
- 呼びかけの次は呼びかけられた相手の発話の可能性が高い
- Logistic Regressionで学習して呼びかけかどうか識別してる

感想

なんで人間はほぼ100%の精度で発言した人がわかるんでしょうね？

この辺りの技術が発達して大量のWeb小説からセリフを抜き出して色々できると楽しそう