唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文感想: "Identification of Speakers in Novels" (ACL 2013)

小説のセリフがどの登場人物のものかを推定する話。
教師ありのランキング学習(SVM-rankを利用)。
7割ぐらいは正解できるらしい

先行研究の教師ありの分類で使われている特徴量(セリフとの距離、登場人物の出現頻度、名前がセリフ中に出てくるかどうか)に加えて、以下のような情報を使っている

  • 周囲のセリフの情報
    • 連続したセリフは普通違う人物
    • 2つ前のセリフと同じ人が発言している可能性が高い
  • Actor-Topic model(先行研究で提案された教師なしのトピックモデル)
  • 対話中に(地の文を含む)その人物の名前が出てくるかどうか
  • 呼びかけ
    • 呼びかけの次は呼びかけられた相手の発話の可能性が高い
    • Logistic Regressionで学習して呼びかけかどうか識別してる

感想

なんで人間はほぼ100%の精度で発言した人がわかるんでしょうね?

この辺りの技術が発達して大量のWeb小説からセリフを抜き出して色々できると楽しそう