小説のセリフがどの登場人物のものかを推定する話。
教師ありのランキング学習(SVM-rankを利用)。
7割ぐらいは正解できるらしい
先行研究の教師ありの分類で使われている特徴量(セリフとの距離、登場人物の出現頻度、名前がセリフ中に出てくるかどうか)に加えて、以下のような情報を使っている
- 周囲のセリフの情報
- 連続したセリフは普通違う人物
- 2つ前のセリフと同じ人が発言している可能性が高い
- Actor-Topic model(先行研究で提案された教師なしのトピックモデル)
- 対話中に(地の文を含む)その人物の名前が出てくるかどうか
- 呼びかけ
- 呼びかけの次は呼びかけられた相手の発話の可能性が高い
- Logistic Regressionで学習して呼びかけかどうか識別してる
感想
なんで人間はほぼ100%の精度で発言した人がわかるんでしょうね?
この辺りの技術が発達して大量のWeb小説からセリフを抜き出して色々できると楽しそう