概要
Twitterから株価の指標の上下を予測する話。
似たような話は前からあるけど、この論文ではトピックモデル(前の日のトピックを考慮したDirichlet Process Mixture)を使ってよい結果を出している
よくTwitterのデータをトピックモデルに適応する時と同様に1ツイートごとに1トピックの制限をしている。
日ごとにトピックモデルを適用しているが、前日のトピックが引き継がれる場合もあるようにしている
データセットは株価名のシンボルをキーワードとしてTwitterから集めている
トピックモデルで得られたトピックの系列とレキシコンを利用して得られた単語の極性(ポジティブ、ネガティブ)から計算したスコアを使って、時系列解析のVARモデルを適用して、株価指標の上下を予測
- Rで計量時系列分析:VARモデルの基礎(多変量時系列モデル) - 銀座で働くデータサイエンティストのブログ
- VARモデルの解説
- 同じ人のスライド「Rで計量時系列分析~CRANパッケージ総ざらい~」もわかりやすかったです
上下の符号が一致したかどうかの正解率で評価していて、提案手法は6割ぐらいの正解率(先行研究は5割半ばぐらい)
感想
6割当たるってすごいけど、どれぐらいから実用的?
予想してるのは株価の指標だけど、たぶん個々の株価は難しいんでしょうね
ノンパラメトリックなトピックモデルとか時系列解析のモデルとかを概要しか知らないので、あまり深いところまでは理解できなかった
先行研究では単語のポジネガの割合とかを使ってたような気がするのですが、この論文で急に使っている技術のレベルが上った印象が……(ノンパラメトリックで連続なトピックモデル
それともトピックモデルはもう基礎技術なのかなぁ