唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文感想: "Exploiting Topic based Twitter Sentiment for Stock Prediction" (ACL 2013 short)

概要

Twitterから株価の指標の上下を予測する話。
似たような話は前からあるけど、この論文ではトピックモデル(前の日のトピックを考慮したDirichlet Process Mixture)を使ってよい結果を出している

よくTwitterのデータをトピックモデルに適応する時と同様に1ツイートごとに1トピックの制限をしている。
日ごとにトピックモデルを適用しているが、前日のトピックが引き継がれる場合もあるようにしている

データセットは株価名のシンボルをキーワードとしてTwitterから集めている

トピックモデルで得られたトピックの系列とレキシコンを利用して得られた単語の極性(ポジティブ、ネガティブ)から計算したスコアを使って、時系列解析のVARモデルを適用して、株価指標の上下を予測

上下の符号が一致したかどうかの正解率で評価していて、提案手法は6割ぐらいの正解率(先行研究は5割半ばぐらい)

感想

6割当たるってすごいけど、どれぐらいから実用的?
予想してるのは株価の指標だけど、たぶん個々の株価は難しいんでしょうね

ノンパラメトリックなトピックモデルとか時系列解析のモデルとかを概要しか知らないので、あまり深いところまでは理解できなかった

先行研究では単語のポジネガの割合とかを使ってたような気がするのですが、この論文で急に使っている技術のレベルが上った印象が……(ノンパラメトリックで連続なトピックモデル
それともトピックモデルはもう基礎技術なのかなぁ