以前サザエさんのじゃんけん予測問題のサーベイをした時にサザエさんとプリキュアのジャンケンデータをダウンロードするスクリプトを書きかけて放置していたのを見つけたので、完成させて公開します。
キュアピースのデータは30弱ぐらいしかないので、予測とかには使えないかもしれません。
データのダウンロード元
特に許可などをとっているわけではないのでまずそうなら公開停止します。
スクリプトの説明
↑からダウンロードできます。
使い方
python getSazaeData.py | python sazaeDataToFeature.py 3 > sazae.tri python getPrecureData.py | python precureDataToFeature.py 3 > precure.tri
とかやるとlibsvm形式のデータが得られるので識別したりなんだりできます。
ちなみに特にパラメーターを弄らずに線形カーネルで分類した結果を載せときます。
svm-train -t 0 -v 10 sazae.tri
Cross Validation Accuracy = 49.8413%
注意点
番組が休みの場合や、別の人がジャンケンをしたときなどは適当に取り除いています。
sazaeDataToFeature.py のあとに与える引数を変えると、過去何番目までの手の情報を与えるかを変えられます。
グー、チョキ、パーにそれぞれ0-2の値を割り振って、過去のn番目の手について"手の種類の値 + 3 * n"番目の素性を1としています。