CrowdSolving第1回コンペに参加しました 5/43位

CrowdSolving | データ分析・予測モデル作成のコンペサイトのコンペが終わったので、結果とかアプローチとか書いときます

以前書いた記事↓

タスクはユーザーの退会予測となっています。
ユーザーの一週間の行動(イベントタイプと日時のペア)が与えられた時に、一か月後ユーザーが退会するかどうかを予測します。

最終結果は5位でした。
ちなみに最終日の暫定順位が3位で、一番よかった時が2位でした。

結構順位が下がってるので過学習っぽいですね。

基本的に10分割交差検定の結果を見ながらモデルや特徴量を改善していきました。

Pythonで書いて、機械学習の部分はscikit-learnを使いました。
予測モデルはExtremely randomized treesとロジスティック回帰です。
この2つのモデルの出力の加重平均をとっています。

Extremely randomized treesに対してロジスティック回帰を組み合わせることで、AUCで0.003ぐらい上がっています。
微々たる差なので、実際のスコアにどの程度差を与えているのかはよくわかりません。

識別器は他にSVM,、ランダムフォレスト、Gradient boostingを試しました。

以下に使用した特徴量を列挙しました。
ちなみにモデルが一番重要だとした特徴量は課金関連のイベントでした、さもありなん。

以下はイベント総発生数の合計で割って、割合にしています。

イベントの発生間隔が1時間より多くあった回数
イベントの発生間隔が1時間未満だったときの時間の合計
n年にイベントが発生した回数
n月にイベントが発生した回数
- ただし、n月にイベントが発生した時はn月に+2/3して、更に15日より前ならn-1月に+1/3後ならn+1月に+1/3している
n / 3(切り捨て)時にイベントが発生した回数