唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

CrowdSolving「【チャレンジコンペ】記事間のリンク推定」の「入賞者の予測手法紹介」が公開されていた

1位から5位になった人の手法が公開されています
あと1位だった私のインタビューも載ってるみたいです(恥ずかしいので確認してないですが

自分の手法の大雑把な説明

上の記事に細かく書いてあると思うんで大雑把に説明しておくと、正解に含まれるリンクありのペア以外のものをランダムに選んでリンクなしのペアとみなして、Random Forestで二値分類として学習しました
いろんな特徴量を試してよさそうだったものを使っていますが、効いてなさそうな特徴量も一部そのまま入ってます

「入賞者の予測手法紹介」を見て

上位5人を見るとPythonでやったのは私だけで、やはりRが3人もいて多かったみたいです(もう一人がOctaveだったのは意外!

私と3位の方は教師ありの二値分類で解いています。
しかし他の方がコサイン類似度などの尺度そのものを使っているだけなのには驚きました
コサイン類似度などだけであんなに高いスコアが出るんですね

余談

賞金を得るための手続きがそこそこ大変でした
追加でインタビューもされたので、やりとりが終わるまでには結構時間がかかりました