唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

2014年にはてブされたこのブログの記事

ちょっと早いですが今年のまとめです
ちなみに去年のはこちら

2013年にはてブされたこのブログの記事 - 唯物是真 @Scaled_Wurm
以下今年書いた記事の現時点でのトップ10です(同数なので11個

毎日が天皇誕生日になるには何回天皇が交代する必要があるか(シミュレーション版) - 唯物是真 @Scaled_Wurm
毎日が天皇誕生日になるとよいなーって話
前に書いた毎日が天皇誕生日になる期待値の記事が全然話題にならなかったので、これがたくさんツイートとかはてブされて驚きました
天皇誕生日に記事を公開してタイミングがよかったからなんでしょうね

進捗ありません - 修士4年間の振り返り - 唯物是真 @Scaled_Wurm
去年の12月頃は「研究室の窓から飛び降りてやる」とか考えていた気もしますが、なんとか無事(?)に一年後を迎えることができましたね……
一応最近はバイトをしてなんとか糊口をしのいでいます
今後の人生どうなるかわからないですが心安らかに生きていきたいです

Pythonで出力したCSV(UTF-8)がExcelで読み込めなくて困った話 - 唯物是真 @Scaled_Wurm
さすがExcel!やっぱり需要がある記事を書いたほうが読まれるんですね
CSVで出して」って言われてCSVで書き出したら、「Excelで文字化けして読めない」ってたまに二度手間になります

大量のテキストからランダムに少数の行を抽出したい - Reservoir Sampling - 唯物是真 @Scaled_Wurm
全体の大きさがわからないデータからランダムにサンプリングする話です
シャッフルのアルゴリズムでよく出てくるFisher Yates法と似たような方法です

Pythonのcollectionsモジュールが地味に便利 - 唯物是真 @Scaled_Wurm
「地味に便利」と書きましたがPythonのcollectionsモジュールはほんとによく使います(あとitertoolsも

日本語形態素解析器のイメージ - 唯物是真 @Scaled_Wurm
主にMeCab(とJumanを少し)しか使ったことがなかったので、ブコメでのKuromoji推しにはちょっと驚きました
ちょうどKuromojiのJavaScript移植版が紹介されていたので記事のリンクを貼っときます


Pythonの文字列中の変数展開(str.format)のメモ - 唯物是真 @Scaled_Wurm
文字列に変数を展開する方法って言語ごとに微妙に違ってわからなくなってよく検索します……

サザエさんのジャンケンの次の手を決定木で予測+可視化してみた - 唯物是真 @Scaled_Wurm
サザエさんのジャンケンをdeep learningで予想するのをやりたいなーと前から思っているのですが、なかなか手を出せていません(あまりうまくいかない気がする

草「w」はどんなコメントに生えるか? - 唯物是真 @Scaled_Wurm
ニコニコのデータでなんかやりたいなーと思っていた時期があっていろいろ試してました

ニコニコ大百科のデータが公開されたらしい - 唯物是真 @Scaled_Wurm

ニコニコ大百科のデータとかせっかく公開されたのでなにかおもしろいことをやりたいのですがなかなか思いつかないです

論文感想: "Machine Learning: The High-Interest Credit Card of Technical Debt" - 唯物是真 @Scaled_Wurm
久しぶりに論文読みました
機械学習を含むシステムのメンテとかなかなか考えたくない問題ですね……

来年は機械学習のコンペにもうちょっと参加したい

今年はいろいろ開催されたのに全然参加できなかった
目標に「kaggleに参加する」とか書いてた気がするんだけど……
画像認識系だとまったく手が出ないのもなんとかしたい

機械学習のコンペは、訓練データが与えられてそれで何かしら予測モデルを作って予測結果を提出するっていう形式が多いです
途中のランキング用のデータと最終評価用のデータが別にあってうまく予測できているかを競います
賞金付きなのが結構多く、学生限定とかの出場制限もあまりありません
ちなみに素性エンジニアリングとかをがんばるのなら時間がある方が有利かなと思うので学生の人におすすめです(?)

コンペが開催されてるサイト

kaggle(英語)

一番の大手。参加者が多くて相手が強すぎる感じもする
終了後にフォーラムとかブログとかで手法が公開されていることが多いので参考になる

OPT DataScienceLab(日本語)

日本語のコンペサイトの中では最近活発なイメージ
直近のコンペでleakageが話題になってたけどどうなったんだろう?


CrowdSolving(日本語)

最近は学生向けのコンペをやってたけど、もう学生でないので参加できない……
前に賞金をいただきました

クラソル(CrowdSolving)の第3回コンペの結果: 1/16位 - 唯物是真 @Scaled_Wurm

CrowdSolving「【チャレンジコンペ】記事間のリンク推定」の「入賞者の予測手法紹介」が公開されていた - 唯物是真 @Scaled_Wurm

TopCoderマラソンマッチ(英語)

競技プログラミングで有名なTopCoderだけど、マラソンマッチ(長期間のコンテスト)では機械学習系のコンテストも多い(だいたい賞金付き)
提出形式とか使えるライブラリとかが特殊(ソースコードを1ファイルで提出、実行時間に制限があるのが多い)なのと、開催期間が2週間ぐらいと短いことが多いのが特徴
下のは今年唯一参加した機械学習系のコンペですが、簡単な手法でそこそこの順位でした

TopCoder マラソンマッチ AlleleClassifier に参加した(11/154位) - 唯物是真 @Scaled_Wurm

その他

これら以外にも2014年はZOZOTOWNのデータを使ったコンペとかがあった