唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

2013年にはてブされたこのブログの記事

2012年版で「ブクマ数2桁いきたい」と言っていたら2013年は3桁が出ました(驚
やっぱりライブラリの紹介とか流行りものとかが強いみたいですね

以下トップ10の簡単な紹介
データ分析と機械学習とアルゴリズムの記事しかないですね

ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

f:id:sucrose:20130529223810p:plain
ニコニコ動画のデータセットが公開されたので簡単に試してみた記事
バズった瞬間に一時的にブクマされたけど、それ以降はあまりブクマされてない傾向

公開から結構たつけど、観測範囲の問題なのか、それともデータの使いづらさの問題なのか、ニコ動データセットを使った他のブログ記事とかはあまり見かけないですね……
私が見かけたのはニコニコ学会βデータ研究会の発表と以下の記事ぐらい

pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm

Python機械学習ライブラリscikit-learnの紹介記事
使いやすいのでおすすめです、日本語情報が少ないような気もしますが

機械学習が流行ってるおかげなのか、わりと継続的にブクマが増えている

新機能とか紹介してない機能とか、他の機械学習系のライブラリとかも記事にしたいけど、なかなか時間がなくてできてない
あと最近話題のDeep Learningのライブラリが気になります
どこかにわかりやすい記事がないかなぁ

小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm

f:id:sucrose:20130426015613p:plain
Web小説(のタグ)にトピックモデル(LDA)を試してみた記事
トピックモデルの話よりもタグクラウドでの可視化の方が目立っているような気も……

トピックモデルを小説に適用する話だと最近書かれた以下の記事が面白かったです

Twitterの投稿時間で類似度を計算してみた - 確率分布の類似度 - 唯物是真 @Scaled_Wurm

確率分布の類似度を計算する話
みんな大好き(?)KLダイバージェンスとかを使ってTwitterの投稿時間分布の差を調べています

論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm

トピックモデルで推定したトピックに適切な画像を選ぶ話
論文紹介がブクマされるのは珍しいのでびっくり
画像がたくさん出てくるからわかりやすかったのかな(?)

あんまり画像の分野には詳しくなかったので、bag of visual wordsとかの特徴量について調べるのが面白かったです

Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm

上の方の記事でも使ったPythonのトピックモデルのライブラリgensimの使い方
最近Deep Learningを使って意味をとらえた単語のベクトルを作るプログラムのword2vecが話題になっていましたが、gensimは独自にword2vecをPythonで再実装していたりもします

CrowdSolving第1回コンペに参加しました 5/43位 - 唯物是真 @Scaled_Wurm

和製kaggleといっていいのかわかりませんが、機械学習の賞金付きコンペのCrowdSolvingに参戦した記録です

SVMとかを実際に色々いじくるのはこの頃が初めてだったの色々勉強になりました
他のコンペにも参加したのでついでに載せときます

キャラソートのアルゴリズムについて調べた - 唯物是真 @Scaled_Wurm

いわゆるキャラソートのアルゴリズムについて調べた後、上位k件までソートする方法についても調べています

記事中でリンクした記事の著者の方に反応してもらえたのが嬉しかったです

同じ日にこの方がつぶやいていた、一定確率で比較を間違える場合のソートの話も面白かったです

LIBSVMとかLIBLINEARとかのメモ - 唯物是真 @Scaled_Wurm

機械学習のライブラリのLIBSVMやLIBLINEARでいろんな評価尺度を出力したり、確率値を出したり、並列化したりする方法のメモ

あと以下の重みを見る方法の記事とかも役立つと思います

ちなみに上で紹介したscikit-learnを使えば関数一つで重みが見れたりします