唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

2012-01-01から1年間の記事一覧

"cross-validation"の訳語って何?

機械学習や統計では"cross-validation"という手法が使われています。 詳細は以下のURLなどを見てもらえるといいのですが「データを分割し一部()を評価用、その他()を訓練用として性能を評価する」というのを評価用か訓練用かを入れ替えて通りについて行い、…

ZenBackとやらを導入してみた

関連記事とか手作業でつけてるのはさすがに残念なのでZenBackとやらを導入してみた。はてなダイアリーのときは、はてなキーワード経由で人が来るのがありましたけど、はてなブログではそういうのもなくなってしまいましたねー。AdBlockで弾かれてるので気に…

Pythonのlistとnumpy.arrayとかの速度比較

導入 Pythonの数値計算ライブラリNumPyのarrayを使って、標準のlistを単純に置き換えてみると遅くなることが多いです。 実際どれぐらい速度に差があるのかlist, array, numpy.arrayで比較してみました。 処理時間の計測 Pythonに含まれるライブラリのtimeit…

xargsを使った並列化を試したメモ

xargs -P が激しく便利なのでメモ - 新生おともだち研究会 xargs を使ってカジュアルに並列処理 - tagomorisのメモ置き場 ↑の辺りの記事を読んでxargsによる並列化を試してみたメモ。 結果を先に書いておくと、残念ながら並列化してもあまり速くならなかった…

AtCoder Regular Contest #010 参加メモ

Welcome to AtCoder Regular Contest #010 - AtCoder Regular Contest #010 | AtCoder 現実逃避にAtCoderに参加しました。 AとBしか解けず。Bがなぜか解けないと思ったら、今年がうるう年だという事を忘れていましたorzCは無理矢理解こうとしましたが、厳密…

論文感想: "TCSST: Transfer Classification of Short & Sparse Text Using External Data"(CIKM 2012)

TCSST: Transfer Classification of Short & Sparse Text Using External Data 概要 Twitterなどのマイクロブログや検索エンジンのスニペット、レビューなどの短くスパースな文章に対して、外部のリソースを使って転移学習を行うことで精度の向上をする。関…

集合とかベクトルの類似度の計算のメモ

Pythonで実装する類似度計算 - Screaming Loud #1283. 共起性の計算法 ↑この辺りの記事を見て、集合とかベクトルの類似度の計算の記事を下書きのまま放置していたことを思い出したので書き上げた。類似度の計算のコードを書いたのでそれを載せるだけにしよう…

論文感想: "Creating Stories: Social Curation of Twitter Messages"(ICWSM2012)

Creating Stories: Social Curation of Twitter Messages Akisato Kimura: Research Interests: Assisting social curation of Twitter messages 追記 読んだ論文とリンク先の論文(4ページ)が微妙に違うっぽいというか、前に印刷したものと同じ内容の論文(8…

DigitalArts プログラミングコンテスト2012 に参加した

Welcome to DigitalArts プログラミングコンテスト2012 - DigitalArts プログラミングコンテスト2012 | AtCoder A、B問題は解けたけどC問題は解けず、52位(弱い 終了後にC問題の愚直な実装を試したら当然TLEでしたorz A: C-Filter - DigitalArts プログラミ…

Dartsの仕様につまづいた話――あるいはMeCabに些細なバグを見つけた話

Double ArrayによるTrieのライブラリDartsのcommonPrefixSearch関数は次のような戻り値と引数になっています。 size_t commonPrefixSearch(const key_type *key, T* result, size_t result_len, size_t len = 0, size_t node_pos = 0);ここでresult_lenは結…

Project Eulerのバイオインフォマティクス版のROSALINDを始めました

最近時間がなくてProject Eulerを全然やっていませんでした。 というか数論の知識がなくて全然解けないのでやる気が出ません。そんな時にTwitterでProject Eulerのバイオインフォマティクス版のRosalindというのがあるらしいという話を聞いたのでこの土日で…

Twitter Translation Centerが色々と変わってた

いつの間にかTwitterのボランティア翻訳サイトのTwitter Translation CenterにAchievementsという実績っぽいものが追加されていましたhttps://translate.twitter.com/user/Scaled_Wurm 最近はほとんどやっていないんですが、上位の方々は何をモチベーション…

Project Euler Japanizeが一部URLで動かなかったバグを修正

Project Eulerの問題ページのURLには以下の2つの形式があったことを見逃していたので修正しました。 http://projecteuler.net/problem=1 http://projecteuler.net/index.php?section=problems&id=1 ……なんで2通りあるんでしょうか? 関連・参考 Project Eule…

懸賞乞食

はてなブログ1周年おめでとう! id:hatenablog はてなブログ1周年! ありがとうキャンペーンを開始します - はてなブログ開発ブログ

Project Eulerの問題に和訳を挿入するChrome拡張を書きました

project eulerの日本語訳へのリンクを張るuser script - yattの日記 ↑の記事を見て、直接問題のところに挿入したほうが便利だと思って作りました。 Chrome ウェブストア - Project Euler Japanize 問題文のところにhttp://odz.sakura.ne.jp/projecteuler/ind…

いつの間にかChrome拡張のsendRequest/onRequestが非推奨になっていた

Chrome拡張内などで通信を行うときに使うsendRequest/onRequestがいつの間にか非推奨になっていた。 代わりにsendMessage/onMessageを使えばいいらしい。突然APIが変わったりするのはつぶさに追ってないと気づけませんよね。 参考 javascript - Chrome Exten…

GitHubで「実績解除」ができる"coderwall"

GitHubをゲーミフィケーション化して、いわゆる「実績解除」ができるようになるcoderwallというサイトがあったので登録してみました。 coderwall.com : mugenen's profile 実績解除できたのは「○○言語で○個プロジェクトを作る」と「forkしてcommitする」だけ…

論文感想: "Ergodic multigram HMM integrating word segmentation and class tagging for Chinese language modeling"(ICASSP-96)

概要 1996年のかなり古い論文。 隠れマルコフモデル(Hidden Markov Model, HMM)で中国語の形態素解析(単語分割と品詞タグ付け)をする話。 感想 中国語や日本語などの分かち書きされていない言語で、HMMを使って単語分割と品詞タグ付けをする場合の式を知りた…

std::threadを使った時にハマったところ

c++

コンパイル時 g++でコンパイルするときに-lpthreadしないとダメ。 std::threadの引数 参照渡しをするときには明示的にstd::refで渡さないとダメ。

std::unordered_mapをboost::serializationしたい

c++

結論 検索した程度では方法は見つからなかった 代替案 #include <boost/tr1/unordered_map.hpp>してstd::tr1::unordered_mapを使う。 すると#include <boost/serialization/unordered_map.hpp>でシリアライズできる。</boost/serialization/unordered_map.hpp></boost/tr1/unordered_map.hpp>

unordered_mapでpairとかを使うときにはhashを定義しないと動かないらしい

c++

unordered_mapにpairを突っ込んだら動かなくて悩んだんですが、自分の作ったクラスだけでなくpairとかtupleでもhashを定義しないと動かないみたいです。namespace stdに指定する方法とハッシュ関数をunordered_mapに渡す方法の2種類があるみたいですが、とり…

Pixiv Bookmark with Star version 1.3

pixivでブックマークするときに同時に10点評価するChrome拡張を書きました - 唯物是真 @Scaled_Wurm ユーザー数が一桁しかいない誰得拡張ですが、pixiv側の変化で使えなくなっていたので直しておきました。なぜかイラスト側と小説側で使うJavaScriptの関数が…

論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012)

"Automatically Constructing a Normalisation Dictionary for Microblogs" 概要 Twitterとかでの単語の正規化用の辞書を作る話。 例、2morw→tomorrow 手法 文脈類似度の似た、辞書にない単語(OOV)と辞書にある単語(IVのペア)を集める 集めたペアを文字列的…

論文感想: "Adversarial Support Vector Machine Learning"(KDD 2012)

"Adversarial Support Vector Machine Learning" 概要 敵対的学習の話。 spam検出や侵入検出などの相手がチェックをかいくぐろうとして通常に見せかけようとする場合の機械学習。 See: 敵対的学習 - 機械学習の「朱鷺の杜Wiki」 先行研究では悪意のある敵対…

clang++で<thread>や<chrono>を#includeしたら動かない

c++

Ubuntuでclang++ 3.2を使っていたのですが、<chrono>をインクルードすると大量のエラーメッセージが出ました。 解決法をググっていたら以下のサイトが引っかかりました。 Clang Developers - #include with Clang 3.1 インクルードしているtype_traits、私の場合は/u</chrono>…

「Darts: Double-ARray Trie System」のサンプルコードが動かない

Darts: Double ARray Trie System Double Arrayを使いたかったので、Dartsを使おうとしたらサンプルコードが動かなくて困りました。 g++でもclang++でもダメでした。 オプションの違いとかなんですかね?exactMatchSearchに戻り値の型を指定したら一応動かせ…

『言語処理のための機械学習入門』のPLSA(アスペクトモデル)のEMアルゴリズムの導出(例題3.4)

『言語処理のための機械学習入門 (自然言語処理シリーズ)』(いわゆる高村本)で研究室の後輩が勉強会をしていて、自分でも一瞬わからなかったのでメモ。 PLSAとかPLSIとかアスペクトモデルとか名前がいろいろあってよくわからないです。 同時確率 文書を、単…

pixivでブックマークするときに同時に10点評価するChrome拡張を書きました

http://sucrose.hatenablog.com/entry/20110922/p1 前に書いたスクリプト↑が動かなくなったので修正ついでにChrome拡張にしました。 わりと誰得。 Chrome ウェブストア - Pixiv Bookmark with Star

MessagePackとcPickleの速度を比べてみた

MessagePackとcPickleはデータのシリアライズに使われるライブラリです。 DSAS開発者の部屋:MessagePackのPython Bindingをリリースしました MessagePackとcPickleの速度比較は↑の記事にありますが、cPickleは↓の記事のようにプロトコルバージョンによる速度…

サザエさん(とプリキュア)のジャンケンデータのダウンロード

以前サザエさんのじゃんけん予測問題のサーベイをした時にサザエさんとプリキュアのジャンケンデータをダウンロードするスクリプトを書きかけて放置していたのを見つけたので、完成させて公開します。キュアピースのデータは30弱ぐらいしかないので、予測と…