2012-01-01から1年間の記事一覧
機械学習や統計では"cross-validation"という手法が使われています。 詳細は以下のURLなどを見てもらえるといいのですが「データを分割し一部()を評価用、その他()を訓練用として性能を評価する」というのを評価用か訓練用かを入れ替えて通りについて行い、…
関連記事とか手作業でつけてるのはさすがに残念なのでZenBackとやらを導入してみた。はてなダイアリーのときは、はてなキーワード経由で人が来るのがありましたけど、はてなブログではそういうのもなくなってしまいましたねー。AdBlockで弾かれてるので気に…
導入 Pythonの数値計算ライブラリNumPyのarrayを使って、標準のlistを単純に置き換えてみると遅くなることが多いです。 実際どれぐらい速度に差があるのかlist, array, numpy.arrayで比較してみました。 処理時間の計測 Pythonに含まれるライブラリのtimeit…
xargs -P が激しく便利なのでメモ - 新生おともだち研究会 xargs を使ってカジュアルに並列処理 - tagomorisのメモ置き場 ↑の辺りの記事を読んでxargsによる並列化を試してみたメモ。 結果を先に書いておくと、残念ながら並列化してもあまり速くならなかった…
Welcome to AtCoder Regular Contest #010 - AtCoder Regular Contest #010 | AtCoder 現実逃避にAtCoderに参加しました。 AとBしか解けず。Bがなぜか解けないと思ったら、今年がうるう年だという事を忘れていましたorzCは無理矢理解こうとしましたが、厳密…
TCSST: Transfer Classification of Short & Sparse Text Using External Data 概要 Twitterなどのマイクロブログや検索エンジンのスニペット、レビューなどの短くスパースな文章に対して、外部のリソースを使って転移学習を行うことで精度の向上をする。関…
Pythonで実装する類似度計算 - Screaming Loud #1283. 共起性の計算法 ↑この辺りの記事を見て、集合とかベクトルの類似度の計算の記事を下書きのまま放置していたことを思い出したので書き上げた。類似度の計算のコードを書いたのでそれを載せるだけにしよう…
Creating Stories: Social Curation of Twitter Messages Akisato Kimura: Research Interests: Assisting social curation of Twitter messages 追記 読んだ論文とリンク先の論文(4ページ)が微妙に違うっぽいというか、前に印刷したものと同じ内容の論文(8…
Welcome to DigitalArts プログラミングコンテスト2012 - DigitalArts プログラミングコンテスト2012 | AtCoder A、B問題は解けたけどC問題は解けず、52位(弱い 終了後にC問題の愚直な実装を試したら当然TLEでしたorz A: C-Filter - DigitalArts プログラミ…
Double ArrayによるTrieのライブラリDartsのcommonPrefixSearch関数は次のような戻り値と引数になっています。 size_t commonPrefixSearch(const key_type *key, T* result, size_t result_len, size_t len = 0, size_t node_pos = 0);ここでresult_lenは結…
最近時間がなくてProject Eulerを全然やっていませんでした。 というか数論の知識がなくて全然解けないのでやる気が出ません。そんな時にTwitterでProject Eulerのバイオインフォマティクス版のRosalindというのがあるらしいという話を聞いたのでこの土日で…
いつの間にかTwitterのボランティア翻訳サイトのTwitter Translation CenterにAchievementsという実績っぽいものが追加されていましたhttps://translate.twitter.com/user/Scaled_Wurm 最近はほとんどやっていないんですが、上位の方々は何をモチベーション…
Project Eulerの問題ページのURLには以下の2つの形式があったことを見逃していたので修正しました。 http://projecteuler.net/problem=1 http://projecteuler.net/index.php?section=problems&id=1 ……なんで2通りあるんでしょうか? 関連・参考 Project Eule…
はてなブログ1周年おめでとう! id:hatenablog はてなブログ1周年! ありがとうキャンペーンを開始します - はてなブログ開発ブログ
project eulerの日本語訳へのリンクを張るuser script - yattの日記 ↑の記事を見て、直接問題のところに挿入したほうが便利だと思って作りました。 Chrome ウェブストア - Project Euler Japanize 問題文のところにhttp://odz.sakura.ne.jp/projecteuler/ind…
Chrome拡張内などで通信を行うときに使うsendRequest/onRequestがいつの間にか非推奨になっていた。 代わりにsendMessage/onMessageを使えばいいらしい。突然APIが変わったりするのはつぶさに追ってないと気づけませんよね。 参考 javascript - Chrome Exten…
GitHubをゲーミフィケーション化して、いわゆる「実績解除」ができるようになるcoderwallというサイトがあったので登録してみました。 coderwall.com : mugenen's profile 実績解除できたのは「○○言語で○個プロジェクトを作る」と「forkしてcommitする」だけ…
概要 1996年のかなり古い論文。 隠れマルコフモデル(Hidden Markov Model, HMM)で中国語の形態素解析(単語分割と品詞タグ付け)をする話。 感想 中国語や日本語などの分かち書きされていない言語で、HMMを使って単語分割と品詞タグ付けをする場合の式を知りた…
コンパイル時 g++でコンパイルするときに-lpthreadしないとダメ。 std::threadの引数 参照渡しをするときには明示的にstd::refで渡さないとダメ。
結論 検索した程度では方法は見つからなかった 代替案 #include <boost/tr1/unordered_map.hpp>してstd::tr1::unordered_mapを使う。 すると#include <boost/serialization/unordered_map.hpp>でシリアライズできる。</boost/serialization/unordered_map.hpp></boost/tr1/unordered_map.hpp>
unordered_mapにpairを突っ込んだら動かなくて悩んだんですが、自分の作ったクラスだけでなくpairとかtupleでもhashを定義しないと動かないみたいです。namespace stdに指定する方法とハッシュ関数をunordered_mapに渡す方法の2種類があるみたいですが、とり…
pixivでブックマークするときに同時に10点評価するChrome拡張を書きました - 唯物是真 @Scaled_Wurm ユーザー数が一桁しかいない誰得拡張ですが、pixiv側の変化で使えなくなっていたので直しておきました。なぜかイラスト側と小説側で使うJavaScriptの関数が…
"Automatically Constructing a Normalisation Dictionary for Microblogs" 概要 Twitterとかでの単語の正規化用の辞書を作る話。 例、2morw→tomorrow 手法 文脈類似度の似た、辞書にない単語(OOV)と辞書にある単語(IVのペア)を集める 集めたペアを文字列的…
"Adversarial Support Vector Machine Learning" 概要 敵対的学習の話。 spam検出や侵入検出などの相手がチェックをかいくぐろうとして通常に見せかけようとする場合の機械学習。 See: 敵対的学習 - 機械学習の「朱鷺の杜Wiki」 先行研究では悪意のある敵対…
Ubuntuでclang++ 3.2を使っていたのですが、<chrono>をインクルードすると大量のエラーメッセージが出ました。 解決法をググっていたら以下のサイトが引っかかりました。 Clang Developers - #include with Clang 3.1 インクルードしているtype_traits、私の場合は/u</chrono>…
Darts: Double ARray Trie System Double Arrayを使いたかったので、Dartsを使おうとしたらサンプルコードが動かなくて困りました。 g++でもclang++でもダメでした。 オプションの違いとかなんですかね?exactMatchSearchに戻り値の型を指定したら一応動かせ…
『言語処理のための機械学習入門 (自然言語処理シリーズ)』(いわゆる高村本)で研究室の後輩が勉強会をしていて、自分でも一瞬わからなかったのでメモ。 PLSAとかPLSIとかアスペクトモデルとか名前がいろいろあってよくわからないです。 同時確率 文書を、単…
http://sucrose.hatenablog.com/entry/20110922/p1 前に書いたスクリプト↑が動かなくなったので修正ついでにChrome拡張にしました。 わりと誰得。 Chrome ウェブストア - Pixiv Bookmark with Star
MessagePackとcPickleはデータのシリアライズに使われるライブラリです。 DSAS開発者の部屋:MessagePackのPython Bindingをリリースしました MessagePackとcPickleの速度比較は↑の記事にありますが、cPickleは↓の記事のようにプロトコルバージョンによる速度…
以前サザエさんのじゃんけん予測問題のサーベイをした時にサザエさんとプリキュアのジャンケンデータをダウンロードするスクリプトを書きかけて放置していたのを見つけたので、完成させて公開します。キュアピースのデータは30弱ぐらいしかないので、予測と…