唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

2011-06-01から1ヶ月間の記事一覧

C++で多次元配列を使うとき

c++

一つの配列を使うのと,vectorを組み合わせるのとboost::multi_arrayを使うのではどれが一番使いやすいんでしょうか?

BoostをVisual Studio 2010で使う

c++

Visual Studio2010 にBoostライブラリをインストールしたのでメモ. Download Boost Library Here - BoostProからインストーラをダウンロードして実行. プロパティのVC++ディレクトリ→インクルードディレクトリにC:\Program Files\boost\boost_1_46_1,ライ…

最近読んだ論文(ACL2011)

"Deciphering Foreign Language" パラレルコーパスや対訳辞書なしで機械翻訳を行っている論文! モデルを作ってEMアルゴリズムやギブスサンプリングでパラメータ推定. パラレルコーパスを使った方法とcomparableな結果って書いてあるけど,数値には大きな差…

テキスト中の漢字の数を調べる

import unicodedata def countKanji(text): s = 0 for c in text: if (unicodedata.name(c)[0:3]) == 'CJK': s += 1 return s

Ubuntu 9.10 でmecabのユーザー辞書を作成したときのメモ

mecab-dict-indexと辞書の場所がなかなかわからなかったのでメモ. /usr/lib/mecab/mecab-dict-index /usr/share/mecab/dic/ipadic /usr/lib/mecab/mecab-dict-index -d /usr/share/mecab/dic/ipadic -u user.dic -f utf-8 -t utf-8 user.csv

pixiv-tag-suggest version 1.6

以前作成したpixiv用のGreasemonkeyスクリプトpixiv-tag-suggestをバージョンアップ. 小説の方ではスクリプトが動いていなかったのを修正. pixivはイラストの方と小説の方で微妙にHTMLの構造が異なってるのが謎.

while/else,for/else

Pythonではwhileやforループにelseが使えると知ってびっくり. elseはbreakなどで抜けずに通常の方法でループが終了したときに実行されるらしい. 今までは途中でbreakしたときと最後まで実行したときを区別するために,わざわざフラグ変数を作っていたので…

Project EulerのLevel3になれました

これでまだNoviceっていうんだから上位は遠い世界だなぁ…….

contextlibモジュール

urllib2で開いたものを自動的にcloseしたかったんですが,調べたらcontextlib.closing()を使えばwith文で対応できるみたいです. import contextlib import urllib2 with contextlib.closing(urllib2.urlopen('http://www.python.org')) as page: for line i…

TopCoder SRM 509 Div 2

1171→1081.大幅後退.最近は順調だっただけに残念. 250 数値を回文にするのに必要なコスト. 数値に1ずつ足し(引き)ながら,数値を文字列にして前半と後半に分けて反転して比較した. 普通に数値のままで扱ったほうが簡単? 500 組み合わせを求めて普通…

RでPLSA(PLSI)

R

Probabilistic Latent Semantic AnalysisとProbabilistic Latent Semantic Indexingのどっちの名前を使えばいいのかわかりませんが,昔PLSAの実装に挑戦したときのソースが出てきたので晒しとく. ちゃんと動いてるかどうかは不明.Tempered EMアルゴリズム…

"Who is Tweeting on Twitter: Human, Bot, or Cyborg?"が面白かった.

2010年の論文. Twitterからあるアカウントが人間,bot,あるいはCyborg(手動と自動の両方)のいずれかを識別. 人間とbotについては9割以上,Cyborgについては8割程度の正解率. 識別で利用している情報 投稿時間のパターン ツイートがspam的かどうか どん…

TopCoder SRM 508 Div 2

1158→1171.現状維持. 250 hashCode()の書き忘れに気づかずに,時間を使い過ぎた.Setを使わないで最初から配列で書けばよかった……あるいはjava.awt.Pointの存在を思い出せば. 500 方針が立たなかったんだけど,単純な幅優先探索でよかったのかな?

最近読んだ論文

トピックモデル的なのは、読んでもなかなか理解できないです。 "Structural Topic Model for Latent Topical Structure Analysis" 一文ごとにトピックを割り当てて、トピックの遷移を考える?Sentence orderingができる. "Sequential Latent Dirichlet Allo…