2011-06-01から1ヶ月間の記事一覧
一つの配列を使うのと,vectorを組み合わせるのとboost::multi_arrayを使うのではどれが一番使いやすいんでしょうか?
Visual Studio2010 にBoostライブラリをインストールしたのでメモ. Download Boost Library Here - BoostProからインストーラをダウンロードして実行. プロパティのVC++ディレクトリ→インクルードディレクトリにC:\Program Files\boost\boost_1_46_1,ライ…
"Deciphering Foreign Language" パラレルコーパスや対訳辞書なしで機械翻訳を行っている論文! モデルを作ってEMアルゴリズムやギブスサンプリングでパラメータ推定. パラレルコーパスを使った方法とcomparableな結果って書いてあるけど,数値には大きな差…
import unicodedata def countKanji(text): s = 0 for c in text: if (unicodedata.name(c)[0:3]) == 'CJK': s += 1 return s
mecab-dict-indexと辞書の場所がなかなかわからなかったのでメモ. /usr/lib/mecab/mecab-dict-index /usr/share/mecab/dic/ipadic /usr/lib/mecab/mecab-dict-index -d /usr/share/mecab/dic/ipadic -u user.dic -f utf-8 -t utf-8 user.csv
以前作成したpixiv用のGreasemonkeyスクリプトpixiv-tag-suggestをバージョンアップ. 小説の方ではスクリプトが動いていなかったのを修正. pixivはイラストの方と小説の方で微妙にHTMLの構造が異なってるのが謎.
Pythonではwhileやforループにelseが使えると知ってびっくり. elseはbreakなどで抜けずに通常の方法でループが終了したときに実行されるらしい. 今までは途中でbreakしたときと最後まで実行したときを区別するために,わざわざフラグ変数を作っていたので…
これでまだNoviceっていうんだから上位は遠い世界だなぁ…….
urllib2で開いたものを自動的にcloseしたかったんですが,調べたらcontextlib.closing()を使えばwith文で対応できるみたいです. import contextlib import urllib2 with contextlib.closing(urllib2.urlopen('http://www.python.org')) as page: for line i…
1171→1081.大幅後退.最近は順調だっただけに残念. 250 数値を回文にするのに必要なコスト. 数値に1ずつ足し(引き)ながら,数値を文字列にして前半と後半に分けて反転して比較した. 普通に数値のままで扱ったほうが簡単? 500 組み合わせを求めて普通…
Probabilistic Latent Semantic AnalysisとProbabilistic Latent Semantic Indexingのどっちの名前を使えばいいのかわかりませんが,昔PLSAの実装に挑戦したときのソースが出てきたので晒しとく. ちゃんと動いてるかどうかは不明.Tempered EMアルゴリズム…
2010年の論文. Twitterからあるアカウントが人間,bot,あるいはCyborg(手動と自動の両方)のいずれかを識別. 人間とbotについては9割以上,Cyborgについては8割程度の正解率. 識別で利用している情報 投稿時間のパターン ツイートがspam的かどうか どん…
1158→1171.現状維持. 250 hashCode()の書き忘れに気づかずに,時間を使い過ぎた.Setを使わないで最初から配列で書けばよかった……あるいはjava.awt.Pointの存在を思い出せば. 500 方針が立たなかったんだけど,単純な幅優先探索でよかったのかな?
トピックモデル的なのは、読んでもなかなか理解できないです。 "Structural Topic Model for Latent Topical Structure Analysis" 一文ごとにトピックを割り当てて、トピックの遷移を考える?Sentence orderingができる. "Sequential Latent Dirichlet Allo…