唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

2011-01-01から1年間の記事一覧

Chrome のユーザースクリプト(user.js)を拡張機能にする

拡張機能にするまでよりも,Chromeウェブストアで公開するのが大変です. とりあえずまだ公開しないでいます. 必要なもの ユーザースクリプト マニフェストファイル(manifest.json) 画像 アイコン(128x128, 48x48) スクリーンショット(1280x800) Small Tile…

Google Chrome のユーザースクリプトで名前やバージョン番号が反映されない

なぜかユーザースクリプトの名前(@name)やバージョン(@version)や@includeなどの情報が反映されない現象が発生して困っていました. 原因はメモ帳で編集してしまったことでした. メモ帳のUTF-8エンコードのテキストファイルは先頭にBOMが付加されていて,こ…

pixivでブックマークするときに同時に10点評価するGreasemonkeyスクリプトを書きました

TINAMIで似たようなのを書いたのでついでに. 動作環境 Firefox + GreasemonkeyとGoogle Chromeで動作を確認. インストール pixiv_bookmark_with_star for Greasemonkey 上のサイトからInstallをクリックしてください. 動かないとき まずはアンインストー…

TINAMIでコレクションに追加したときに同時に支援を行うGreasemonkeyスクリプトを書きました

動作環境 Firefox + GreasemonkeyとGoogle Chromeで動作を確認. インストール tinami_add_collection_with_star for Greasemonkey 上のサイトからInstallをクリックしてください. 動かないとき まずはアンインストールしてから再インストールしてみる. TI…

Project Euler 107

三ヶ月ぶりくらいにProject Euler.現実逃避とも言う. 問題の内容は単純なスパニングツリー.クラスカルアルゴリズムを利用. import csv entire = 0 result = 0 edge = [] #read upper triangle matrix with open("network.txt") as f: r = 0 for row in c…

Pythonで組み合わせ(Combination)を計算

Pythonで組み合わせの総数を計算する関数がなかったので調べてみた. itertools.combinationsは総数を計算するときには使えません. 再帰で計算すると大きな数の時にスタックの最大数を超えてしまってダメ. scipy.misc.comb scipyにscipy.misc.combがあるの…

64bitのWindowsでPythonの環境づくり

新しいPCにPythonの環境構築をした時のメモ. Pythonのインストール Python標準リリース どのバージョンをインストールするか悩んだけど2.7.2をインストール. .amd64と付いているインストーラが64bit用なので注意. インストール後にパスを通す. distribut…

TopCoder SRM 518 Div 2

1120→1074. EclipseCoderを新しいPCにインストールしたら、テンプレートのソースコードやテストケースが生成されなくて涙目。 そのせいで250を解くのに大幅に時間ロス。なんとか250と500を解いた。 でもDIV2の250や500を早解きしても、結局1000問題が解けな…

Inspiron 15R(ノートPC)買いました

前のPCがそろそろ寿命かと思ったので60Kほど出してDellのInspiron 15Rを買いました。 CPUがCore i7-2630QMでクアッドコアになったので理論上は今までの二倍速いはず。 メモリは最近安いので4GBで妥協して足りなくなったら追加する予定。 グラボは残念ながらC…

Part-of-Speech Tagging for Twitter: Annotation, Features, and Experimentsを読んだ

概要 pdf, ACL 2011, short paper. Twitterのテキスト(英語)に対して形態素解析を行っている論文で,そのデータやソースコードはTwitter Part-of-Speech Taggingから入手できる. ツイートに適したタグのセットを提案し実際にタグ付けしている. またTwitter…

DELLのサポート

三年ぐらい使ってたノートPC,Inspiron1520のHDDが壊れたんでサポートに連絡してみた. DELLのサポートは中国系であまりよくないって噂を聞くけど,特に不満点はなくよかったです. これが初期不良の問題とかだと揉めるんですかね? テクニカルチャットサポ…

Preferred Infractractureサマーインターン2011問題

サマーインターン2011問題 | Preferred Research ↑が面白そうだったので考える. O(n)の計算量で配列中に最も多い要素(ただしn/2回以上出現)を見つける. 記憶に使っていい容量はc log n bits. 1つ目 参考:API Only - Stack Exchange 現在の文字と同じ文字…

色々とトゥギャってみた感想

Twitterまとめ作成サービスTogetterを利用して色々とまとめてみた もっとうまいまとめ方とデコレーションのやり方を知りたいです 「Scaled_Wurm」さんのまとめ - Togetter 感想 ネットで話題の出来事をまとめれば、意外とトップページに載るのは簡単 現在進…

イラストSNSいろいろ

カオスラウンジによる、pixiv公式企画『pixiv×第七回博麗神社例大祭』受賞作品の無断商用利用まとめ - Togetter pixiv開発者ブログ:規約違反行為への対応とコンテスト投稿画像について ↑の問題の影響でpixivユーザーが大量移民中. 多くのユーザーがTINAMI -…

TopCoder SRM 512 Div 2

1081→1121. 256 二番目に多い色の数*2に1を足すかどうか. 512 日付を週ごとにifで場合分けする頭の悪いコードを書いた. 明らかに間違ったコードを書いている人がいたけど,撃墜速度負け.

Chromeのキャッシュからファイルを発掘「ChromeCacheView」

Chromeのキャッシュからファイルを復元するのは,Firefoxなどのようなオフラインモードがなくて手間がかかります. IE・Firefox・Chromeのキャッシュを見るフリーソフト | Web活メモ帳 ↑の記事で紹介されているChromeCacheView - Cache viewer for Google Ch…

Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! を読んだ.

"Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs"という論文を読みました. Preprint Versionですが. タイトルが素晴らしいですね! 流し読みなので間違っていたらすいません. 内容の超概略 以…

MeCabの辞書いろいろ

ついでに辞書についても調べました. 日本語形態素解析器に関するメモ - masayua IPA、NAIST、UniDic、JUMANの辞書実演比較(Mecab) IPADic MeCab同梱の辞書. NAIST Japanese Dictionary(naist-jdic) NAIST Japanese Dictionary プロジェクト日本語トップ…

MeCabのバリエーションいろいろ

一番使われている(ような気がする)日本語形態素解析器のMeCabのバリエーションについて調べた. MeCab(本家) MeCab: Yet Another Part-of-Speech and Morphological Analyzer 各種言語のバインディング:perl/ruby/python/java/C# Sen, GoSen Java移植版. …

C++で多次元配列を使うとき

c++

一つの配列を使うのと,vectorを組み合わせるのとboost::multi_arrayを使うのではどれが一番使いやすいんでしょうか?

BoostをVisual Studio 2010で使う

c++

Visual Studio2010 にBoostライブラリをインストールしたのでメモ. Download Boost Library Here - BoostProからインストーラをダウンロードして実行. プロパティのVC++ディレクトリ→インクルードディレクトリにC:\Program Files\boost\boost_1_46_1,ライ…

最近読んだ論文(ACL2011)

"Deciphering Foreign Language" パラレルコーパスや対訳辞書なしで機械翻訳を行っている論文! モデルを作ってEMアルゴリズムやギブスサンプリングでパラメータ推定. パラレルコーパスを使った方法とcomparableな結果って書いてあるけど,数値には大きな差…

テキスト中の漢字の数を調べる

import unicodedata def countKanji(text): s = 0 for c in text: if (unicodedata.name(c)[0:3]) == 'CJK': s += 1 return s

Ubuntu 9.10 でmecabのユーザー辞書を作成したときのメモ

mecab-dict-indexと辞書の場所がなかなかわからなかったのでメモ. /usr/lib/mecab/mecab-dict-index /usr/share/mecab/dic/ipadic /usr/lib/mecab/mecab-dict-index -d /usr/share/mecab/dic/ipadic -u user.dic -f utf-8 -t utf-8 user.csv

pixiv-tag-suggest version 1.6

以前作成したpixiv用のGreasemonkeyスクリプトpixiv-tag-suggestをバージョンアップ. 小説の方ではスクリプトが動いていなかったのを修正. pixivはイラストの方と小説の方で微妙にHTMLの構造が異なってるのが謎.

while/else,for/else

Pythonではwhileやforループにelseが使えると知ってびっくり. elseはbreakなどで抜けずに通常の方法でループが終了したときに実行されるらしい. 今までは途中でbreakしたときと最後まで実行したときを区別するために,わざわざフラグ変数を作っていたので…

Project EulerのLevel3になれました

これでまだNoviceっていうんだから上位は遠い世界だなぁ…….

contextlibモジュール

urllib2で開いたものを自動的にcloseしたかったんですが,調べたらcontextlib.closing()を使えばwith文で対応できるみたいです. import contextlib import urllib2 with contextlib.closing(urllib2.urlopen('http://www.python.org')) as page: for line i…

TopCoder SRM 509 Div 2

1171→1081.大幅後退.最近は順調だっただけに残念. 250 数値を回文にするのに必要なコスト. 数値に1ずつ足し(引き)ながら,数値を文字列にして前半と後半に分けて反転して比較した. 普通に数値のままで扱ったほうが簡単? 500 組み合わせを求めて普通…

RでPLSA(PLSI)

R

Probabilistic Latent Semantic AnalysisとProbabilistic Latent Semantic Indexingのどっちの名前を使えばいいのかわかりませんが,昔PLSAの実装に挑戦したときのソースが出てきたので晒しとく. ちゃんと動いてるかどうかは不明.Tempered EMアルゴリズム…