唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

2012-07-01から1ヶ月間の記事一覧

Twitterのトピックを推定:"Finding Bursty Topics from Microblogs"(ACL 2012)

Finding Bursty Topics from Microblogs 概要 トピック推定で用いられることの多いLDA(Latent Dirichlet Allocation)に以下の2つのマイクロブログ特有の要素を加えた. 同じ時間には同じようなトピックが出やすい.例えば大事件が起きた日 ユーザーは時間に…

外国語を解読する:"Deciphering Foreign Language by Combining Language Model and Context Vectors"(ACL 2012)

Deciphering Foreign Language by Combining Language Model and Context Vectors 概要 通常の統計的機械翻訳ではパラレルコーパスという同じ文の対訳データやコンパラブルコーパスという同じようなトピックについて書かれたデータなどを利用することが多い…

\と¥

Macでは\(バックスラッシュ)はoption + ¥じゃないと入力できないという話を見たのでメモしとく。 ¥を打つと¥(半角円記号)が出てくるらしい。 前にTwitterでバックスラッシュが打てないでハマっている人を見かけたので……。 参考 円記号 - Wikipedia 円記号の…

論文感想: "Stylometric Analysis of Scientific Articles"(NAACL-HLT 2012)

Stylometric Analysis of Scientific Articles 概要 論文の文体から以下の3つのタスクをSVMを用いて識別. 英語ネイティブか否か 性別 カンファレンスかワークショップか 使用されているfeature Bow(単語) Style(文体) Syntax(構文) 結果 F値でネイティブか…

AtCoder Regular Contest #006に参加しました

Welcome to AtCoder Regular Contest #006 - AtCoder Regular Contest #006 | AtCoder 実は初参加. 3問目まで解けて62位でした A: 宝くじ - AtCoder Regular Contest #006 | AtCoder 宝くじが何等になっているか計算. そのまま書くだけ. 途中まで数字の重…

食べ物の値段を説明から推定する:"Word Salad: Relating Food Prices and Descriptions"(EMNLP-CoNLL 2012)

Word Salad: Relating Food Prices and Descriptions 概要 レビュー文から極性(ポジティブかネガティブか)を推定するって話はたくさんあるけれど,これは説明文やレビュー文から食べ物の値段を推定するっていう面白いタスク.素性としてはメニュー名や説明文…

clangを使ってみた

C++

LinuxでのC/C++コンパイラといえばgcc/g++でしたが、最近clang/clang++というコンパイラのエラーメッセージがわかりやすいという話をよく見かけるので試してみました。 インストール 主に以下の公式サイト通りにやります。 Clang - Getting Started configur…

論文感想: "Wiki-ly Supervised Part-of-Speech Tagging"(EMNLP-CoNLL 2012)

Wiki-ly Supervised Part-of-Speech Tagging 概要 フリーな辞書のWiktionaryを利用して、弱教師あり形態素解析を行う。Wiktionaryに登録されている品詞が選ばれるように制限をかけて,隠れマルコフモデルをEMアルゴリズムを用いて学習.Unsupervisedな場合よ…

論文感想: "An Empirical Investigation of Statistical Significance in NLP"(EMNLP-CoNLL 2012)

An Empirical Investigation of Statistical Significance in NLP 概要 自然言語処理における有意性検定に関する調査. 感想 いくつかのワークショップやshared taskでは各チームの出力が公開されていて,それらに対して検定を行なって評価指標とp-valueの関…

論文感想: "Multi-Domain Learning: When Do Domains Matter?"(EMNLP-CoNLL 2012)

Multi-Domain Learning: When Do Domains Matter? 概要 マルチドメインラーニング(MDL)におけるいくつかの疑問に対する検証. MDLによる精度上昇は必ずしもドメインの影響ではなく,アンサンブルの効果ではないか? ドメインラベルをランダムに入れ替えても…

論文感想: "Polarity Inducing Latent Semantic Analysis"(EMNLP-CoNLL 2012)

Polarity Inducing Latent Semantic Analysis 概要 文書-単語行列上でcos類似度などを使うと,意味的に似た単語同士を見つけることができる. しかしこの場合の「意味的に似た」というのは「類義語もしくは反意語」であり,「反意語」だけを見つけたい場合に…

論文感想: "Exploring Topic Coherence over many models and many topics"(EMNLP-CoNLL 2012)

"Exploring Topic Coherence over many models and many topics" 概要 トピックモデル[LSA(SVDによる), LSA(NMFによる), LDA]の比較を行う。 出力したトピックのコヒーレンス(一貫性)を近年提案された手法(UCI measure, UMass measure)の平均やエントロピー…

はてなダイアリーからのインポート機能を試してみました

はてなダイアリー版の方から記事をインポートしてみました。Twitter記法などもちゃんと動いているんですね。さすがに削除した記事についてたはてブなどは移動してくれないみたいです……。

旧ブログのおすすめ記事

移転したので前のブログのおすすめ記事を書いときます。 おもしろ系 「最強のポケモンの生成」 - NLP2012のオノマトペ関係の論文 - 唯物是真 @Scaled_Wurm 文字列から人が受けるイメージに関する研究で、ポケモンを題材にしてるところがキャッチーで面白いで…

MeCabの出力フォーマット

形態素解析機MeCabで分かち書きを得たい時には-Owakati、読みを得たい時には-Oyomiとかオプションを付けますが、もっと細かくフォーマットを指定することができるみたいです。 いくつか試してみたので、書いときます。 形態素と品詞のペア mecab -F"%m-%f[0]…

【T/O】 TopCoder SRMってregister(登録)だけして、参加しなかった場合ってRating 変わらないんですね。当然といえば当然ですけど……

いつの間にかスーパーpre記法(?)が使えるようになっていたんですね!

ソースコードが貼れるようになったので,そろそろ本格的にはてなダイアリーからの移行を検討中. console.log('Hello, Hatena Blog!');

いつの間にかはてなブログでスーパーpre記法(?)が使えるようになっていたんですね!

はてなダイアリーでソースコードを貼る時の定番だったスーパーpre記法ですが,はてなブログでは使える言語が限られていたような記憶があります. しかしすでにはてなダイアリーで対応している言語はすべて使えるようになっていたみたいです. gist(github)な…

JavaScriptでテキストファイルに名前を付けて保存(Chromeのみ)

テキストデータをテキストファイルとして名前を付けて保存したい時用. a要素のdownload属性を使っているのでたぶんChromeのみ(?)です. 具体的にはa要素を作ってAlt + Clickのイベントを発生させることで保存させています. テキストはData URIスキームの…

Chrome拡張を国際化してみた

どこにも需要はない気がするけど,試しに英語と日本語でChrome拡張の国際化をやってみた. Chrome拡張ではパッケージ内に_locals/言語の種類/messages.jsonというファイルを作ると国際化することができる. この時manifest.jsonに"default_locale"の指定が必…

Chrome拡張を更新しないと来年には動かなくなる?

Chromeウェブストアから「拡張を更新しないと、公開されなくなる(意訳)」という内容のメールが届きました。 Chrome拡張はセキュリティの関係上、ファイルの読み込み設定などを変更することになり、拡張の製作者は新仕様(Manifest Version 2)に対応しなければ…

TopCoder SRM 548 Div 2

1151→1151。なぜかレートは変わらず。 Level Oneを解いてLevel Twoはチャレンジされる。チャレンジ1つ成功1つ失敗。もっと思い切りがよければチャレンジできそうなのがいくつかあった。 Room Statistics Level One 配列内の要素の種類数と、最頻出の要素の個…

論文感想: "Data-Driven Response Generation in Social Media"

http://www.cs.washington.edu/homes/aritter/mt_chat.pdf 研究室の論文紹介で紹介されたEMNLP2011の論文。 概要 Twitterなどのようなメッセージに対する応答を自動生成。 メッセージとその応答のコーパスに対して統計的機械翻訳の手法を使ったら、類似度の…