2012-01-01から1年間の記事一覧
Support Vector Machinesを用いた「魔法少女まどか☆マギカ」人物予測モデル - Yuta.Kikuchiの日記 ↑の記事が面白かったのと、SVMを触ったことがなかったのでlibsvmをいじくって遊んだメモ。 クロスバリデーション libsvmでのクロスバリデーションは"svm-trai…
前に書いたスクリプトが動かなくなったので更新していたら、userscripts.orgから直接スクリプトをインストールできなくなっていることに気づきました。以前も書いたChrome拡張のセキュリティ強化の一環だと思いますが、「拡張機能、アプリケーション、ユーザ…
Problem 61 - Project Euler 3,4,5,6,7,8角数を計算して、それぞれのn角数から1つずつを使って、最初の2桁と最後の2桁が一致していくようなループ(3つだけの場合の例、8128, 2882, 8281)を見つける。2桁が限定される時点でかなり制限されるので、あらかじめn…
なぜかPCがネットワークに繋がらなくなって困っていたのですが、Twitterによると原因はマカフィーのソフトウェアだそうで、アンインストールしたら繋がるようになりました。症状はまったく通信できなくなるもので、たとえばpingをしてもされてもすべてパケッ…
Welcome to 天下一プログラマーコンテスト2012 予選B - 天下一プログラマーコンテスト2012 予選B | AtCoder A問題しか解けなかった。 B問題で爆死して、C問題は部分点のみで85位orzあまりにもアレだったのでC問題は制限時間後に解いた。 A: 孫子算経 - 天下…
知り合いが9leap : トップページ - どこでも遊べる、投稿型ゲームサイトでゲームを公開していたので、プレイしたりバグを探したりバグを探したりして遊んでました。その中で9leapの仕様がいくつか気になったので書いときます。 変なスコアの登録が簡単にでき…
1151→1238.2年3ヶ月ぶりの青コーダー! もう今年の目標は達成できました(志が低いLevel One, Twoを解いたらもうThreeを解く時間はなかったので、残り時間でチャレンジを考える. チャレンジ3つ成功. Level One 入力に含まれる文字の種類数が1ならreturn 1…
Finding Bursty Topics from Microblogs 概要 トピック推定で用いられることの多いLDA(Latent Dirichlet Allocation)に以下の2つのマイクロブログ特有の要素を加えた. 同じ時間には同じようなトピックが出やすい.例えば大事件が起きた日 ユーザーは時間に…
Deciphering Foreign Language by Combining Language Model and Context Vectors 概要 通常の統計的機械翻訳ではパラレルコーパスという同じ文の対訳データやコンパラブルコーパスという同じようなトピックについて書かれたデータなどを利用することが多い…
Macでは\(バックスラッシュ)はoption + ¥じゃないと入力できないという話を見たのでメモしとく。 ¥を打つと¥(半角円記号)が出てくるらしい。 前にTwitterでバックスラッシュが打てないでハマっている人を見かけたので……。 参考 円記号 - Wikipedia 円記号の…
Stylometric Analysis of Scientific Articles 概要 論文の文体から以下の3つのタスクをSVMを用いて識別. 英語ネイティブか否か 性別 カンファレンスかワークショップか 使用されているfeature Bow(単語) Style(文体) Syntax(構文) 結果 F値でネイティブか…
Welcome to AtCoder Regular Contest #006 - AtCoder Regular Contest #006 | AtCoder 実は初参加. 3問目まで解けて62位でした A: 宝くじ - AtCoder Regular Contest #006 | AtCoder 宝くじが何等になっているか計算. そのまま書くだけ. 途中まで数字の重…
Word Salad: Relating Food Prices and Descriptions 概要 レビュー文から極性(ポジティブかネガティブか)を推定するって話はたくさんあるけれど,これは説明文やレビュー文から食べ物の値段を推定するっていう面白いタスク.素性としてはメニュー名や説明文…
LinuxでのC/C++コンパイラといえばgcc/g++でしたが、最近clang/clang++というコンパイラのエラーメッセージがわかりやすいという話をよく見かけるので試してみました。 インストール 主に以下の公式サイト通りにやります。 Clang - Getting Started configur…
Wiki-ly Supervised Part-of-Speech Tagging 概要 フリーな辞書のWiktionaryを利用して、弱教師あり形態素解析を行う。Wiktionaryに登録されている品詞が選ばれるように制限をかけて,隠れマルコフモデルをEMアルゴリズムを用いて学習.Unsupervisedな場合よ…
An Empirical Investigation of Statistical Significance in NLP 概要 自然言語処理における有意性検定に関する調査. 感想 いくつかのワークショップやshared taskでは各チームの出力が公開されていて,それらに対して検定を行なって評価指標とp-valueの関…
Multi-Domain Learning: When Do Domains Matter? 概要 マルチドメインラーニング(MDL)におけるいくつかの疑問に対する検証. MDLによる精度上昇は必ずしもドメインの影響ではなく,アンサンブルの効果ではないか? ドメインラベルをランダムに入れ替えても…
Polarity Inducing Latent Semantic Analysis 概要 文書-単語行列上でcos類似度などを使うと,意味的に似た単語同士を見つけることができる. しかしこの場合の「意味的に似た」というのは「類義語もしくは反意語」であり,「反意語」だけを見つけたい場合に…
"Exploring Topic Coherence over many models and many topics" 概要 トピックモデル[LSA(SVDによる), LSA(NMFによる), LDA]の比較を行う。 出力したトピックのコヒーレンス(一貫性)を近年提案された手法(UCI measure, UMass measure)の平均やエントロピー…
はてなダイアリー版の方から記事をインポートしてみました。Twitter記法などもちゃんと動いているんですね。さすがに削除した記事についてたはてブなどは移動してくれないみたいです……。
移転したので前のブログのおすすめ記事を書いときます。 おもしろ系 「最強のポケモンの生成」 - NLP2012のオノマトペ関係の論文 - 唯物是真 @Scaled_Wurm 文字列から人が受けるイメージに関する研究で、ポケモンを題材にしてるところがキャッチーで面白いで…
形態素解析機MeCabで分かち書きを得たい時には-Owakati、読みを得たい時には-Oyomiとかオプションを付けますが、もっと細かくフォーマットを指定することができるみたいです。 いくつか試してみたので、書いときます。 形態素と品詞のペア mecab -F"%m-%f[0]…
ソースコードが貼れるようになったので,そろそろ本格的にはてなダイアリーからの移行を検討中. console.log('Hello, Hatena Blog!');
はてなダイアリーでソースコードを貼る時の定番だったスーパーpre記法ですが,はてなブログでは使える言語が限られていたような記憶があります. しかしすでにはてなダイアリーで対応している言語はすべて使えるようになっていたみたいです. gist(github)な…
テキストデータをテキストファイルとして名前を付けて保存したい時用. a要素のdownload属性を使っているのでたぶんChromeのみ(?)です. 具体的にはa要素を作ってAlt + Clickのイベントを発生させることで保存させています. テキストはData URIスキームの…
どこにも需要はない気がするけど,試しに英語と日本語でChrome拡張の国際化をやってみた. Chrome拡張ではパッケージ内に_locals/言語の種類/messages.jsonというファイルを作ると国際化することができる. この時manifest.jsonに"default_locale"の指定が必…
Chromeウェブストアから「拡張を更新しないと、公開されなくなる(意訳)」という内容のメールが届きました。 Chrome拡張はセキュリティの関係上、ファイルの読み込み設定などを変更することになり、拡張の製作者は新仕様(Manifest Version 2)に対応しなければ…
1151→1151。なぜかレートは変わらず。 Level Oneを解いてLevel Twoはチャレンジされる。チャレンジ1つ成功1つ失敗。もっと思い切りがよければチャレンジできそうなのがいくつかあった。 Room Statistics Level One 配列内の要素の種類数と、最頻出の要素の個…
http://www.cs.washington.edu/homes/aritter/mt_chat.pdf 研究室の論文紹介で紹介されたEMNLP2011の論文。 概要 Twitterなどのようなメッセージに対する応答を自動生成。 メッセージとその応答のコーパスに対して統計的機械翻訳の手法を使ったら、類似度の…