『言語処理のための機械学習入門』のPLSA(アスペクトモデル)のEMアルゴリズムの導出(例題3.4)

自然言語処理機械学習

『言語処理のための機械学習入門 (自然言語処理シリーズ)』(いわゆる高村本)で研究室の後輩が勉強会をしていて、自分でも一瞬わからなかったのでメモ。 PLSAとかPLSIとかアスペクトモデルとか名前がいろいろあってよくわからないです。同時確率文書を、単…

2012-07-26

Twitterのトピックを推定:"Finding Bursty Topics from Microblogs"(ACL 2012)

自然言語処理論文

Finding Bursty Topics from Microblogs 概要トピック推定で用いられることの多いLDA(Latent Dirichlet Allocation)に以下の2つのマイクロブログ特有の要素を加えた．同じ時間には同じようなトピックが出やすい．例えば大事件が起きた日ユーザーは時間に…

2012-07-25

外国語を解読する:"Deciphering Foreign Language by Combining Language Model and Context Vectors"(ACL 2012)

論文自然言語処理

Deciphering Foreign Language by Combining Language Model and Context Vectors 概要通常の統計的機械翻訳ではパラレルコーパスという同じ文の対訳データやコンパラブルコーパスという同じようなトピックについて書かれたデータなどを利用することが多い…

2012-07-23

論文感想: "Stylometric Analysis of Scientific Articles"(NAACL-HLT 2012)

論文自然言語処理

Stylometric Analysis of Scientific Articles 概要論文の文体から以下の3つのタスクをSVMを用いて識別．英語ネイティブか否か性別カンファレンスかワークショップか使用されているfeature Bow(単語) Style(文体) Syntax(構文) 結果 F値でネイティブか…

2012-07-21

食べ物の値段を説明から推定する:"Word Salad: Relating Food Prices and Descriptions"(EMNLP-CoNLL 2012)

論文自然言語処理

Word Salad: Relating Food Prices and Descriptions 概要レビュー文から極性(ポジティブかネガティブか)を推定するって話はたくさんあるけれど，これは説明文やレビュー文から食べ物の値段を推定するっていう面白いタスク．素性としてはメニュー名や説明文…

2012-07-19

論文感想: "Wiki-ly Supervised Part-of-Speech Tagging"(EMNLP-CoNLL 2012)

論文自然言語処理

Wiki-ly Supervised Part-of-Speech Tagging 概要フリーな辞書のWiktionaryを利用して、弱教師あり形態素解析を行う。Wiktionaryに登録されている品詞が選ばれるように制限をかけて，隠れマルコフモデルをEMアルゴリズムを用いて学習．Unsupervisedな場合よ…

2012-07-18

論文感想: "An Empirical Investigation of Statistical Significance in NLP"(EMNLP-CoNLL 2012)

論文自然言語処理

An Empirical Investigation of Statistical Significance in NLP 概要自然言語処理における有意性検定に関する調査．感想いくつかのワークショップやshared taskでは各チームの出力が公開されていて，それらに対して検定を行なって評価指標とp-valueの関…

2012-07-17

論文感想: "Multi-Domain Learning: When Do Domains Matter?"(EMNLP-CoNLL 2012)

論文自然言語処理機械学習

Multi-Domain Learning: When Do Domains Matter? 概要マルチドメインラーニング(MDL)におけるいくつかの疑問に対する検証． MDLによる精度上昇は必ずしもドメインの影響ではなく，アンサンブルの効果ではないか？ドメインラベルをランダムに入れ替えても…

2012-07-16

論文感想: "Polarity Inducing Latent Semantic Analysis"(EMNLP-CoNLL 2012)

論文自然言語処理機械学習

Polarity Inducing Latent Semantic Analysis 概要文書-単語行列上でcos類似度などを使うと，意味的に似た単語同士を見つけることができる．しかしこの場合の「意味的に似た」というのは「類義語もしくは反意語」であり，「反意語」だけを見つけたい場合に…

2012-07-15

論文感想: "Exploring Topic Coherence over many models and many topics"(EMNLP-CoNLL 2012)

論文自然言語処理機械学習

"Exploring Topic Coherence over many models and many topics" 概要トピックモデル[LSA(SVDによる), LSA(NMFによる), LDA]の比較を行う。出力したトピックのコヒーレンス(一貫性)を近年提案された手法(UCI measure, UMass measure)の平均やエントロピー…

2012-07-11

MeCabの出力フォーマット

自然言語処理

形態素解析機MeCabで分かち書きを得たい時には-Owakati、読みを得たい時には-Oyomiとかオプションを付けますが、もっと細かくフォーマットを指定することができるみたいです。いくつか試してみたので、書いときます。形態素と品詞のペア mecab -F"%m-%f[0]…

2012-07-02

論文感想: "Data-Driven Response Generation in Social Media"

論文自然言語処理

http://www.cs.washington.edu/homes/aritter/mt_chat.pdf 研究室の論文紹介で紹介されたEMNLP2011の論文。概要 Twitterなどのようなメッセージに対する応答を自動生成。メッセージとその応答のコーパスに対して統計的機械翻訳の手法を使ったら、類似度の…

2012-05-08

論文感想: "Semi-Supervised SimHash for Efficient Document Similarity Search"

論文自然言語処理

Semi-Supervised SimHash for Efficient Document Similarity Search ACL2011の論文．概要類似文書検索のタスク。既存の半教師ありのハッシュによる手法は、PCAやSVDライクな手法を用いているため、計算量が大きくまたビットを増やすほど曖昧なビットが増…

2012-05-08

論文感想: "Word Maturity: Computational Modeling of Word Knowledge"

論文自然言語処理

Word Maturity: Computational Modeling of Word Knowledge ACL2011の論文．概要単語の難しさを年齢(学年？)ごとに分けるタスク。含まれる年齢の範囲の異なるコーパス(1, 1-2, 1-3,..., adult)から単語頻度-文書行列を作成。 adult以外のそれぞれについて…

2012-05-05

論文感想: "Autonomous Self-Assessment of Autocorrections: Exploring Text Message Dialogue"

論文自然言語処理

Autonomous Self-Assessment of Autocorrections: Exploring Text Message Dialogue NAACL2012の論文．概要 SMSなどでの会話では入力の補助として，単語の訂正(ここでは補完を含む)のシステムが使われていることが多い．しかし，そういったシステムは間違…

2012-05-04

論文感想: "Finding Deceptive Opinion Spam by Any Stretch of the Imagination"

論文自然言語処理

PDF ACL2011の論文．概要最近食べログとかのステマが話題になりましたが，この研究は数値によるレビューではなく文章によるレビューに対するspamの検出． Amazon Mechanical Turkを使って偽の褒めるレビューを書いてもらって，それと実際の高評価のレビュ…

2012-04-05

KyTea 0.4.1ではWindows版バイナリも配布するらしい

自然言語処理

以前形態素解析器KyTeaがWindowsで使えるようになったらしいという記事を書きましたが，コンパイル済みバイナリの配布が始まったみたいです． KyTea 0.4.1をリリースしました URL ！主に変わっているのはWindows版が（やっと）できたところです。それ以外、…

2012-03-27

単語感情極性対応表のミス？

自然言語処理

日記の下書き一覧を見てたら，昔の書き上がってる記事があったので蔵出し．「単語感情極性対応表」という単語がポジティブ(+1)かネガティブ(-1)かというスコアをつけた辞書が公開されています．商品や人物などについてどんな評判が囁かれているかを推定す…

2012-03-25

形態素解析器KyTeaがWindowsで使えるようになったらしい

自然言語処理

KyTea (京都テキスト解析ツールキット)は読み推定などの機能がついた最新の形態素解析器です．おお、KyTeaがまともにWindowsで動きました！v. 0.4.1からWindows版も配布できそうです。Windowsでのビルド説明書（ URL ）を書いてくれた @knzm2011 さんに感謝…

2012-03-22

単語の頻度からLDAまでの流れの簡単なイメージのメモ

自然言語処理

トピックモデルのLDA(Latent Dirichlet Allocation)が難しいって話をよく聞きますけど，詳しい理論的な部分はともかくどういう流れに位置するものかってのはわかりやすいので簡単にメモ．専門でないので，詳しくは参考文献を読んだほうがいいです．トピッ…

2012-03-19

「日本統計学会創立75周年記念出版『21世紀の統計科学』(全3巻) 増補HP版 (2012年1月)」

機械学習自然言語処理

「日本統計学会創立75周年記念出版『21世紀の統計科学』(全3巻) 増補HP版 (2012年1月)というものが以下のURLで公開されています．日本統計学会75周年記念出版目次を読んでみると面白そうな章が多いです．とりあえず機械学習や自然言語処理などで使いそう…

2011-03-09

読んだ論文: "Self-adjusting Bootstrapping", Shoji Fujiwara and Satoshi Sekine, CICLing 2011

論文自然言語処理

ブートストラップ法って？シードに似たアイテムのグループを抽出する方法として用いられている．シードからコンテキストを見つけて，次にコンテキストを利用してアイテムを見つけるという過程をくりかえす．例，クリントン，ブッシュ→○○大統領→オバマパ…

唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

自然言語処理

『言語処理のための機械学習入門』のPLSA(アスペクトモデル)のEMアルゴリズムの導出(例題3.4)

Twitterのトピックを推定:"Finding Bursty Topics from Microblogs"(ACL 2012)

外国語を解読する:"Deciphering Foreign Language by Combining Language Model and Context Vectors"(ACL 2012)

論文感想: "Stylometric Analysis of Scientific Articles"(NAACL-HLT 2012)

食べ物の値段を説明から推定する:"Word Salad: Relating Food Prices and Descriptions"(EMNLP-CoNLL 2012)

論文感想: "Wiki-ly Supervised Part-of-Speech Tagging"(EMNLP-CoNLL 2012)

論文感想: "An Empirical Investigation of Statistical Significance in NLP"(EMNLP-CoNLL 2012)

論文感想: "Multi-Domain Learning: When Do Domains Matter?"(EMNLP-CoNLL 2012)

論文感想: "Polarity Inducing Latent Semantic Analysis"(EMNLP-CoNLL 2012)

論文感想: "Exploring Topic Coherence over many models and many topics"(EMNLP-CoNLL 2012)

MeCabの出力フォーマット

論文感想: "Data-Driven Response Generation in Social Media"

論文感想: "Semi-Supervised SimHash for Efficient Document Similarity Search"

論文感想: "Word Maturity: Computational Modeling of Word Knowledge"

論文感想: "Autonomous Self-Assessment of Autocorrections: Exploring Text Message Dialogue"

論文感想: "Finding Deceptive Opinion Spam by Any Stretch of the Imagination"

KyTea 0.4.1ではWindows版バイナリも配布するらしい

単語感情極性対応表のミス？

形態素解析器KyTeaがWindowsで使えるようになったらしい

単語の頻度からLDAまでの流れの簡単なイメージのメモ

「日本統計学会創立75周年記念出版『21世紀の統計科学』(全3巻) 増補HP版 (2012年1月)」

読んだ論文: "Self-adjusting Bootstrapping", Shoji Fujiwara and Satoshi Sekine, CICLing 2011