自然言語処理
『言語処理のための機械学習入門 (自然言語処理シリーズ)』(いわゆる高村本)で研究室の後輩が勉強会をしていて、自分でも一瞬わからなかったのでメモ。 PLSAとかPLSIとかアスペクトモデルとか名前がいろいろあってよくわからないです。 同時確率 文書を、単…
Finding Bursty Topics from Microblogs 概要 トピック推定で用いられることの多いLDA(Latent Dirichlet Allocation)に以下の2つのマイクロブログ特有の要素を加えた. 同じ時間には同じようなトピックが出やすい.例えば大事件が起きた日 ユーザーは時間に…
Deciphering Foreign Language by Combining Language Model and Context Vectors 概要 通常の統計的機械翻訳ではパラレルコーパスという同じ文の対訳データやコンパラブルコーパスという同じようなトピックについて書かれたデータなどを利用することが多い…
Stylometric Analysis of Scientific Articles 概要 論文の文体から以下の3つのタスクをSVMを用いて識別. 英語ネイティブか否か 性別 カンファレンスかワークショップか 使用されているfeature Bow(単語) Style(文体) Syntax(構文) 結果 F値でネイティブか…
Word Salad: Relating Food Prices and Descriptions 概要 レビュー文から極性(ポジティブかネガティブか)を推定するって話はたくさんあるけれど,これは説明文やレビュー文から食べ物の値段を推定するっていう面白いタスク.素性としてはメニュー名や説明文…
Wiki-ly Supervised Part-of-Speech Tagging 概要 フリーな辞書のWiktionaryを利用して、弱教師あり形態素解析を行う。Wiktionaryに登録されている品詞が選ばれるように制限をかけて,隠れマルコフモデルをEMアルゴリズムを用いて学習.Unsupervisedな場合よ…
An Empirical Investigation of Statistical Significance in NLP 概要 自然言語処理における有意性検定に関する調査. 感想 いくつかのワークショップやshared taskでは各チームの出力が公開されていて,それらに対して検定を行なって評価指標とp-valueの関…
Multi-Domain Learning: When Do Domains Matter? 概要 マルチドメインラーニング(MDL)におけるいくつかの疑問に対する検証. MDLによる精度上昇は必ずしもドメインの影響ではなく,アンサンブルの効果ではないか? ドメインラベルをランダムに入れ替えても…
Polarity Inducing Latent Semantic Analysis 概要 文書-単語行列上でcos類似度などを使うと,意味的に似た単語同士を見つけることができる. しかしこの場合の「意味的に似た」というのは「類義語もしくは反意語」であり,「反意語」だけを見つけたい場合に…
"Exploring Topic Coherence over many models and many topics" 概要 トピックモデル[LSA(SVDによる), LSA(NMFによる), LDA]の比較を行う。 出力したトピックのコヒーレンス(一貫性)を近年提案された手法(UCI measure, UMass measure)の平均やエントロピー…
形態素解析機MeCabで分かち書きを得たい時には-Owakati、読みを得たい時には-Oyomiとかオプションを付けますが、もっと細かくフォーマットを指定することができるみたいです。 いくつか試してみたので、書いときます。 形態素と品詞のペア mecab -F"%m-%f[0]…
http://www.cs.washington.edu/homes/aritter/mt_chat.pdf 研究室の論文紹介で紹介されたEMNLP2011の論文。 概要 Twitterなどのようなメッセージに対する応答を自動生成。 メッセージとその応答のコーパスに対して統計的機械翻訳の手法を使ったら、類似度の…
Semi-Supervised SimHash for Efficient Document Similarity Search ACL2011の論文. 概要 類似文書検索のタスク。 既存の半教師ありのハッシュによる手法は、PCAやSVDライクな手法を用いているため、計算量が大きくまたビットを増やすほど曖昧なビットが増…
Word Maturity: Computational Modeling of Word Knowledge ACL2011の論文. 概要 単語の難しさを年齢(学年?)ごとに分けるタスク。 含まれる年齢の範囲の異なるコーパス(1, 1-2, 1-3,..., adult)から単語頻度-文書行列を作成。 adult以外のそれぞれについて…
Autonomous Self-Assessment of Autocorrections: Exploring Text Message Dialogue NAACL2012の論文. 概要 SMSなどでの会話では入力の補助として,単語の訂正(ここでは補完を含む)のシステムが使われていることが多い. しかし,そういったシステムは間違…
PDF ACL2011の論文. 概要 最近食べログとかのステマが話題になりましたが,この研究は数値によるレビューではなく文章によるレビューに対するspamの検出. Amazon Mechanical Turkを使って偽の褒めるレビューを書いてもらって,それと実際の高評価のレビュ…
以前形態素解析器KyTeaがWindowsで使えるようになったらしいという記事を書きましたが,コンパイル済みバイナリの配布が始まったみたいです. KyTea 0.4.1をリリースしました URL !主に変わっているのはWindows版が(やっと)できたところです。それ以外、…
日記の下書き一覧を見てたら,昔の書き上がってる記事があったので蔵出し. 「単語感情極性対応表」という単語がポジティブ(+1)かネガティブ(-1)かというスコアをつけた辞書が公開されています. 商品や人物などについてどんな評判が囁かれているかを推定す…
KyTea (京都テキスト解析ツールキット)は読み推定などの機能がついた最新の形態素解析器です. おお、KyTeaがまともにWindowsで動きました!v. 0.4.1からWindows版も配布できそうです。Windowsでのビルド説明書( URL )を書いてくれた @knzm2011 さんに感謝…
トピックモデルのLDA(Latent Dirichlet Allocation)が難しいって話をよく聞きますけど,詳しい理論的な部分はともかくどういう流れに位置するものかってのはわかりやすいので簡単にメモ. 専門でないので,詳しくは参考文献を読んだほうがいいです. トピッ…
「日本統計学会創立75周年記念出版『21世紀の統計科学』(全3巻) 増補HP版 (2012年1月)というものが以下のURLで公開されています. 日本統計学会75周年記念出版 目次を読んでみると面白そうな章が多いです. とりあえず機械学習や自然言語処理などで使いそう…
ブートストラップ法って? シードに似たアイテムのグループを抽出する方法として用いられている. シードからコンテキストを見つけて,次にコンテキストを利用してアイテムを見つけるという過程をくりかえす. 例,クリントン,ブッシュ→○○大統領→オバマ パ…