bag of wordsのbagがmultisetという意味だったことを今更知った

自然言語処理

自然言語処理や情報検索などでよく使われるbag of wordsモデルというのがあるこれはテキストデータを単語(形態素？)の位置は無視して単語ごとの出現回数だけで表す方法で、このモデルで表したデータを適当に機械学習の分類器にかけるだけでそれなりによい結…

2014-12-21

日本語形態素解析器のイメージ

自然言語処理

前にこんなツイートをしたけどもうちょっとちゃんとメモっておくゆるふわカジュアル勢()なので内容に間違ってる点があったら教えてくださると嬉しいです勝手なイメージだと、MeCab →一番使われてる。速い。辞書を弄くるのが簡単。いろいろ移植されてる。Ju…

2013-12-10

論文感想: "正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入"(214回NL研)

論文自然言語処理

情報処理学会第214回自然言語処理研究会概要ネット上に登場するような崩れた表記のテキストの形態素解析をする。正規の表現(崩れてない表現)と崩れた表現のペアのデータを用意して、崩れ方のパターンと信頼度を学習し、形態素解析時に利用する手法正規…

2013-10-29

Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み)

自然言語処理

gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました論文紹介 “Represen…

2013-10-13

論文感想: "Social Text Normalization using Contextual Graph Random Walks" (ACL 2013)

論文自然言語処理

"Social Text Normalization using Contextual Graph Random Walks" (pdf) Twitterとかのソーシャルメディアではくだけた表現が多いので、そういうテキストの正規化をする話以下論文中の例の一部 wuz up bro (what is up brother) 4get (forget), 2morrow (…

2013-10-09

論文紹介 “Discriminative Learning with Natural Annotations: Word Segmentation as a Case Study” (ACL 2013)

論文紹介自然言語処理

"Discriminative Learning with Natural Annotations: Word Segmentation as a Case Study" (pdf) 研究室で論文紹介したので以下に資料を貼っておきます。図表は論文中から引用しています何故か研究室での論文紹介は、資料が英語で口頭説明が日本語なので、…

2013-10-02

論文感想: "Microblogs as Parallel Corpora" (ACL 2013)

論文自然言語処理

Utopia/Microtopia Parallel Corpus ↑データなども公開されているみたいですマイクロブログ(TwitterとWeibo)中のツイートから「パラレルな(翻訳になっている)」文章が含まれているものを集めてくる話基本的には一つのツイート中に複数の言語が含まれている…

2013-09-30

論文感想: "Learning Latent Personas of Film Characters" (ACL 2013)

論文自然言語処理

"Learning Latent Personas of Film Characters"(pdf) キャラクターのタイプ(persona、人格)を分析する話。自然言語処理では物語のプロットとかイベントの連鎖の研究は多いけど、キャラクターのタイプに対する研究は初めてらしい映画のデータを対象としてい…

2013-09-24

論文感想: "Identification of Speakers in Novels" (ACL 2013)

論文自然言語処理

"Identification of Speakers in Novels"(pdf) 小説のセリフがどの登場人物のものかを推定する話。教師ありのランキング学習(SVM-rankを利用)。 7割ぐらいは正解できるらしい先行研究の教師ありの分類で使われている特徴量(セリフとの距離、登場人物の出現…

2013-09-21

MeCabでN-Best解を出力した時のコストの表示がおかしい？

自然言語処理

「MeCabでN-best解を出力した時に累積コストを見ると順番に並んでないように見えるんですが何故ですか？」ときかれて答えられなかったのでとりあえずメモ上の質問自体は、質問者がEOSとの連接コストを計算し忘れていたのではないかと思うんですが……それ以外…

2013-09-10

論文感想: "Exploiting Topic based Twitter Sentiment for Stock Prediction" (ACL 2013 short)

自然言語処理論文

"Exploiting Topic based Twitter Sentiment for Stock Prediction" 概要 Twitterから株価の指標の上下を予測する話。似たような話は前からあるけど、この論文ではトピックモデル(前の日のトピックを考慮したDirichlet Process Mixture)を使ってよい結果を…

2013-09-06

論文感想: "Good, Great, Excellent: Global Inference of Semantic Intensities"(TACL vol.1)

論文自然言語処理

Good, Great, Excellent: Global Inference of Semantic Intensities 図表、式は論文中から引用概要似た意味の形容詞の強弱の順序付けをするタスク例えば「寒い」「涼しい」「冷たい」「痛い」などの形容詞が与えられた時に、その強弱関係は「涼しい＜寒…

2013-08-23

論文感想: "TopicSpam: a Topic-Model based approach for spam detection" (ACL 2013 short)

論文自然言語処理

"TopicSpam: a Topic-Model based approach for spam detection" 概要 spam detectionとなっているけれど、以前紹介した以下の論文と同様に、偽のレビューの検出を行っている論文感想: "Finding Deceptive Opinion Spam by Any Stretch of the Imagination"…

2013-07-29

Lossy Countingの変種を実装してみた

自然言語処理 python

前に以下の記事でLossy Countingを実装しましたが、より省メモリな変種があるらしいのでそちらも書いてみました Lossy Countingを実装してみた - 省メモリな頻度計測 - 唯物是真 @Scaled_Wurm 以下の論文のAlgorithm 2の擬似コードそのままです。 "Methods f…

2013-07-28

Lossy Countingを実装してみた - 省メモリな頻度計測

python 自然言語処理

大規模データで頻度を数えると、欲しいのはよく登場するアイテムの情報なのに、ほとんど出現しないアイテムの種類数が非常に多くて、それらがメモリを大量に必要としてしまうという問題があるこれに対してアイテムの種類数の最大値に制限を加えたり、頻度に…

2013-07-11

論文感想: "The lie detector: explorations in the automatic recognition of deceptive language" (IJCNLP 2009 Short)

論文自然言語処理

"The lie detector: explorations in the automatic recognition of deceptive language" 与えられた文章が嘘かどうかを識別するタスクAmazon Mechanical Turkで大勢の人に、本当の意見と嘘の意見を書いてもらってデータセットにしている。ナイーブベイズや…

2013-05-18

論文紹介 “Representing Topics Using Images” (NAACL 2013)

論文自然言語処理

“Representing Topics Using Images", Nikolaos Aletras and Mark Stevenson 研究室で論文紹介したので適当に以下に資料を貼っておく。論文を読んだ後で気づいたけど、NAACL 2013はまだやっていないので、preprintバージョン(？)っぽい。何故か研究室での…

2013-04-29

単語などをIDにマッピングする

python 自然言語処理

異なる要素ごとに別々の数値をIDとして割り振って管理したいってことがよくあります。Twitterで以下のようなツイートを見かけました。 Pythonでwids = defaultdict(lambda: len(wids))だけで単語を単語IDにマッピングする辞書を作れることに気づいた。Python…

2013-04-27

小説家になろうのランキングをトピックモデルで解析(gensim)

python 自然言語処理

小説家になろうというWeb小説投稿サイトがあります。いわゆるライトノベル的な作品が多いのですが、近年書籍化される作品が多く出ていて注目を集めています。続々と「小説家になろう」から書籍化作品が登場！ - フラン☆Skin はてな支店小説を読もう！ || …

2013-04-07

Python で疎行列(SciPy)

python 機械学習自然言語処理

疎行列とは疎行列は成分のほとんどがゼロである行列のことです。たとえば、文書に登場する単語の頻度を数えたりするとこういった行列になります。他にも疎なグラフの隣接行列は疎行列になります。こういった行列は通常の行列(密行列)を使うよりも、少な…

2013-03-01

論文感想: "きたああああああああああああああああ！！！！！１１：マイクロブログを用いた教師なし叫喚フレーズ抽出"(DEIM 2013)

論文自然言語処理

"きたああああああああああああああああ！！！！！１１：マイクロブログを用いた教師なし叫喚フレーズ抽出"(DEIM 2013) タイトルが気になったので読みました、予稿ですが DEIM2013 暫定予稿集概要内容は「ねむいいぃぃぃぃ」とかタイトルにある「きたああ…

2013-02-06

MeCabのC++ライブラリを使ってみた（C++11のマルチスレッドに触ってみた）

c++ 自然言語処理

MeCabをマルチスレッドで動かしてみたい！という話です。マルチスレッドの方法としてはC++11のstd::threadを使います。MeCabをマルチスレッドで動かす方法については以下の記事が参考になりました。 MeCabをC++から使ってみる | mwSoft またMeCab公式にもマ…

2012-12-18

xargsを使った並列化を試したメモ

自然言語処理

xargs -P が激しく便利なのでメモ - 新生おともだち研究会 xargs を使ってカジュアルに並列処理 - tagomorisのメモ置き場 ↑の辺りの記事を読んでxargsによる並列化を試してみたメモ。結果を先に書いておくと、残念ながら並列化してもあまり速くならなかった…

2012-12-03

論文感想: "TCSST: Transfer Classification of Short & Sparse Text Using External Data"(CIKM 2012)

論文自然言語処理機械学習

TCSST: Transfer Classification of Short & Sparse Text Using External Data 概要 Twitterなどのマイクロブログや検索エンジンのスニペット、レビューなどの短くスパースな文章に対して、外部のリソースを使って転移学習を行うことで精度の向上をする。関…

2012-11-30

集合とかベクトルの類似度の計算のメモ

自然言語処理 python

Pythonで実装する類似度計算 - Screaming Loud #1283. 共起性の計算法 ↑この辺りの記事を見て、集合とかベクトルの類似度の計算の記事を下書きのまま放置していたことを思い出したので書き上げた。類似度の計算のコードを書いたのでそれを載せるだけにしよう…

2012-11-29

論文感想: "Creating Stories: Social Curation of Twitter Messages"(ICWSM2012)

論文自然言語処理

Creating Stories: Social Curation of Twitter Messages Akisato Kimura: Research Interests: Assisting social curation of Twitter messages 追記読んだ論文とリンク先の論文(4ページ)が微妙に違うっぽいというか、前に印刷したものと同じ内容の論文(8…

2012-11-15

Dartsの仕様につまづいた話――あるいはMeCabに些細なバグを見つけた話

自然言語処理バグ C++

Double ArrayによるTrieのライブラリDartsのcommonPrefixSearch関数は次のような戻り値と引数になっています。 size_t commonPrefixSearch(const key_type *key, T* result, size_t result_len, size_t len = 0, size_t node_pos = 0);ここでresult_lenは結…

2012-10-16

論文感想: "Ergodic multigram HMM integrating word segmentation and class tagging for Chinese language modeling"(ICASSP-96)

自然言語処理論文

概要 1996年のかなり古い論文。隠れマルコフモデル(Hidden Markov Model, HMM)で中国語の形態素解析(単語分割と品詞タグ付け)をする話。感想中国語や日本語などの分かち書きされていない言語で、HMMを使って単語分割と品詞タグ付けをする場合の式を知りた…

2012-10-05

論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012)

論文自然言語処理

"Automatically Constructing a Normalisation Dictionary for Microblogs" 概要 Twitterとかでの単語の正規化用の辞書を作る話。例、2morw→tomorrow 手法文脈類似度の似た、辞書にない単語(OOV)と辞書にある単語(IVのペア)を集める集めたペアを文字列的…

2012-09-28

「Darts: Double-ARray Trie System」のサンプルコードが動かない

C++ 自然言語処理

Darts: Double ARray Trie System Double Arrayを使いたかったので、Dartsを使おうとしたらサンプルコードが動かなくて困りました。 g++でもclang++でもダメでした。オプションの違いとかなんですかね？exactMatchSearchに戻り値の型を指定したら一応動かせ…