ABテストの12の落とし穴

論文

Twitterで見かけた以下の記事で紹介されていた論文がおもしろそうだったので読んだ感想と内容のてきとーな紹介(詳しく知りたい人は元論文を呼んでください)マイクロソフトの研究者による、いわゆる A/B テストにおいてメトリックを解釈するときに陥りがちな…

2014-12-12

論文感想: "Machine Learning: The High-Interest Credit Card of Technical Debt"

論文機械学習

Machine Learning: The High Interest Credit Card of Technical Debt NIPS 2014のWorkshopのSE4ML: Software Engineering for Machine Learningというので発表された論文っぽいです Twitterで話題になっていたので読んだメモです久しぶりに英語論文を読んだ…

2013-12-10

論文感想: "正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入"(214回NL研)

論文自然言語処理

情報処理学会第214回自然言語処理研究会概要ネット上に登場するような崩れた表記のテキストの形態素解析をする。正規の表現(崩れてない表現)と崩れた表現のペアのデータを用意して、崩れ方のパターンと信頼度を学習し、形態素解析時に利用する手法正規…

2013-10-13

論文感想: "Social Text Normalization using Contextual Graph Random Walks" (ACL 2013)

論文自然言語処理

"Social Text Normalization using Contextual Graph Random Walks" (pdf) Twitterとかのソーシャルメディアではくだけた表現が多いので、そういうテキストの正規化をする話以下論文中の例の一部 wuz up bro (what is up brother) 4get (forget), 2morrow (…

2013-10-02

論文感想: "Microblogs as Parallel Corpora" (ACL 2013)

論文自然言語処理

Utopia/Microtopia Parallel Corpus ↑データなども公開されているみたいですマイクロブログ(TwitterとWeibo)中のツイートから「パラレルな(翻訳になっている)」文章が含まれているものを集めてくる話基本的には一つのツイート中に複数の言語が含まれている…

2013-09-30

論文感想: "Learning Latent Personas of Film Characters" (ACL 2013)

論文自然言語処理

"Learning Latent Personas of Film Characters"(pdf) キャラクターのタイプ(persona、人格)を分析する話。自然言語処理では物語のプロットとかイベントの連鎖の研究は多いけど、キャラクターのタイプに対する研究は初めてらしい映画のデータを対象としてい…

2013-09-24

論文感想: "Identification of Speakers in Novels" (ACL 2013)

論文自然言語処理

"Identification of Speakers in Novels"(pdf) 小説のセリフがどの登場人物のものかを推定する話。教師ありのランキング学習(SVM-rankを利用)。 7割ぐらいは正解できるらしい先行研究の教師ありの分類で使われている特徴量(セリフとの距離、登場人物の出現…

2013-09-10

論文感想: "Exploiting Topic based Twitter Sentiment for Stock Prediction" (ACL 2013 short)

自然言語処理論文

"Exploiting Topic based Twitter Sentiment for Stock Prediction" 概要 Twitterから株価の指標の上下を予測する話。似たような話は前からあるけど、この論文ではトピックモデル(前の日のトピックを考慮したDirichlet Process Mixture)を使ってよい結果を…

2013-09-06

論文感想: "Good, Great, Excellent: Global Inference of Semantic Intensities"(TACL vol.1)

論文自然言語処理

Good, Great, Excellent: Global Inference of Semantic Intensities 図表、式は論文中から引用概要似た意味の形容詞の強弱の順序付けをするタスク例えば「寒い」「涼しい」「冷たい」「痛い」などの形容詞が与えられた時に、その強弱関係は「涼しい＜寒…

2013-08-23

論文感想: "TopicSpam: a Topic-Model based approach for spam detection" (ACL 2013 short)

論文自然言語処理

"TopicSpam: a Topic-Model based approach for spam detection" 概要 spam detectionとなっているけれど、以前紹介した以下の論文と同様に、偽のレビューの検出を行っている論文感想: "Finding Deceptive Opinion Spam by Any Stretch of the Imagination"…

2013-07-11

論文感想: "The lie detector: explorations in the automatic recognition of deceptive language" (IJCNLP 2009 Short)

論文自然言語処理

"The lie detector: explorations in the automatic recognition of deceptive language" 与えられた文章が嘘かどうかを識別するタスクAmazon Mechanical Turkで大勢の人に、本当の意見と嘘の意見を書いてもらってデータセットにしている。ナイーブベイズや…

2013-06-21

論文感想: "Personalized PageRank vectors for tag recommendations: inside FolkRank" (RecSys 2011)

論文

Personalized PageRank vectors for tag recommendations 概要ユーザーとアイテムとタグのデータが与えられた時に、ユーザーとアイテムに対するタグの推薦を行う方法としてFolkRankというアルゴリズムがよく使われている(らしい)。このアルゴリズムを近似…

2013-06-06

SEXI 2013(18禁の情報の検索やデータマイニングのワークショップ)の論文読んだ

論文

SEXI 2013 | Workshop on Search and Exploration of X-Rated Information at WSDM 2013 WSDM (Web Search and Data Mining) 2013でSEXI(Search and Exploration of X-rated Information)というワークショップが開催されて一部で話題になったこのワークショ…

2013-05-18

論文紹介 “Representing Topics Using Images” (NAACL 2013)

論文自然言語処理

“Representing Topics Using Images", Nikolaos Aletras and Mark Stevenson 研究室で論文紹介したので適当に以下に資料を貼っておく。論文を読んだ後で気づいたけど、NAACL 2013はまだやっていないので、preprintバージョン(？)っぽい。何故か研究室での…

2013-03-01

論文感想: "きたああああああああああああああああ！！！！！１１：マイクロブログを用いた教師なし叫喚フレーズ抽出"(DEIM 2013)

論文自然言語処理

"きたああああああああああああああああ！！！！！１１：マイクロブログを用いた教師なし叫喚フレーズ抽出"(DEIM 2013) タイトルが気になったので読みました、予稿ですが DEIM2013 暫定予稿集概要内容は「ねむいいぃぃぃぃ」とかタイトルにある「きたああ…

2012-12-03

論文感想: "TCSST: Transfer Classification of Short & Sparse Text Using External Data"(CIKM 2012)

論文自然言語処理機械学習

TCSST: Transfer Classification of Short & Sparse Text Using External Data 概要 Twitterなどのマイクロブログや検索エンジンのスニペット、レビューなどの短くスパースな文章に対して、外部のリソースを使って転移学習を行うことで精度の向上をする。関…

2012-11-29

論文感想: "Creating Stories: Social Curation of Twitter Messages"(ICWSM2012)

論文自然言語処理

Creating Stories: Social Curation of Twitter Messages Akisato Kimura: Research Interests: Assisting social curation of Twitter messages 追記読んだ論文とリンク先の論文(4ページ)が微妙に違うっぽいというか、前に印刷したものと同じ内容の論文(8…

2012-10-16

論文感想: "Ergodic multigram HMM integrating word segmentation and class tagging for Chinese language modeling"(ICASSP-96)

自然言語処理論文

概要 1996年のかなり古い論文。隠れマルコフモデル(Hidden Markov Model, HMM)で中国語の形態素解析(単語分割と品詞タグ付け)をする話。感想中国語や日本語などの分かち書きされていない言語で、HMMを使って単語分割と品詞タグ付けをする場合の式を知りた…

2012-10-05

論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012)

論文自然言語処理

"Automatically Constructing a Normalisation Dictionary for Microblogs" 概要 Twitterとかでの単語の正規化用の辞書を作る話。例、2morw→tomorrow 手法文脈類似度の似た、辞書にない単語(OOV)と辞書にある単語(IVのペア)を集める集めたペアを文字列的…

2012-10-04

論文感想: "Adversarial Support Vector Machine Learning"(KDD 2012)

論文機械学習

"Adversarial Support Vector Machine Learning" 概要敵対的学習の話。 spam検出や侵入検出などの相手がチェックをかいくぐろうとして通常に見せかけようとする場合の機械学習。 See: 敵対的学習 - 機械学習の「朱鷺の杜Wiki」先行研究では悪意のある敵対…

2012-07-26

Twitterのトピックを推定:"Finding Bursty Topics from Microblogs"(ACL 2012)

自然言語処理論文

Finding Bursty Topics from Microblogs 概要トピック推定で用いられることの多いLDA(Latent Dirichlet Allocation)に以下の2つのマイクロブログ特有の要素を加えた．同じ時間には同じようなトピックが出やすい．例えば大事件が起きた日ユーザーは時間に…

2012-07-25

外国語を解読する:"Deciphering Foreign Language by Combining Language Model and Context Vectors"(ACL 2012)

論文自然言語処理

Deciphering Foreign Language by Combining Language Model and Context Vectors 概要通常の統計的機械翻訳ではパラレルコーパスという同じ文の対訳データやコンパラブルコーパスという同じようなトピックについて書かれたデータなどを利用することが多い…

2012-07-23

論文感想: "Stylometric Analysis of Scientific Articles"(NAACL-HLT 2012)

論文自然言語処理

Stylometric Analysis of Scientific Articles 概要論文の文体から以下の3つのタスクをSVMを用いて識別．英語ネイティブか否か性別カンファレンスかワークショップか使用されているfeature Bow(単語) Style(文体) Syntax(構文) 結果 F値でネイティブか…

2012-07-21

食べ物の値段を説明から推定する:"Word Salad: Relating Food Prices and Descriptions"(EMNLP-CoNLL 2012)

論文自然言語処理

Word Salad: Relating Food Prices and Descriptions 概要レビュー文から極性(ポジティブかネガティブか)を推定するって話はたくさんあるけれど，これは説明文やレビュー文から食べ物の値段を推定するっていう面白いタスク．素性としてはメニュー名や説明文…

2012-07-19

論文感想: "Wiki-ly Supervised Part-of-Speech Tagging"(EMNLP-CoNLL 2012)

論文自然言語処理

Wiki-ly Supervised Part-of-Speech Tagging 概要フリーな辞書のWiktionaryを利用して、弱教師あり形態素解析を行う。Wiktionaryに登録されている品詞が選ばれるように制限をかけて，隠れマルコフモデルをEMアルゴリズムを用いて学習．Unsupervisedな場合よ…

2012-07-18

論文感想: "An Empirical Investigation of Statistical Significance in NLP"(EMNLP-CoNLL 2012)

論文自然言語処理

An Empirical Investigation of Statistical Significance in NLP 概要自然言語処理における有意性検定に関する調査．感想いくつかのワークショップやshared taskでは各チームの出力が公開されていて，それらに対して検定を行なって評価指標とp-valueの関…

2012-07-17

論文感想: "Multi-Domain Learning: When Do Domains Matter?"(EMNLP-CoNLL 2012)

論文自然言語処理機械学習

Multi-Domain Learning: When Do Domains Matter? 概要マルチドメインラーニング(MDL)におけるいくつかの疑問に対する検証． MDLによる精度上昇は必ずしもドメインの影響ではなく，アンサンブルの効果ではないか？ドメインラベルをランダムに入れ替えても…

2012-07-16

論文感想: "Polarity Inducing Latent Semantic Analysis"(EMNLP-CoNLL 2012)

論文自然言語処理機械学習

Polarity Inducing Latent Semantic Analysis 概要文書-単語行列上でcos類似度などを使うと，意味的に似た単語同士を見つけることができる．しかしこの場合の「意味的に似た」というのは「類義語もしくは反意語」であり，「反意語」だけを見つけたい場合に…

2012-07-15

論文感想: "Exploring Topic Coherence over many models and many topics"(EMNLP-CoNLL 2012)

論文自然言語処理機械学習

"Exploring Topic Coherence over many models and many topics" 概要トピックモデル[LSA(SVDによる), LSA(NMFによる), LDA]の比較を行う。出力したトピックのコヒーレンス(一貫性)を近年提案された手法(UCI measure, UMass measure)の平均やエントロピー…

2012-07-02

論文感想: "Data-Driven Response Generation in Social Media"

論文自然言語処理

http://www.cs.washington.edu/homes/aritter/mt_chat.pdf 研究室の論文紹介で紹介されたEMNLP2011の論文。概要 Twitterなどのようなメッセージに対する応答を自動生成。メッセージとその応答のコーパスに対して統計的機械翻訳の手法を使ったら、類似度の…

唯物是真 @Scaled_Wurm

プログラミング(主にPython)とか機械学習とか

論文

ABテストの12の落とし穴

論文感想: "Machine Learning: The High-Interest Credit Card of Technical Debt"

論文感想: "正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入"(214回NL研)

論文感想: "Social Text Normalization using Contextual Graph Random Walks" (ACL 2013)

論文感想: "Microblogs as Parallel Corpora" (ACL 2013)

論文感想: "Learning Latent Personas of Film Characters" (ACL 2013)

論文感想: "Identification of Speakers in Novels" (ACL 2013)

論文感想: "Exploiting Topic based Twitter Sentiment for Stock Prediction" (ACL 2013 short)

論文感想: "Good, Great, Excellent: Global Inference of Semantic Intensities"(TACL vol.1)

論文感想: "TopicSpam: a Topic-Model based approach for spam detection" (ACL 2013 short)

論文感想: "The lie detector: explorations in the automatic recognition of deceptive language" (IJCNLP 2009 Short)

論文感想: "Personalized PageRank vectors for tag recommendations: inside FolkRank" (RecSys 2011)

SEXI 2013(18禁の情報の検索やデータマイニングのワークショップ)の論文読んだ

論文紹介 “Representing Topics Using Images” (NAACL 2013)

論文感想: "きたああああああああああああああああ！！！！！１１：マイクロブログを用いた教師なし叫喚フレーズ抽出"(DEIM 2013)

論文感想: "TCSST: Transfer Classification of Short & Sparse Text Using External Data"(CIKM 2012)

論文感想: "Creating Stories: Social Curation of Twitter Messages"(ICWSM2012)

論文感想: "Ergodic multigram HMM integrating word segmentation and class tagging for Chinese language modeling"(ICASSP-96)

論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012)

論文感想: "Adversarial Support Vector Machine Learning"(KDD 2012)

Twitterのトピックを推定:"Finding Bursty Topics from Microblogs"(ACL 2012)

外国語を解読する:"Deciphering Foreign Language by Combining Language Model and Context Vectors"(ACL 2012)

論文感想: "Stylometric Analysis of Scientific Articles"(NAACL-HLT 2012)

食べ物の値段を説明から推定する:"Word Salad: Relating Food Prices and Descriptions"(EMNLP-CoNLL 2012)

論文感想: "Wiki-ly Supervised Part-of-Speech Tagging"(EMNLP-CoNLL 2012)

論文感想: "An Empirical Investigation of Statistical Significance in NLP"(EMNLP-CoNLL 2012)

論文感想: "Multi-Domain Learning: When Do Domains Matter?"(EMNLP-CoNLL 2012)

論文感想: "Polarity Inducing Latent Semantic Analysis"(EMNLP-CoNLL 2012)

論文感想: "Exploring Topic Coherence over many models and many topics"(EMNLP-CoNLL 2012)

論文感想: "Data-Driven Response Generation in Social Media"