読者です 読者をやめる 読者になる 読者になる

唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文感想: "Machine Learning: The High-Interest Credit Card of Technical Debt"

Machine Learning: The High Interest Credit Card of Technical Debt NIPS 2014のWorkshopのSE4ML: Software Engineering for Machine Learningというので発表された論文っぽいです Twitterで話題になっていたので読んだメモです久しぶりに英語論文を読んだ…

論文感想: "正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入"(214回NL研)

情報処理学会 第214回自然言語処理研究会 概要 ネット上に登場するような崩れた表記のテキストの形態素解析をする。正規の表現(崩れてない表現)と崩れた表現のペアのデータを用意して、崩れ方のパターンと信頼度を学習し、形態素解析時に利用する 手法 正規…

論文感想: "Social Text Normalization using Contextual Graph Random Walks" (ACL 2013)

"Social Text Normalization using Contextual Graph Random Walks" (pdf) Twitterとかのソーシャルメディアではくだけた表現が多いので、そういうテキストの正規化をする話 以下論文中の例の一部 wuz up bro (what is up brother) 4get (forget), 2morrow (…

論文感想: "Microblogs as Parallel Corpora" (ACL 2013)

Utopia/Microtopia Parallel Corpus ↑データなども公開されているみたいですマイクロブログ(TwitterとWeibo)中のツイートから「パラレルな(翻訳になっている)」文章が含まれているものを集めてくる話 基本的には一つのツイート中に複数の言語が含まれている…

論文感想: "Learning Latent Personas of Film Characters" (ACL 2013)

"Learning Latent Personas of Film Characters"(pdf) キャラクターのタイプ(persona、人格)を分析する話。 自然言語処理では物語のプロットとかイベントの連鎖の研究は多いけど、キャラクターのタイプに対する研究は初めてらしい映画のデータを対象としてい…

論文感想: "Identification of Speakers in Novels" (ACL 2013)

"Identification of Speakers in Novels"(pdf) 小説のセリフがどの登場人物のものかを推定する話。 教師ありのランキング学習(SVM-rankを利用)。 7割ぐらいは正解できるらしい先行研究の教師ありの分類で使われている特徴量(セリフとの距離、登場人物の出現…

論文感想: "Exploiting Topic based Twitter Sentiment for Stock Prediction" (ACL 2013 short)

"Exploiting Topic based Twitter Sentiment for Stock Prediction" 概要 Twitterから株価の指標の上下を予測する話。 似たような話は前からあるけど、この論文ではトピックモデル(前の日のトピックを考慮したDirichlet Process Mixture)を使ってよい結果を…

論文感想: "Good, Great, Excellent: Global Inference of Semantic Intensities"(TACL vol.1)

Good, Great, Excellent: Global Inference of Semantic Intensities 図表、式は論文中から引用 概要 似た意味の形容詞の強弱の順序付けをするタスク 例えば「寒い」「涼しい」「冷たい」「痛い」などの形容詞が与えられた時に、その強弱関係は「涼しい<寒…

論文感想: "TopicSpam: a Topic-Model based approach for spam detection" (ACL 2013 short)

"TopicSpam: a Topic-Model based approach for spam detection" 概要 spam detectionとなっているけれど、以前紹介した以下の論文と同様に、偽のレビューの検出を行っている 論文感想: "Finding Deceptive Opinion Spam by Any Stretch of the Imagination"…

論文感想: "The lie detector: explorations in the automatic recognition of deceptive language" (IJCNLP 2009 Short)

"The lie detector: explorations in the automatic recognition of deceptive language" 与えられた文章が嘘かどうかを識別するタスクAmazon Mechanical Turkで大勢の人に、本当の意見と嘘の意見を書いてもらってデータセットにしている。 ナイーブベイズや…

論文感想: "Personalized PageRank vectors for tag recommendations: inside FolkRank" (RecSys 2011)

Personalized PageRank vectors for tag recommendations 概要 ユーザーとアイテムとタグのデータが与えられた時に、ユーザーとアイテムに対するタグの推薦を行う方法としてFolkRankというアルゴリズムがよく使われている(らしい)。 このアルゴリズムを近似…

SEXI 2013(18禁の情報の検索やデータマイニングのワークショップ)の論文読んだ

SEXI 2013 | Workshop on Search and Exploration of X-Rated Information at WSDM 2013 WSDM (Web Search and Data Mining) 2013でSEXI(Search and Exploration of X-rated Information)というワークショップが開催されて一部で話題になった このワークショ…

論文紹介 “Representing Topics Using Images” (NAACL 2013)

“Representing Topics Using Images", Nikolaos Aletras and Mark Stevenson 研究室で論文紹介したので適当に以下に資料を貼っておく。 論文を読んだ後で気づいたけど、NAACL 2013はまだやっていないので、preprintバージョン(?)っぽい。 何故か研究室での…

論文感想: "きたああああああああああああああああ!!!!!11:マイクロブログを用いた教師なし叫喚フレーズ抽出"(DEIM 2013)

"きたああああああああああああああああ!!!!!11:マイクロブログを用いた教師なし叫喚フレーズ抽出"(DEIM 2013) タイトルが気になったので読みました、予稿ですが DEIM2013 暫定予稿集 概要 内容は「ねむいいぃぃぃぃ」とかタイトルにある「きたああ…

論文感想: "TCSST: Transfer Classification of Short & Sparse Text Using External Data"(CIKM 2012)

TCSST: Transfer Classification of Short & Sparse Text Using External Data 概要 Twitterなどのマイクロブログや検索エンジンのスニペット、レビューなどの短くスパースな文章に対して、外部のリソースを使って転移学習を行うことで精度の向上をする。関…

論文感想: "Creating Stories: Social Curation of Twitter Messages"(ICWSM2012)

Creating Stories: Social Curation of Twitter Messages Akisato Kimura: Research Interests: Assisting social curation of Twitter messages 追記 読んだ論文とリンク先の論文(4ページ)が微妙に違うっぽいというか、前に印刷したものと同じ内容の論文(8…

論文感想: "Ergodic multigram HMM integrating word segmentation and class tagging for Chinese language modeling"(ICASSP-96)

概要 1996年のかなり古い論文。 隠れマルコフモデル(Hidden Markov Model, HMM)で中国語の形態素解析(単語分割と品詞タグ付け)をする話。 感想 中国語や日本語などの分かち書きされていない言語で、HMMを使って単語分割と品詞タグ付けをする場合の式を知りた…

論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012)

"Automatically Constructing a Normalisation Dictionary for Microblogs" 概要 Twitterとかでの単語の正規化用の辞書を作る話。 例、2morw→tomorrow 手法 文脈類似度の似た、辞書にない単語(OOV)と辞書にある単語(IVのペア)を集める 集めたペアを文字列的…

論文感想: "Adversarial Support Vector Machine Learning"(KDD 2012)

"Adversarial Support Vector Machine Learning" 概要 敵対的学習の話。 spam検出や侵入検出などの相手がチェックをかいくぐろうとして通常に見せかけようとする場合の機械学習。 See: 敵対的学習 - 機械学習の「朱鷺の杜Wiki」 先行研究では悪意のある敵対…

Twitterのトピックを推定:"Finding Bursty Topics from Microblogs"(ACL 2012)

Finding Bursty Topics from Microblogs 概要 トピック推定で用いられることの多いLDA(Latent Dirichlet Allocation)に以下の2つのマイクロブログ特有の要素を加えた. 同じ時間には同じようなトピックが出やすい.例えば大事件が起きた日 ユーザーは時間に…

外国語を解読する:"Deciphering Foreign Language by Combining Language Model and Context Vectors"(ACL 2012)

Deciphering Foreign Language by Combining Language Model and Context Vectors 概要 通常の統計的機械翻訳ではパラレルコーパスという同じ文の対訳データやコンパラブルコーパスという同じようなトピックについて書かれたデータなどを利用することが多い…

論文感想: "Stylometric Analysis of Scientific Articles"(NAACL-HLT 2012)

Stylometric Analysis of Scientific Articles 概要 論文の文体から以下の3つのタスクをSVMを用いて識別. 英語ネイティブか否か 性別 カンファレンスかワークショップか 使用されているfeature Bow(単語) Style(文体) Syntax(構文) 結果 F値でネイティブか…

食べ物の値段を説明から推定する:"Word Salad: Relating Food Prices and Descriptions"(EMNLP-CoNLL 2012)

Word Salad: Relating Food Prices and Descriptions 概要 レビュー文から極性(ポジティブかネガティブか)を推定するって話はたくさんあるけれど,これは説明文やレビュー文から食べ物の値段を推定するっていう面白いタスク.素性としてはメニュー名や説明文…

論文感想: "Wiki-ly Supervised Part-of-Speech Tagging"(EMNLP-CoNLL 2012)

Wiki-ly Supervised Part-of-Speech Tagging 概要 フリーな辞書のWiktionaryを利用して、弱教師あり形態素解析を行う。Wiktionaryに登録されている品詞が選ばれるように制限をかけて,隠れマルコフモデルをEMアルゴリズムを用いて学習.Unsupervisedな場合よ…

論文感想: "An Empirical Investigation of Statistical Significance in NLP"(EMNLP-CoNLL 2012)

An Empirical Investigation of Statistical Significance in NLP 概要 自然言語処理における有意性検定に関する調査. 感想 いくつかのワークショップやshared taskでは各チームの出力が公開されていて,それらに対して検定を行なって評価指標とp-valueの関…

論文感想: "Multi-Domain Learning: When Do Domains Matter?"(EMNLP-CoNLL 2012)

Multi-Domain Learning: When Do Domains Matter? 概要 マルチドメインラーニング(MDL)におけるいくつかの疑問に対する検証. MDLによる精度上昇は必ずしもドメインの影響ではなく,アンサンブルの効果ではないか? ドメインラベルをランダムに入れ替えても…

論文感想: "Polarity Inducing Latent Semantic Analysis"(EMNLP-CoNLL 2012)

Polarity Inducing Latent Semantic Analysis 概要 文書-単語行列上でcos類似度などを使うと,意味的に似た単語同士を見つけることができる. しかしこの場合の「意味的に似た」というのは「類義語もしくは反意語」であり,「反意語」だけを見つけたい場合に…

論文感想: "Exploring Topic Coherence over many models and many topics"(EMNLP-CoNLL 2012)

"Exploring Topic Coherence over many models and many topics" 概要 トピックモデル[LSA(SVDによる), LSA(NMFによる), LDA]の比較を行う。 出力したトピックのコヒーレンス(一貫性)を近年提案された手法(UCI measure, UMass measure)の平均やエントロピー…

論文感想: "Data-Driven Response Generation in Social Media"

http://www.cs.washington.edu/homes/aritter/mt_chat.pdf 研究室の論文紹介で紹介されたEMNLP2011の論文。 概要 Twitterなどのようなメッセージに対する応答を自動生成。 メッセージとその応答のコーパスに対して統計的機械翻訳の手法を使ったら、類似度の…

論文感想: "Semi-Supervised SimHash for Efficient Document Similarity Search"

Semi-Supervised SimHash for Efficient Document Similarity Search ACL2011の論文. 概要 類似文書検索のタスク。 既存の半教師ありのハッシュによる手法は、PCAやSVDライクな手法を用いているため、計算量が大きくまたビットを増やすほど曖昧なビットが増…

論文感想: "Word Maturity: Computational Modeling of Word Knowledge"

Word Maturity: Computational Modeling of Word Knowledge ACL2011の論文. 概要 単語の難しさを年齢(学年?)ごとに分けるタスク。 含まれる年齢の範囲の異なるコーパス(1, 1-2, 1-3,..., adult)から単語頻度-文書行列を作成。 adult以外のそれぞれについて…

論文感想: "Autonomous Self-Assessment of Autocorrections: Exploring Text Message Dialogue"

Autonomous Self-Assessment of Autocorrections: Exploring Text Message Dialogue NAACL2012の論文. 概要 SMSなどでの会話では入力の補助として,単語の訂正(ここでは補完を含む)のシステムが使われていることが多い. しかし,そういったシステムは間違…

論文感想: "Finding Deceptive Opinion Spam by Any Stretch of the Imagination"

PDF ACL2011の論文. 概要 最近食べログとかのステマが話題になりましたが,この研究は数値によるレビューではなく文章によるレビューに対するspamの検出. Amazon Mechanical Turkを使って偽の褒めるレビューを書いてもらって,それと実際の高評価のレビュ…

論文感想"Using paraphrases for improving first story detection in news and Twitter"

"Using paraphrases for improving first story detection in news and Twitter" NAACL2012の論文。 パラフレーズ(言い換え)を利用してTwitterからFirst Story Detection(FSD)を行う。 概要 表現の多様性がFSDのタスクでは問題になる。 そこでパラフレーズの…

「最強のポケモンの生成」 - NLP2012のオノマトペ関係の論文

言語処理学会18回年次大会で音象徴の機械学習による再現:最強のポケモンの生成という面白そうなタイトルの論文があったので紹介します. 概要 「最強のポケモンの生成」というタイトルですが,ポケモン廃人的な意味ではなくて「どんな名前のポケモンが強そ…

"A Simple Word Trigger Method for Social Tag Suggestion", EMNLP 2011

"A Simple Word Trigger Method for Social Tag Suggestion" 統計的機械翻訳の手法を用いて,説明文付きのリソースに対してタグ付けを行う論文. 従来手法の問題点 協調フィルタリング 誰もタグ付けしていないリソースには推薦できない 識別モデル ユーザー…

Part-of-Speech Tagging for Twitter: Annotation, Features, and Experimentsを読んだ

概要 pdf, ACL 2011, short paper. Twitterのテキスト(英語)に対して形態素解析を行っている論文で,そのデータやソースコードはTwitter Part-of-Speech Taggingから入手できる. ツイートに適したタグのセットを提案し実際にタグ付けしている. またTwitter…

Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! を読んだ.

"Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs"という論文を読みました. Preprint Versionですが. タイトルが素晴らしいですね! 流し読みなので間違っていたらすいません. 内容の超概略 以…

最近読んだ論文(ACL2011)

"Deciphering Foreign Language" パラレルコーパスや対訳辞書なしで機械翻訳を行っている論文! モデルを作ってEMアルゴリズムやギブスサンプリングでパラメータ推定. パラレルコーパスを使った方法とcomparableな結果って書いてあるけど,数値には大きな差…

"Who is Tweeting on Twitter: Human, Bot, or Cyborg?"が面白かった.

2010年の論文. Twitterからあるアカウントが人間,bot,あるいはCyborg(手動と自動の両方)のいずれかを識別. 人間とbotについては9割以上,Cyborgについては8割程度の正解率. 識別で利用している情報 投稿時間のパターン ツイートがspam的かどうか どん…

最近読んだ論文

トピックモデル的なのは、読んでもなかなか理解できないです。 "Structural Topic Model for Latent Topical Structure Analysis" 一文ごとにトピックを割り当てて、トピックの遷移を考える?Sentence orderingができる. "Sequential Latent Dirichlet Allo…

ちょっと前に読んだ論文

趣味で読んだ論文などを処分しようと思うので,タイトルだけメモ. 数ヶ月前に読んだのが多い. "Finding scientific topics" 導出がわからなかった. "A Collapsed Variational Bayesian Inference Algorithm for Latend Dirichlet Allocation" "Online Lee…

読んだ論文: "Self-adjusting Bootstrapping", Shoji Fujiwara and Satoshi Sekine, CICLing 2011

ブートストラップ法って? シードに似たアイテムのグループを抽出する方法として用いられている. シードからコンテキストを見つけて,次にコンテキストを利用してアイテムを見つけるという過程をくりかえす. 例,クリントン,ブッシュ→○○大統領→オバマ パ…

読んだ論文: Topic Modeling Ensembles

Topic Modeling Ensembles 概要 ICDM 2010の論文. PLSA(PLSI)やLDAなどのトピックモデルに,アンサンブル学習の枠組みを導入する. トピックモデル ある文書内の単語があるトピックをもとに生成されたと考えて,文書とトピック,単語間の関係を推定するモデ…

アニメキャラクター画像検索分類システムの開発

以前の日記でgoogle:アニメ作品における人物キャラクター画像の萌え特徴分析とその応用]という論文を紹介しましたが,いつの間にかその発展形の[google:アニメにおける人物顔画像の萌え因子特徴評価と検索分類システムへの応用という論文が出ていました. こ…

Wikipediaの記事の自動生成

google:Automatically Generating Wikipedia Articles: A Structure-Aware Approach 研究室の輪講で紹介されていた面白い論文. Wikipediaの記事からジャンルごとに構造を抽出し,検索結果からWikipediaの記事を自動生成する. 例えば病気なら「診断」,「原…

ハヤテのごとくのキャラが登場している論文

google:アニメ作品における人物キャラクター画像の萌え特徴分析とその応用というハヤテのごとくやハルヒのキャラクターが出てくるすごい論文を読みました. 研究内容はキャラクターの画像から目,顔形状,髪の毛の色の特徴を抽出するというものです. 発展萌…

情報系の論文にラブプラスが!?

google:Earthquake Shakes Twitter Users: Real-time Event Detection by Social SensorsというWWW2010の論文を読みました. 何故か途中でラブプラスという文字列が出てきてびっくり. 6ページの図8で,あるニンテンドーDSゲームの情報拡散の様子が示されて…

-->