唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文

論文感想: "Semi-Supervised SimHash for Efficient Document Similarity Search"

Semi-Supervised SimHash for Efficient Document Similarity Search ACL2011の論文. 概要 類似文書検索のタスク。 既存の半教師ありのハッシュによる手法は、PCAやSVDライクな手法を用いているため、計算量が大きくまたビットを増やすほど曖昧なビットが増…

論文感想: "Word Maturity: Computational Modeling of Word Knowledge"

Word Maturity: Computational Modeling of Word Knowledge ACL2011の論文. 概要 単語の難しさを年齢(学年?)ごとに分けるタスク。 含まれる年齢の範囲の異なるコーパス(1, 1-2, 1-3,..., adult)から単語頻度-文書行列を作成。 adult以外のそれぞれについて…

論文感想: "Autonomous Self-Assessment of Autocorrections: Exploring Text Message Dialogue"

Autonomous Self-Assessment of Autocorrections: Exploring Text Message Dialogue NAACL2012の論文. 概要 SMSなどでの会話では入力の補助として,単語の訂正(ここでは補完を含む)のシステムが使われていることが多い. しかし,そういったシステムは間違…

論文感想: "Finding Deceptive Opinion Spam by Any Stretch of the Imagination"

PDF ACL2011の論文. 概要 最近食べログとかのステマが話題になりましたが,この研究は数値によるレビューではなく文章によるレビューに対するspamの検出. Amazon Mechanical Turkを使って偽の褒めるレビューを書いてもらって,それと実際の高評価のレビュ…

論文感想"Using paraphrases for improving first story detection in news and Twitter"

"Using paraphrases for improving first story detection in news and Twitter" NAACL2012の論文。 パラフレーズ(言い換え)を利用してTwitterからFirst Story Detection(FSD)を行う。 概要 表現の多様性がFSDのタスクでは問題になる。 そこでパラフレーズの…

「最強のポケモンの生成」 - NLP2012のオノマトペ関係の論文

言語処理学会18回年次大会で音象徴の機械学習による再現:最強のポケモンの生成という面白そうなタイトルの論文があったので紹介します. 概要 「最強のポケモンの生成」というタイトルですが,ポケモン廃人的な意味ではなくて「どんな名前のポケモンが強そ…

"A Simple Word Trigger Method for Social Tag Suggestion", EMNLP 2011

"A Simple Word Trigger Method for Social Tag Suggestion" 統計的機械翻訳の手法を用いて,説明文付きのリソースに対してタグ付けを行う論文. 従来手法の問題点 協調フィルタリング 誰もタグ付けしていないリソースには推薦できない 識別モデル ユーザー…

Part-of-Speech Tagging for Twitter: Annotation, Features, and Experimentsを読んだ

概要 pdf, ACL 2011, short paper. Twitterのテキスト(英語)に対して形態素解析を行っている論文で,そのデータやソースコードはTwitter Part-of-Speech Taggingから入手できる. ツイートに適したタグのセットを提案し実際にタグ付けしている. またTwitter…

Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! を読んだ.

"Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs"という論文を読みました. Preprint Versionですが. タイトルが素晴らしいですね! 流し読みなので間違っていたらすいません. 内容の超概略 以…

最近読んだ論文(ACL2011)

"Deciphering Foreign Language" パラレルコーパスや対訳辞書なしで機械翻訳を行っている論文! モデルを作ってEMアルゴリズムやギブスサンプリングでパラメータ推定. パラレルコーパスを使った方法とcomparableな結果って書いてあるけど,数値には大きな差…

"Who is Tweeting on Twitter: Human, Bot, or Cyborg?"が面白かった.

2010年の論文. Twitterからあるアカウントが人間,bot,あるいはCyborg(手動と自動の両方)のいずれかを識別. 人間とbotについては9割以上,Cyborgについては8割程度の正解率. 識別で利用している情報 投稿時間のパターン ツイートがspam的かどうか どん…

最近読んだ論文

トピックモデル的なのは、読んでもなかなか理解できないです。 "Structural Topic Model for Latent Topical Structure Analysis" 一文ごとにトピックを割り当てて、トピックの遷移を考える?Sentence orderingができる. "Sequential Latent Dirichlet Allo…

ちょっと前に読んだ論文

趣味で読んだ論文などを処分しようと思うので,タイトルだけメモ. 数ヶ月前に読んだのが多い. "Finding scientific topics" 導出がわからなかった. "A Collapsed Variational Bayesian Inference Algorithm for Latend Dirichlet Allocation" "Online Lee…

読んだ論文: "Self-adjusting Bootstrapping", Shoji Fujiwara and Satoshi Sekine, CICLing 2011

ブートストラップ法って? シードに似たアイテムのグループを抽出する方法として用いられている. シードからコンテキストを見つけて,次にコンテキストを利用してアイテムを見つけるという過程をくりかえす. 例,クリントン,ブッシュ→○○大統領→オバマ パ…

読んだ論文: Topic Modeling Ensembles

Topic Modeling Ensembles 概要 ICDM 2010の論文. PLSA(PLSI)やLDAなどのトピックモデルに,アンサンブル学習の枠組みを導入する. トピックモデル ある文書内の単語があるトピックをもとに生成されたと考えて,文書とトピック,単語間の関係を推定するモデ…

アニメキャラクター画像検索分類システムの開発

以前の日記でgoogle:アニメ作品における人物キャラクター画像の萌え特徴分析とその応用]という論文を紹介しましたが,いつの間にかその発展形の[google:アニメにおける人物顔画像の萌え因子特徴評価と検索分類システムへの応用という論文が出ていました. こ…

Wikipediaの記事の自動生成

google:Automatically Generating Wikipedia Articles: A Structure-Aware Approach 研究室の輪講で紹介されていた面白い論文. Wikipediaの記事からジャンルごとに構造を抽出し,検索結果からWikipediaの記事を自動生成する. 例えば病気なら「診断」,「原…

ハヤテのごとくのキャラが登場している論文

google:アニメ作品における人物キャラクター画像の萌え特徴分析とその応用というハヤテのごとくやハルヒのキャラクターが出てくるすごい論文を読みました. 研究内容はキャラクターの画像から目,顔形状,髪の毛の色の特徴を抽出するというものです. 発展萌…

情報系の論文にラブプラスが!?

google:Earthquake Shakes Twitter Users: Real-time Event Detection by Social SensorsというWWW2010の論文を読みました. 何故か途中でラブプラスという文字列が出てきてびっくり. 6ページの図8で,あるニンテンドーDSゲームの情報拡散の様子が示されて…