唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文感想: "きたああああああああああああああああ!!!!!11:マイクロブログを用いた教師なし叫喚フレーズ抽出"(DEIM 2013)

タイトルが気になったので読みました、予稿ですが

概要

内容は「ねむいいぃぃぃぃ」とかタイトルにある「きたああああああああああああああああ」とかみたいに母音が3回以上繰り返しているフレーズを抽出するというものです。

手法

正規表現を用いてフレーズを抽出してから、正規化した文字列を逆順に1文字ずつノードにして木構造を作って頻度が閾値以下のノードは除きます。

こういう手法を使っている理由がよく読み取れなかったです。

感想

以下のような例文が載っていて面白かった。論文にこういうの載せていいんですね

  • それはらめえええええええ #eva
  • カヲル君きたあああああああああああ! #エヴァ
  • ホモオオオオオオオオ #eva