Lossy Countingの変種を実装してみた

自然言語処理 python

前に以下の記事でLossy Countingを実装しましたが、より省メモリな変種があるらしいのでそちらも書いてみました Lossy Countingを実装してみた - 省メモリな頻度計測 - 唯物是真 @Scaled_Wurm 以下の論文のAlgorithm 2の擬似コードそのままです。 "Methods f…

2013-07-28

Lossy Countingを実装してみた - 省メモリな頻度計測

python 自然言語処理

大規模データで頻度を数えると、欲しいのはよく登場するアイテムの情報なのに、ほとんど出現しないアイテムの種類数が非常に多くて、それらがメモリを大量に必要としてしまうという問題があるこれに対してアイテムの種類数の最大値に制限を加えたり、頻度に…

2013-07-26

小説家になろうの作品タイトルは長文化しているのか？

いささか旧聞ですが「ライトノベルのタイトルが長文化しているのではないか？」という話題がありましたラノベタイトルの文字の長さ決着編 - World Digger 2013年発売のラノベタイトルの割合を出してみた - Togetter Web小説投稿サイトである小説家になろう…

2013-07-23

matplotlibで積み上げ棒グラフ

python

積み上げ棒グラフ(stacked bar chart)は、棒グラフを積み重ねた以下のような形のグラフです matplotlibのbar関数ではオフセットを指定できるので、オフセットを足しながら棒グラフをかいていけば積み上げ棒グラフができます from pylab import * def bar_sta…

2013-07-21

python 2.7でPython 3風に書きたい

python

Python 3以降との違いを調べていたときのメモ Python 2.7でも試せるもの以下にPython 2.7でimportをすればPython 3風に書けるものを列挙しておきます from __future__ import division Python 2.7では割り算「/」の結果は切り捨てでしたが、Python 3以降で…

2013-07-20

正規分布間のKLダイバージェンスの導出

機械学習

多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zwei 上の記事を読んで勉強になったのですが、数式がテキストで読みづらかったのと、多変量でない1次元の正規分布の導出の段階でよくわからなかったので調べて記事にまとめました注意数…

2013-07-17

grepで先読みとか戻り読みの正規表現

先読みとか戻り読みの正規表現はgrepでは使えないかと思っていました。ですが"-P"のオプション(Perl互換)を指定すれば使えるんですね(grepの種類などによるかもしれませんがちなみに先読みとか戻り読みについては以下の記事が簡潔でわかりやすかったです正…

2013-07-16

MathJaxでの数式表示を試す

はてなブログの数式機能の出力が見やすくなかったので、MathJaxを使って数式を表示させてみますMathJaxはJavaScriptによるライブラリで、Webページ中の「$$」などに挟まれた部分を自動的に数式に変換して表示してくれます数式上の右クリックでTexやmathmlの…

2013-07-11

論文感想: "The lie detector: explorations in the automatic recognition of deceptive language" (IJCNLP 2009 Short)

論文自然言語処理

"The lie detector: explorations in the automatic recognition of deceptive language" 与えられた文章が嘘かどうかを識別するタスクAmazon Mechanical Turkで大勢の人に、本当の意見と嘘の意見を書いてもらってデータセットにしている。ナイーブベイズや…