唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

2013-07-01から1ヶ月間の記事一覧

Lossy Countingの変種を実装してみた

前に以下の記事でLossy Countingを実装しましたが、より省メモリな変種があるらしいのでそちらも書いてみました Lossy Countingを実装してみた - 省メモリな頻度計測 - 唯物是真 @Scaled_Wurm 以下の論文のAlgorithm 2の擬似コードそのままです。 "Methods f…

Lossy Countingを実装してみた - 省メモリな頻度計測

大規模データで頻度を数えると、欲しいのはよく登場するアイテムの情報なのに、ほとんど出現しないアイテムの種類数が非常に多くて、それらがメモリを大量に必要としてしまうという問題があるこれに対してアイテムの種類数の最大値に制限を加えたり、頻度に…

小説家になろうの作品タイトルは長文化しているのか?

いささか旧聞ですが「ライトノベルのタイトルが長文化しているのではないか?」という話題がありました ラノベタイトルの文字の長さ決着編 - World Digger 2013年発売のラノベタイトルの割合を出してみた - Togetter Web小説投稿サイトである小説家になろう…

matplotlibで積み上げ棒グラフ

積み上げ棒グラフ(stacked bar chart)は、棒グラフを積み重ねた以下のような形のグラフです matplotlibのbar関数ではオフセットを指定できるので、オフセットを足しながら棒グラフをかいていけば積み上げ棒グラフができます from pylab import * def bar_sta…

python 2.7でPython 3風に書きたい

Python 3以降との違いを調べていたときのメモ Python 2.7でも試せるもの 以下にPython 2.7でimportをすればPython 3風に書けるものを列挙しておきます from __future__ import division Python 2.7では割り算「/」の結果は切り捨てでしたが、Python 3以降で…

正規分布間のKLダイバージェンスの導出

多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zwei 上の記事を読んで勉強になったのですが、数式がテキストで読みづらかったのと、多変量でない1次元の正規分布の導出の段階でよくわからなかったので調べて記事にまとめました 注意 数…

grepで先読みとか戻り読みの正規表現

先読みとか戻り読みの正規表現はgrepでは使えないかと思っていました。 ですが"-P"のオプション(Perl互換)を指定すれば使えるんですね(grepの種類などによるかもしれませんがちなみに先読みとか戻り読みについては以下の記事が簡潔でわかりやすかったです 正…

MathJaxでの数式表示を試す

はてなブログの数式機能の出力が見やすくなかったので、MathJaxを使って数式を表示させてみますMathJaxはJavaScriptによるライブラリで、Webページ中の「$$」などに挟まれた部分を自動的に数式に変換して表示してくれます 数式上の右クリックでTexやmathmlの…

論文感想: "The lie detector: explorations in the automatic recognition of deceptive language" (IJCNLP 2009 Short)

"The lie detector: explorations in the automatic recognition of deceptive language" 与えられた文章が嘘かどうかを識別するタスクAmazon Mechanical Turkで大勢の人に、本当の意見と嘘の意見を書いてもらってデータセットにしている。 ナイーブベイズや…

LIBSVMの特徴量の重みを見る - LIBSVMのモデルの読み方

以前LIBSVMで特徴量の重みを見る方法について記事でURLを紹介したのですが、リンク先の記事とコードがなくなっているみたいなので、改めて記事にしておきます。 SVMでの特徴量の重み 非常に単純化して説明すると、線形カーネルのSVMは次のような式の符号の正…