大晦日のコミケに行って来ました。
買ってきたもののうちプログラミングとか統計とかの本の感想です。
あまり買ってないです。
他にも情報系のサークルがたくさんあったんですが、あまり事前にチェックしていなかったので回れませんでした。
声優統計 by voice-statistics
『声優統計 第一号』
すごく論文とか学会誌っぽい見た目です。
色々と面白い内容だった。
特に声優の結婚時期推定の話はヤバイ。
DVDの売上予測の話も面白かった。
あとbag-of-声優モデルという名前には笑った。
声優に関するドメイン知識が私にはないため、あまり深い内容についてはわからず……。
あとWikipediaの記事のPV数を見れるサイト↓があるという情報を知れてためになった。
でいひま
『ラノベ統計② 一般人な俺と魔王な彼女のライトノベルが形態素的にこんなにエロいだなんて!?』
ラノベに対してテキストマイニングした話。
内容はラノベのテキストを形態素解析してジャンルごとに頻度を比べたり主成分分析して2次元に可視化してみた、って感じでそこまで面白い話ではないのですが、データ作りの手間がすごいです。
まずラノベ200冊を(業者で)裁断してPDF化してOCRでテキスト化したってのがまずやばい。
しかもそのあとにラノベを6種類のジャンルに手作業で分類までしたそうです。
特に形態素解析の単語辞書については触れられてなかった気がするのですが、ちゃんと解析できない単語が多そう。
あまり関係ない話
有料で使えるテキストデータの集まりである現代日本語書き言葉均衡コーパス(BCCWJ)にもラノベあったなーと思って見てみたら一般利用は2年間で20万円以上するんですね……。