唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

2013-10-01から1ヶ月間の記事一覧

Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み)

gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。 小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました 論文紹介 “Represen…

はてなブログのTwitter Cardsの内容が下書きのままで悲しい

前の記事をTwitterに投稿したら表示が以下のようになりましたはてなブログに投稿しました 日本語だとUTF-8よりもUTF-16の方が軽い? - 唯物是真 @Scaled_Wurm http://t.co/sEAvgju8PO— 無限猿(id:sucrose)@最大留年 (@Scaled_Wurm) 2013, 10月 19下側のタイ…

日本語だとUTF-8よりもUTF-16の方が軽い?

今更知ったんですが、日本語だとUTF-8よりもUTF-16の方が軽いんですね なんとなく数字が大きくなってるからUTF-16の方が重いんだと思ってましたUTF-8だと英語のアルファベットとかは1バイト使うらしいけど、日本語の文字は主に3バイトらしい 対してUTF-16だ…

論文感想: "Social Text Normalization using Contextual Graph Random Walks" (ACL 2013)

"Social Text Normalization using Contextual Graph Random Walks" (pdf) Twitterとかのソーシャルメディアではくだけた表現が多いので、そういうテキストの正規化をする話 以下論文中の例の一部 wuz up bro (what is up brother) 4get (forget), 2morrow (…

AtCoder Beginner Contest #001 oooo

Welcome to AtCoder Beginner Contest #001 - AtCoder Beginner Contest #001 | AtCoder とりあえず参加してみた、一応12位でした 順位表 - AtCoder Beginner Contest #001 | AtCoder そういえば全体の正解者数とか見られるんですね 回答状況 - AtCoder Begi…

論文紹介 “Discriminative Learning with Natural Annotations: Word Segmentation as a Case Study” (ACL 2013)

"Discriminative Learning with Natural Annotations: Word Segmentation as a Case Study" (pdf) 研究室で論文紹介したので以下に資料を貼っておきます。 図表は論文中から引用しています何故か研究室での論文紹介は、資料が英語で口頭説明が日本語なので、…

AtCoder Regular Contest #015 ooo-

競技プログラミングやめるやめる言ってたのに参加してしまった(意志が弱い12位、1ページ目に載ったのは初めてです 順位表 - AtCoder Regular Contest #015 | AtCoder 1級になりました A: Celsius と Fahrenheit - AtCoder Regular Contest #015 | AtCoder 摂…

論文感想: "Microblogs as Parallel Corpora" (ACL 2013)

Utopia/Microtopia Parallel Corpus ↑データなども公開されているみたいですマイクロブログ(TwitterとWeibo)中のツイートから「パラレルな(翻訳になっている)」文章が含まれているものを集めてくる話 基本的には一つのツイート中に複数の言語が含まれている…

KADOKAWAの電子書籍が今日だけ半額らしい(Kindleも)

2013年10月1日、「株式会社KADOKAWA」は、アスキー・メディアワークス、エンターブレイン、角川学芸出版、角川書店、角川プロダクション、角川マガジンズ、中経出版、富士見書房、メディアファクトリーの9社と合併いたしました。 http://www.kadokaw…