2013-10-01から1ヶ月間の記事一覧
gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。 小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました 論文紹介 “Represen…
前の記事をTwitterに投稿したら表示が以下のようになりましたはてなブログに投稿しました 日本語だとUTF-8よりもUTF-16の方が軽い? - 唯物是真 @Scaled_Wurm http://t.co/sEAvgju8PO— 無限猿(id:sucrose)@最大留年 (@Scaled_Wurm) 2013, 10月 19下側のタイ…
今更知ったんですが、日本語だとUTF-8よりもUTF-16の方が軽いんですね なんとなく数字が大きくなってるからUTF-16の方が重いんだと思ってましたUTF-8だと英語のアルファベットとかは1バイト使うらしいけど、日本語の文字は主に3バイトらしい 対してUTF-16だ…
"Social Text Normalization using Contextual Graph Random Walks" (pdf) Twitterとかのソーシャルメディアではくだけた表現が多いので、そういうテキストの正規化をする話 以下論文中の例の一部 wuz up bro (what is up brother) 4get (forget), 2morrow (…
Welcome to AtCoder Beginner Contest #001 - AtCoder Beginner Contest #001 | AtCoder とりあえず参加してみた、一応12位でした 順位表 - AtCoder Beginner Contest #001 | AtCoder そういえば全体の正解者数とか見られるんですね 回答状況 - AtCoder Begi…
"Discriminative Learning with Natural Annotations: Word Segmentation as a Case Study" (pdf) 研究室で論文紹介したので以下に資料を貼っておきます。 図表は論文中から引用しています何故か研究室での論文紹介は、資料が英語で口頭説明が日本語なので、…
競技プログラミングやめるやめる言ってたのに参加してしまった(意志が弱い12位、1ページ目に載ったのは初めてです 順位表 - AtCoder Regular Contest #015 | AtCoder 1級になりました A: Celsius と Fahrenheit - AtCoder Regular Contest #015 | AtCoder 摂…
Utopia/Microtopia Parallel Corpus ↑データなども公開されているみたいですマイクロブログ(TwitterとWeibo)中のツイートから「パラレルな(翻訳になっている)」文章が含まれているものを集めてくる話 基本的には一つのツイート中に複数の言語が含まれている…
2013年10月1日、「株式会社KADOKAWA」は、アスキー・メディアワークス、エンターブレイン、角川学芸出版、角川書店、角川プロダクション、角川マガジンズ、中経出版、富士見書房、メディアファクトリーの9社と合併いたしました。 http://www.kadokaw…