唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

2013-01-01から1年間の記事一覧

2013年の目標ふりかえり - あるいはフラグ回収

2013年の目標とか #フラグ - 唯物是真 @Scaled_Wurm 達成できたこと 新たに始める kaggle: kaggleではないけど、一応CrowdSolvingに参加して1位になったから達成ということで AOJ: 50問強ぐらい解いた CodeForces: 新たに始めてDiv1に上がったので放置 TopCo…

2013年にはてブされたこのブログの記事

はてブされたこのブログの2012年の記事 - 唯物是真 @Scaled_Wurm 2012年版で「ブクマ数2桁いきたい」と言っていたら2013年は3桁が出ました(驚 やっぱりライブラリの紹介とか流行りものとかが強いみたいですね以下トップ10の簡単な紹介 データ分析と機械学習…

FizzBuzzダンジョンに挑戦した

挑戦者求む!クロノス・クラウン合同会社 柳井 政和@FizzBuzzダンジョンさん|CodeIQ 結構前の話ですが↑に挑戦しました JavaScriptでFizzBuzzのコードゴルフ(できるだけコードを短く)する問題です 以下の空欄を埋めるような1行の式を入力します [i, "fizz", …

TopCoder SRM 601 Div2 oox 1191->1224

131st, 690.96pts, +2/-2 challenge Volatility ?->295久しぶりに青くなりました レートも全然上がらないし、参加時間を捻出するのもつらいのでやめようかと…… たまにはPythonで参加しようかと思って見つけた以下のプラグイン(Greed)で参戦(いつもはEclipseC…

「Pixiv Tag Suggest」version 3.11 - 3.14

Chrome ウェブストア - Pixiv Tag Suggest pixivでブックマークするときにタグの自動選択とか推薦を行うChrome拡張です 最近の更新をブログに書いてなかったのでまとめて。 作品にタグがない場合になにも推薦されていなかったバグを修正(他の人がブックマー…

CrowdSolving「【チャレンジコンペ】記事間のリンク推定」の「入賞者の予測手法紹介」が公開されていた

https://crowdsolving.jp/node/629/summary 1位から5位になった人の手法が公開されています あと1位だった私のインタビューも載ってるみたいです(恥ずかしいので確認してないですが 自分の手法の大雑把な説明 上の記事に細かく書いてあると思うんで大雑把に…

「的を得る」 vs. 「的を射る」

「間髪をいれず」が殺された日 - アスペ日記 ↑の記事を読んで、そういえば「的を得る」と「的を射る」ってどっちが多く使われてるのかな、と思って調べてみた バイドゥ株式会社「Baidu ブログ・掲示板時間軸コーパス」での調査 Baidu コーパスダウンロード広…

論文感想: "正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入"(214回NL研)

情報処理学会 第214回自然言語処理研究会 概要 ネット上に登場するような崩れた表記のテキストの形態素解析をする。正規の表現(崩れてない表現)と崩れた表現のペアのデータを用意して、崩れ方のパターンと信頼度を学習し、形態素解析時に利用する 手法 正規…

Chrome拡張でファイルのダウンロードを管理できるAPIがいつの間にか開発版以外でも使えるようになっていた

chrome.downloads - Google Chrome chrome.downloads APIがChrome 31から使えるようになりました 2年前の記事で話題にしたのですが、ついに安定版でも使えるようになったみたいです APIの詳細は以下の記事が詳しいです 天使やカイザーと呼ばれて » ChromeのD…

PythonでpaizaオンラインハッカソンVol.1に挑戦した #paizahack_01

新人女子プログラマの書いたコードを直すだけの簡単なお仕事です!|paizaオンラインハッカソンVol.1 一応解けたけど、Twitterを見てるとPythonでテストケース3を0.3秒台とかで解いている人がいて、どんな解き方をしているのか気になります 問題設定 \(N\)個…

最近の自作のChrome拡張の更新

Seiga Download 3.1 - ニコニコ春画で動いていなかったバグを修正 Chrome ウェブストア - Seiga Download ニコニコ静画で画像ダウンロード用のリンクを追加するChrome拡張機能「Seiga Download」 - 唯物是真 @Scaled_Wurm ニコニコ春画は旧デザインのままな…

TopCoder SRM 598 Div 2 ooo 1125->1156

148th, +1/-2 challenge Volatility 420->383Hardがびっくりするほど簡単だったのだけど、なかなか気づけなかった 250: ErasingCharacters 手前から順番に2文字連続してる文字を消していくだけ public class ErasingCharacters { public String simulate(Str…

ニコニコ静画のイラストを保存するためのChrome拡張「Seiga Download 3.0」

ニコニコ静画で画像ダウンロード用のリンクを追加するChrome拡張機能「Seiga Download」 - 唯物是真 @Scaled_Wurm Chrome ウェブストア - Seiga Download ニコニコ静画のデザインが変わっていて、動かなくなっていたのを修正しました 「ニコニコ静画」4周年…

Twitterの投稿時間で類似度を計算してみた - 確率分布の類似度

以前集合やベクトルの類似度の記事を書いたんですが、確率分布の類似度には触れていなかったのでついでに書きました ツイート時間分布の類似度を求める 今回はツイート時間ごとの頻度を正規化して、確率分布とみなして類似度を計算してみます 私のアカウント…

続Pythonでsubprocessを使って複数のコマンドをパイプでつなぐ

以前Pythonのライブラリのsubprocessを使って、パイプでつないで複数のコマンドを実行するという内容の記事を書きました Pythonでsubprocessを使って複数のコマンドをパイプでつなぐ - 唯物是真 @Scaled_Wurm しかしsubprocessのドキュメントなどに書かれて…

キャラソートのアルゴリズムについて調べた

「キャラソート」とは 以下のページのようにキャラ(あるいは人物などの何らかの要素)を2つずつ表示して「どちらか好きか?」という質問に連続で答えていくことで全体のランキングを作るWebサービス(「◯◯キャラソート」、「◯◯ソート」など)が様々な作品につい…

Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み)

gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。 小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました 論文紹介 “Represen…

はてなブログのTwitter Cardsの内容が下書きのままで悲しい

前の記事をTwitterに投稿したら表示が以下のようになりましたはてなブログに投稿しました 日本語だとUTF-8よりもUTF-16の方が軽い? - 唯物是真 @Scaled_Wurm http://t.co/sEAvgju8PO— 無限猿(id:sucrose)@最大留年 (@Scaled_Wurm) 2013, 10月 19下側のタイ…

日本語だとUTF-8よりもUTF-16の方が軽い?

今更知ったんですが、日本語だとUTF-8よりもUTF-16の方が軽いんですね なんとなく数字が大きくなってるからUTF-16の方が重いんだと思ってましたUTF-8だと英語のアルファベットとかは1バイト使うらしいけど、日本語の文字は主に3バイトらしい 対してUTF-16だ…

論文感想: "Social Text Normalization using Contextual Graph Random Walks" (ACL 2013)

"Social Text Normalization using Contextual Graph Random Walks" (pdf) Twitterとかのソーシャルメディアではくだけた表現が多いので、そういうテキストの正規化をする話 以下論文中の例の一部 wuz up bro (what is up brother) 4get (forget), 2morrow (…

AtCoder Beginner Contest #001 oooo

Welcome to AtCoder Beginner Contest #001 - AtCoder Beginner Contest #001 | AtCoder とりあえず参加してみた、一応12位でした 順位表 - AtCoder Beginner Contest #001 | AtCoder そういえば全体の正解者数とか見られるんですね 回答状況 - AtCoder Begi…

論文紹介 “Discriminative Learning with Natural Annotations: Word Segmentation as a Case Study” (ACL 2013)

"Discriminative Learning with Natural Annotations: Word Segmentation as a Case Study" (pdf) 研究室で論文紹介したので以下に資料を貼っておきます。 図表は論文中から引用しています何故か研究室での論文紹介は、資料が英語で口頭説明が日本語なので、…

AtCoder Regular Contest #015 ooo-

競技プログラミングやめるやめる言ってたのに参加してしまった(意志が弱い12位、1ページ目に載ったのは初めてです 順位表 - AtCoder Regular Contest #015 | AtCoder 1級になりました A: Celsius と Fahrenheit - AtCoder Regular Contest #015 | AtCoder 摂…

論文感想: "Microblogs as Parallel Corpora" (ACL 2013)

Utopia/Microtopia Parallel Corpus ↑データなども公開されているみたいですマイクロブログ(TwitterとWeibo)中のツイートから「パラレルな(翻訳になっている)」文章が含まれているものを集めてくる話 基本的には一つのツイート中に複数の言語が含まれている…

KADOKAWAの電子書籍が今日だけ半額らしい(Kindleも)

2013年10月1日、「株式会社KADOKAWA」は、アスキー・メディアワークス、エンターブレイン、角川学芸出版、角川書店、角川プロダクション、角川マガジンズ、中経出版、富士見書房、メディアファクトリーの9社と合併いたしました。 http://www.kadokaw…

論文感想: "Learning Latent Personas of Film Characters" (ACL 2013)

"Learning Latent Personas of Film Characters"(pdf) キャラクターのタイプ(persona、人格)を分析する話。 自然言語処理では物語のプロットとかイベントの連鎖の研究は多いけど、キャラクターのタイプに対する研究は初めてらしい映画のデータを対象としてい…

論文感想: "Identification of Speakers in Novels" (ACL 2013)

"Identification of Speakers in Novels"(pdf) 小説のセリフがどの登場人物のものかを推定する話。 教師ありのランキング学習(SVM-rankを利用)。 7割ぐらいは正解できるらしい先行研究の教師ありの分類で使われている特徴量(セリフとの距離、登場人物の出現…

MeCabでN-Best解を出力した時のコストの表示がおかしい?

「MeCabでN-best解を出力した時に累積コストを見ると順番に並んでないように見えるんですが何故ですか?」ときかれて答えられなかったのでとりあえずメモ 上の質問自体は、質問者がEOSとの連接コストを計算し忘れていたのではないかと思うんですが……それ以外…

クラソル(CrowdSolving)の第3回コンペの結果: 1/16位

クラソル(CrowdSolving)の第3回コンペに参加中(途中経過: 1/16位) - 唯物是真 @Scaled_Wurm 途中経過は上の記事みたいな感じでしたが、最終結果も1位でした 【チャレンジコンペ】記事間のリンク推定 | CrowdSolving このコンペに際して、リンク予測に関する…

Orthogonal Procrustes problem

前に読んだ論文で出てきたのでメモ Orthogonal Procrustes problem - Wikipedia, the free encyclopedia 同じ形の行列\(A, B\)が与えられた時に\(||AX - B||_F\)を最小化する行列\(X\)を求める(\(A\)を\(B\)にできるだけ近く変換する行列を求める ただし\(X^…