読者です 読者をやめる 読者になる 読者になる

唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

「的を得る」 vs. 「的を射る」

↑の記事を読んで、そういえば「的を得る」と「的を射る」ってどっちが多く使われてるのかな、と思って調べてみた

バイドゥ株式会社「Baidu ブログ・掲示板時間軸コーパス」での調査

年月別にすでに3gramでの頻度の型式になっているので、以下のようなコマンドでそれぞれのファイル(年月別)での頻度がわかります
あとは年ごとにまとめればいいだけです

grep '的 を 射' *.3gm

頻度が低いので信頼性は低そうですが、全体的に「的を得る」のほうが多そうです
f:id:sucrose:20131214001203p:plain

「的 を 得」 「的 を 射」
2001 6 0
2002 12 2
2003 2 0
2004 5 0
2005 6 5
2006 10 3
2007 22 6
2008 0 0
2009 5 5
2010 18 6
from pylab import *
import matplotlib.font_manager
import numpy as np

prop = matplotlib.font_manager.FontProperties(fname=r'C:\Windows\Fonts\meiryo.ttc', size=20)

data = np.array([[6, 12, 2, 5, 6, 10, 22, 0, 5, 18], [0, 2, 0, 0, 5, 3, 6, 0, 5, 6]]).T
plot(data, linewidth=5)
legend([u'「的 を 得」', u'「的 を 射」'], prop=prop, loc='best')
xticks([i for i in xrange(data.shape[0])], xrange(2001, 2011))
show()

Twitterのつぶやき」での調査

手元にあったTwitterデータで2011年から2013年のそれぞれについて、ある特定の同じ1週間に「的を得」と「的を射」を含むツイート数を調べた
注、grepで文字列一致を調べてるだけなので、多少誤差はあると思います

こちらでは以下のようにどちらも同程度使われていそうな結果が得られました
f:id:sucrose:20131214001219p:plain

「的を得」 「的を射」
2011 134 122
2012 210 188
2013 196 214
from pylab import *
import matplotlib.font_manager
import numpy as np

prop = matplotlib.font_manager.FontProperties(fname=r'C:\Windows\Fonts\meiryo.ttc', size=20)

data = np.array([[134, 210, 196], [122, 188, 214]]).T
plot(data, linewidth=5)
legend([u'「的 を 得」', u'「的 を 射」'], prop=prop, loc='best')
xticks([i for i in xrange(data.shape[0])], xrange(2011, 2014))
ylim((0, 220))
show()

まとめ

媒体の違いか年度の違いかわかりませんが異なる結果が得られました
Baidu ブログ・掲示板時間軸コーパス」での2001から2010年の調査では「的を得る」 のほうが多かったです。
それに対して「Twitterのつぶやき」による調査では「的を射る」のほうも「的を得る」と同程度に多いように見受けられました

-->