AOJの問題を推薦――協調フィルタリングを試してみた

AIZU ONLINE JUDGE(AOJ)という競技プログラミングの問題を公開しているサイトがある。

AIZU ONLINE JUDGE: Programming Challenge

1年以上前にAOJを少しだけやっていた頃に、AOJの問題を推薦するスクリプトを書いたものの、特に公開も使用もせずに放置していたのでブログ記事にして供養(？)しておく。

AOJにはたくさんの問題があって、どれを解くべきかよくわからないので、とりあえず推薦システムを作ってみた(モチベーションがおかしい
AOJではAPIが公開されていて、各ユーザーがどの問題を解いているかなどの色々な情報が得られる

デモだけ試したい方はこちら

処理の概要

AOJのAPIを使って各ユーザーがどの問題を解いているかというデータを集める。
集めたデータを元に協調フィルタリングを用いて推薦する。

データの取得

APIの結果はXMLで返される。
ほとんど問題を解いていないユーザーを除去するために、一定以上の問題数を解いているユーザーのリストを取得した。

http://judge.u-aizu.ac.jp/onlinejudge/webservice/user_list?solved_min=20

得られたリストを元にそれぞれのユーザーが解いている問題のリストを取得する

http://judge.u-aizu.ac.jp/onlinejudge/webservice/solved_record?user_id=mugenen

以下にクロールした時のコードを貼っておく。
引数に与えた数値よりもユーザーの解いた問題数が少ない場合は取ってこない。
大事ないように、ユーザーごとに1、2秒のスリープを入れてからAPIを叩いている。

import xml.etree.ElementTree
import urllib2
import sys
import time
import random

argc = len(sys.argv)

if argc != 2:
    sys.exit('Error: Invalid argument')
try:
    min_user = int(sys.argv[1])
except:
    sys.exit('Error: Invalid argument')

res = urllib2.urlopen('http://judge.u-aizu.ac.jp/onlinejudge/webservice/user_list?solved_min={}'.format(min_user))
if res.code != 200:
    sys.exit('Error: Invalid response')

user_tree = xml.etree.ElementTree.fromstring(unicode(res.read(), errors = 'ignore'))

for user in user_tree.iterfind('user'):
    user_id = user.findtext('id').replace(u'\n', u'')
    print user.findtext('name').replace(u'\n', u'').encode('utf-8', errors = 'ignore')
    print user_id.encode('utf-8', errors = 'ignore')
    
    res = urllib2.urlopen('http://judge.u-aizu.ac.jp/onlinejudge/webservice/solved_record?user_id={}'.format(user_id))
    if res.code != 200:
        sys.exit('Error: Invalid response')
    
    solved_tree = xml.etree.ElementTree.fromstring(unicode(res.read(), errors = 'ignore'))
    for solved in solved_tree:
        print solved.findtext('problem_id').replace(u'\n', u'').encode('utf-8', errors = 'ignore'),
    print
    
    time.sleep(random.uniform(1, 2))

協調フィルタリング

あるユーザーに対して推薦をするときに、そのユーザーに似た別のユーザーの情報を利用して推薦を行うという手法である。
今回のタスクでは、どの問題を解いているかを元に推薦対象のユーザーと似ているユーザーを何人か求めて、得られたユーザーが共通して解いている問題の中から推薦対象のユーザーが解いていないものを推薦する。
ただし推薦対象のユーザーが解いた問題の単純な部分集合であるユーザーは似ているユーザーを選ぶときに取り除いた

協調フィルタリングの詳細を知りたい方は以下のPDFがおすすめです。

http://www.kamishima.net/archive/recsys.pdf

ユーザーの類似度

ユーザーごとにそれぞれの問題を解いたかどうかのベクトルを作成し、ユーザーどうしのコサイン類似度を求める。

集合とかベクトルの類似度の計算のメモ - 唯物是真 @Scaled_Wurm

ただし、ベクトルの要素を単純に問題を解いたかどうかの二値のベクトルにすると簡単過ぎる問題が推薦されてきてしまうという欠点がある

ソースコード

引数にユーザーIDを指定して、上に載せたスクリプトでクロールした結果を標準入力に与えて使う。
プロトタイプで適当に作っただけなのでコードは汚い。
似ているとみなすユーザー数や推薦する数などのパラメータはハードコードされてる

# -*- coding: utf-8 -*-
import xml.etree.ElementTree
import urllib2
import sys
import time
import math
import collections

uf = collections.Counter()

def freq_iuf(p):
    return 1.0 / uf[p]

freq = freq_iuf

def cos(v1, v2):
    numerator = sum([freq(c) * freq(c) for c in v1 if c in v2])
    square = lambda x: freq(x) * freq(x)
    denominator =  math.sqrt(sum(map(square, v1)) * sum(map(square, v2)))
    return float(numerator) / denominator if denominator != 0 else 0


user = {}

count = 0
for line in sys.stdin:
    line = line.strip()
    count += 1
    if count == 2:
        id = line
    if count == 3:
        problem = set(line.split())
        user[id] = problem
        for p in problem:
            uf[p] += 1
        count = 0

argc = len(sys.argv)

if argc != 2 or sys.argv[1] not in user:
    sys.exit('Error: Invalid argument')

userid = sys.argv[1]
u1 = userid
p1 = user[userid]

temp = []
for u2, p2 in user.iteritems():
    if p1.issuperset(p2):
        continue
    sim = cos(p1, p2)
    temp.append((sim, u2, p2))
temp.sort()
rec = collections.Counter()
limit = 30
for sim, u2, p2 in reversed(temp):
    if limit < 0:
        break
    limit -= 1
    for item in p2:
        if item not in p1:
            rec[item] += sim * freq(item) / len(p2)
print u'ユーザーID:', u1
print u'似ているユーザー:',
for sim, u2, p2 in reversed(temp[-5:]):
    print u2,
print
print u'推薦された問題:',
for k, v in rec.most_common(5):
    print k,
print

結果のデモ(過去にクロールした静的な結果)

データを全部JSONにしてこの記事に直接埋め込んでJavaScriptで表示しようと思ったらはてなブログの記事には長さ制限があるらしく失敗した(´・ω・｀)
しょうがないので外部に置いておいてiframeで読み込み。

とりあえず自分のアカウント(mugenen)に対して推薦した結果を貼っておく。
過去にICPC(国際大学対抗プログラミングコンテスト)の問題を解いていたので、上位5件がICPC関連の問題となっていてまあまあよい結果が得られている

解いているユーザー数で割っているので、あまり人気のない問題や難易度の高い問題が極端に優先されて出てくるので注意。

まとめ

複数人を指定してそれらのユーザーに対する推薦とかを実装したらWebアプリとして公開しようかと思っていたけど、1年以上放置していてやる気配がなかったのでブログネタにした。
推薦ユーザー数とアイテム数とが少なければ、単純に総当りするだけで簡単に推薦システムが作れる(20問以上解いているユーザーだけで数千人とかいるので全員に推薦するとそこそこ重かった)

情報推薦システム入門 -理論と実践-

作者: Dietmar Jannach,Markus Zanker,Alexander Felfernig,Gerhard Friedrich,田中克己,角谷和俊
出版社/メーカー: 共立出版
発売日: 2012/06/22
メディア: 単行本
購入: 1人クリック: 15回
この商品を含むブログ (1件) を見る