読書記録: 『コンピュータ囲碁モンテカルロ法の理論と実践』☆☆☆☆

コンピュータ囲碁のプログラムの作り方の本。
コンピュータ囲碁では、将棋などとは違って盤面の評価関数を作ってゲーム木探索をしていく方法はあまりうまくいってないらしい。
評価関数の代わりに、終局まで盤面にランダムに石を打つこと(プレイアウト)を規定回数繰り返して、その勝敗数によって評価している。
多腕バンディット(Multi-armed Bandit)問題のアルゴリズムを使って、期待値の大きい手とまだあまり探索していない手を探索するようにしている。
プレイアウトするときに、どのように石を打たせるかが強さの重要な要素。