@misc{oai:uec.repo.nii.ac.jp:00009148,
 author = {松井, 亮平},
 month = {2019-04-23},
 note = {2018, 近年，人工知能研究の分野で強化学習と深層学習を組合わせた手法が注目されており，このような強化学習法を種々のゲームに適用する事例研究が期待されている. 本論文では, このような強化学習法の適用事例があまり報告されていない行動集合が非常に大きいゲームと多人数不完全情報ゲームに, 一般化方策反復に基づく強化学習法を適用した研究結果を述べる．行動集合が非常に大きいゲームとしてはデジタルカーリングを，多人数不完全情報ゲームとしては麻雀を題材にする．これらのゲームの状態集合は巨大であるから，価値関数はニューラルネットワークを用いて近似する．
　デジタルカーリングを題材とする研究では，おおよそカーリングの予備知識を用いない行動集合を仮定し, ランダム方策から開始する強化学習法を検討した. 行動価値は, 重み総数1,000万ほどの畳込みニューラルネットワークを用いて，挙動方策が生成した総数6億ほどの行動から推定した．これにより導かれたグリーディ方策が，サンプルプログラムに比する程度の強さを持ち，初歩的なショット知識に基づいた行動をとるようになる過程を明らかにした．
　麻雀を題材とする研究では，人間の上級者に匹敵する強さを持つプレイヤAko_Atarashi（栗田ら，2017）の方策を改善する方法を検討した．Ako_Atarashi 4体による自己対戦30万戦分の牌譜から，ニューラルネットワークを用いて事後状態の価値（順位期待値）を推定した．深層学習と強化学習のハイパーパラメタが与える影響を検証するため，様々なハイパーパラメタを用いてニューラルネットワークを学習させて，順位推定精度やグリーディ方策の強さなどを評価した．方策を改善するには至らなかったが，Ako_Atarashiとおおよそ同等の性能を持つグリーディ方策を導く実験設定を明らかにし，方策を改善するための示唆を得た．},
 title = {強化学習法を用いたデジタルカーリングと麻雀の人工知能の研究},
 year = {},
 yomi = {マツイ, リョウヘイ}
}