@misc{oai:uec.repo.nii.ac.jp:00010023, author = {HE, YI and カ, キツ}, month = {2021-05-31}, note = {2020, 近年、人工知能研究の分野で強化学習とニューラルネットワーク(NN)を組合せた手法 が多くの成果を上げてきた。さらに、ゲーム領域では囲碁などいくつかのゲーム人工知能の性能が人間トップレベルの実力に達した。このような方法の他の様々なゲームに対する効果は未だ知られていなくて、これを明らかにすることは、現在のゲーム領域における重要な課題であると考えられる。 本研究では、二つの不確実性を伴うカードソリティアゲーム「TriPeaks」と「Russian Solitaire」を研究対象として選んだ。そして、二つの強化学習方法「Monte-Carlo法」と「Q-learning」を用いて人工知能を訓練した。計算機実験を行って勝率を計測し 、二つの強化学習方法それぞれが、これら二つのソリティアゲームにおいてもたらす結果を比較することが本研究の目標である 。 二つの強化学習の開始点となる初期方策は、ゲーム固有の知識をもたない一様ランダム方策とした。そして、事後状態の価値はNNを用いて近似的に表し、NNは確率的勾配降下法に基づき学習し、学習はReplay Memoryを用いて安定化させた。NNの重みの数は百万程度とした。また、Russian Solitaireにおいては、学習を効率化するために、ゲームプレイの無駄な繰り返しはプレイヤの負けになるということとした。さらに、ソリティアの事後状態からNNの入力列を生成するエンコーディング方法を二種検討した。 TriPeaksのプレイヤを学習する実験においては、MC法に基づき100万回ゲームをプレイすると勝率は約0.27(ランダムプレイヤの500倍)、Q-learningに基づき同回数ゲームをプレイすると勝率は約0.52(ランダムプレイヤの1000倍)に達することが明らかとなった。 Russian Solitaireのプレイヤを学習する実験においては、MC法に基づき150万回ゲームをプレイすると勝率は約0.0035(ランダムプレイヤの1.5倍)、Q-learningに基づき同回数ゲームをプレイすると勝率は約0.0047(ランダムプレイヤの2.1倍)に達することが明らかとなった。}, title = {Some Case Studies on the Efficiency of Reinforcement Learning in Card Game Solitaire with Uncertainty}, year = {} }