@misc{oai:uec.repo.nii.ac.jp:00010256,
 author = {森, 寛毅},
 month = {2022-05-11},
 note = {2021, 近年、将棋やチェスなどの二人零和ゲームにおいて、人間の強さを超えるような人工知能が強化学習を用いて開発されてきた。さらに、カードの排出順などの、プレイヤの意思決定とは無関係に決定されるような偶然的要因がある不確定多人数ゲームに関しても近年、手札などの非公開情報が在る不完全情報ゲームにおいて顕著な成果が報告されている。しかし、該当するようなゲームが現実社会においてはさほどプレイされていないためか、不確定性を伴う完全情報ゲームに関する研究は少ない。
本研究では不確定多人数完全情報ゲームの1つであるキャントストップを題材として、ゲームをプレイする人工知能をいくつかの手法で開発し、各手法の性能を比較する。各手法の性能を比較することで二人零和ゲームや一人ゲームで適用されてきた手法「TD(λ)」や「Q学習」が不確定多人数完全情報ゲームであるキャントストップにおいてどの程度有効であるか探る。適用・調査する強化学習に関連するいくつかの方法は、ε-グリーディ法、3層NNによる関数近似、オンポリシー型のTD(λ)、オフポリシー型のQ学習、経験リプレイ、先読み探索である。性能の測定には、簡易なルールを利用して実装したプレイヤ3人と対戦させ、その勝率を計測した。
実験結果から、次のことがわかった。NNの中間層は性能に大きく寄与しなかった。また、TD(λ)の方策ε-グリーディ法の探査の度合いを指定するパラメタεは0.2程度が適切であり、価値バックアップの深さを指定するパラメタλは0.8程度が適切であった。そして、TD(0)をオフポリシー型で行うQ学習の性能は、λの値が適切に設定されたTD(λ)には及ばなかった。さらに経験リプレイは、これを適用しない場合でも性能が劣化せず、登録されたデータの利用頻度を極端に大きくした場合性能が劣化した。最後に、先読み探索は訪問節点数が増えるほど性能が改善した。},
 title = {4人でプレイするキャントストップを題材とした強化学習の事例研究},
 year = {},
 yomi = {モリ, ヒロキ}
}