WEKO3
-
RootNode
アイテム
Some Case Studies on the Efficiency of Reinforcement Learning in Card Game Solitaire with Uncertainty
https://uec.repo.nii.ac.jp/records/10023
https://uec.repo.nii.ac.jp/records/10023db7561d8-9ec5-4be7-a828-1db7f956ca54
名前 / ファイル | ライセンス | アクション |
---|---|---|
1831036.pdf (2.5 MB)
|
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2021-05-31 | |||||
タイトル | ||||||
タイトル | Some Case Studies on the Efficiency of Reinforcement Learning in Card Game Solitaire with Uncertainty | |||||
言語 | en | |||||
言語 | ||||||
言語 | eng | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_46ec | |||||
資源タイプ | thesis | |||||
その他(別言語等)のタイトル | ||||||
その他のタイトル | 不確実性のあるカードゲームのソリティアにおける強化学習の効率に関するいくつかの事例研究 | |||||
言語 | ja | |||||
著者 |
カ, キツ
× カ, キツ |
|||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 近年、人工知能研究の分野で強化学習とニューラルネットワーク(NN)を組合せた手法 が多くの成果を上げてきた。さらに、ゲーム領域では囲碁などいくつかのゲーム人工知能の性能が人間トップレベルの実力に達した。このような方法の他の様々なゲームに対する効果は未だ知られていなくて、これを明らかにすることは、現在のゲーム領域における重要な課題であると考えられる。 本研究では、二つの不確実性を伴うカードソリティアゲーム「TriPeaks」と「Russian Solitaire」を研究対象として選んだ。そして、二つの強化学習方法「Monte-Carlo法」と「Q-learning」を用いて人工知能を訓練した。計算機実験を行って勝率を計測し 、二つの強化学習方法それぞれが、これら二つのソリティアゲームにおいてもたらす結果を比較することが本研究の目標である 。 二つの強化学習の開始点となる初期方策は、ゲーム固有の知識をもたない一様ランダム方策とした。そして、事後状態の価値はNNを用いて近似的に表し、NNは確率的勾配降下法に基づき学習し、学習はReplay Memoryを用いて安定化させた。NNの重みの数は百万程度とした。また、Russian Solitaireにおいては、学習を効率化するために、ゲームプレイの無駄な繰り返しはプレイヤの負けになるということとした。さらに、ソリティアの事後状態からNNの入力列を生成するエンコーディング方法を二種検討した。 TriPeaksのプレイヤを学習する実験においては、MC法に基づき100万回ゲームをプレイすると勝率は約0.27(ランダムプレイヤの500倍)、Q-learningに基づき同回数ゲームをプレイすると勝率は約0.52(ランダムプレイヤの1000倍)に達することが明らかとなった。 Russian Solitaireのプレイヤを学習する実験においては、MC法に基づき150万回ゲームをプレイすると勝率は約0.0035(ランダムプレイヤの1.5倍)、Q-learningに基づき同回数ゲームをプレイすると勝率は約0.0047(ランダムプレイヤの2.1倍)に達することが明らかとなった。 |
|||||
学位名 | ||||||
学位名 | 修士 | |||||
学位授与機関 | ||||||
学位授与機関名 | 電気通信大学 | |||||
学位授与年度 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 2020 | |||||
学位授与年月日 | ||||||
学位授与年月日 | 2021-03-25 | |||||
著者版フラグ | ||||||
出版タイプ | AM | |||||
出版タイプResource | http://purl.org/coar/version/c_ab4af688f83e57aa | |||||
専攻 | ||||||
値 | 情報理工学研究科 | |||||
専攻 | ||||||
値 | 情報・ネットワーク工学専攻 |