ガイスターにおける自己対戦による行動価値関数の学習

佐藤, 佑史; サトウ, ユウシ; Sato, Yushi

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

{"_buckets": {"deposit": "e63b0a4e-0571-43f5-8ee7-4ed40f586e54"}, "_deposit": {"created_by": 3, "id": "1976", "owners": [3], "pid": {"revision_id": 0, "type": "depid", "value": "1976"}, "status": "published"}, "_oai": {"id": "oai:uec.repo.nii.ac.jp:00001976", "sets": ["39"]}, "author_link": ["9306"], "control_number": "1976", "item_10006_date_granted_11": {"attribute_name": "学位授与年月日", "attribute_value_mlt": [{"subitem_dategranted": "2016-03-25"}]}, "item_10006_degree_grantor_9": {"attribute_name": "学位授与機関", "attribute_value_mlt": [{"subitem_degreegrantor": [{"subitem_degreegrantor_name": "電気通信大学"}]}]}, "item_10006_description_10": {"attribute_name": "学位授与年度", "attribute_value_mlt": [{"subitem_description": "2015", "subitem_description_type": "Other"}]}, "item_10006_description_7": {"attribute_name": "抄録", "attribute_value_mlt": [{"subitem_description": "ガイスター(Geister)とは，Alex Randolphによって開発された二人不完全情報ゲームである．相手の駒の色が分からないチェスのようなゲームとなっている．ガイスターにおいて，2種類ある駒の推測やブラフなどの心理戦と将棋のような先読みに基づいた駒の動きが重要となる．ガイスターにおけるＡＩは現在非常に弱い．本研究では，機械学習の一種である強化学習法のモンテカルロ法やTD(0)，Sarsa(λ)学習を用いて，ある局面における手を指したときの勝率の見積もりを計算する行動価値関数をＡＩ同士での対戦を行った結果を用いて学習する．通常のガイスターだけでなく，より盤面の小さいMinimum-Geisterを定義し，このガイスターにおいても行動価値関数の学習を行うことで既知である最善戦略を求めることが出来るかも検証する．なお，通常のガイスターにおける局面数は膨大となるため，行動価値関数は3層ニューラルネットワークという神経回路を模した数学モデルを用いて近似する．このニューラルネットワークの入力として，駒に対する推測を全く用いない盤面の情報のみにより構成される入力，Prototype-Based Learningを使用した相手の駒に対する推測と盤面の情報で構成される入力，同じくPrototype-Based Learningを使用し両プレイヤの駒に対する推測と盤面の情報で構成される入力の三種類を用意し，学習を行う．さらに，この入力に出口と呼ばれるマスへの最短距離や隣接している駒の位置などのゲーム上で重要と思われる特徴を加えるなどの改良を行った入力でも同様の学習を行い，学習により獲得した各入力での行動価値関数を用いたＡＩプレイヤの性能比較を行う．行動価値関数の学習において，通常のガイスターのルールに加えて，ルールに変更を加えた様々なルール上での学習や着手に制限を加えた上での学習を行う。さらに，学習によって得られた行動価値関数に基づき手を選択するＡＩプレイヤを作成し，ランダムプレイヤや既存手法であるモンテカルロ木探索を利用したＡＩとの対局実験を行う．", "subitem_description_type": "Abstract"}]}, "item_creator": {"attribute_name": "著者", "attribute_type": "creator", "attribute_value_mlt": [{"creatorNames": [{"creatorName": "佐藤, 佑史", "creatorNameLang": "ja"}, {"creatorName": "サトウ, ユウシ", "creatorNameLang": "ja-Kana"}, {"creatorName": "Sato, Yushi", "creatorNameLang": "en"}], "nameIdentifiers": [{"nameIdentifier": "9306", "nameIdentifierScheme": "WEKO"}]}]}, "item_files": {"attribute_name": "ファイル情報", "attribute_type": "file", "attribute_value_mlt": [{"accessrole": "open_date", "date": [{"dateType": "Available", "dateValue": "2016-09-20"}], "displaytype": "detail", "download_preview_message": "", "file_order": 0, "filename": "1431053.pdf", "filesize": [{"value": "1.7 MB"}], "format": "application/pdf", "future_date_message": "", "is_thumbnail": false, "licensetype": "license_free", "mimetype": "application/pdf", "size": 1700000.0, "url": {"label": "1431053.pdf", "url": "https://uec.repo.nii.ac.jp/record/1976/files/1431053.pdf"}, "version_id": "342d558f-02cf-435a-b8c3-226a6ad4b61f"}]}, "item_language": {"attribute_name": "言語", "attribute_value_mlt": [{"subitem_language": "jpn"}]}, "item_resource_type": {"attribute_name": "資源タイプ", "attribute_value_mlt": [{"resourcetype": "thesis", "resourceuri": "http://purl.org/coar/resource_type/c_46ec"}]}, "item_title": "ガイスターにおける自己対戦による行動価値関数の学習", "item_titles": {"attribute_name": "タイトル", "attribute_value_mlt": [{"subitem_title": "ガイスターにおける自己対戦による行動価値関数の学習", "subitem_title_language": "ja"}]}, "item_type_id": "10006", "owner": "3", "path": ["39"], "permalink_uri": "https://uec.repo.nii.ac.jp/records/1976", "pubdate": {"attribute_name": "PubDate", "attribute_value": "2016-03-25"}, "publish_date": "2016-03-25", "publish_status": "0", "recid": "1976", "relation": {}, "relation_version_is_last": true, "title": ["ガイスターにおける自己対戦による行動価値関数の学習"], "weko_shared_id": -1}

ガイスターにおける自己対戦による行動価値関数の学習

https://uec.repo.nii.ac.jp/records/1976

名前 / ファイル	ライセンス	アクション
1431053.pdf (1.7 MB)

Item type

学位論文 / Thesis or Dissertation(1)

公開日

2016-03-25

タイトル

言語

タイトル

ガイスターにおける自己対戦による行動価値関数の学習

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_46ec

資源タイプ

thesis

著者

佐藤, 佑史

WEKO 9306

ja	佐藤, 佑史
ja-Kana	サトウ, ユウシ
en	Sato, Yushi

Search repository

抄録

内容記述タイプ

Abstract

内容記述

ガイスター(Geister)とは，Alex Randolphによって開発された二人不完全情報ゲームである．相手の駒の色が分からないチェスのようなゲームとなっている．ガイスターにおいて，2種類ある駒の推測やブラフなどの心理戦と将棋のような先読みに基づいた駒の動きが重要となる．ガイスターにおけるＡＩは現在非常に弱い．本研究では，機械学習の一種である強化学習法のモンテカルロ法やTD(0)，Sarsa(λ)学習を用いて，ある局面における手を指したときの勝率の見積もりを計算する行動価値関数をＡＩ同士での対戦を行った結果を用いて学習する．通常のガイスターだけでなく，より盤面の小さいMinimum-Geisterを定義し，このガイスターにおいても行動価値関数の学習を行うことで既知である最善戦略を求めることが出来るかも検証する．なお，通常のガイスターにおける局面数は膨大となるため，行動価値関数は3層ニューラルネットワークという神経回路を模した数学モデルを用いて近似する．このニューラルネットワークの入力として，駒に対する推測を全く用いない盤面の情報のみにより構成される入力，Prototype-Based Learningを使用した相手の駒に対する推測と盤面の情報で構成される入力，同じくPrototype-Based Learningを使用し両プレイヤの駒に対する推測と盤面の情報で構成される入力の三種類を用意し，学習を行う．さらに，この入力に出口と呼ばれるマスへの最短距離や隣接している駒の位置などのゲーム上で重要と思われる特徴を加えるなどの改良を行った入力でも同様の学習を行い，学習により獲得した各入力での行動価値関数を用いたＡＩプレイヤの性能比較を行う．行動価値関数の学習において，通常のガイスターのルールに加えて，ルールに変更を加えた様々なルール上での学習や着手に制限を加えた上での学習を行う。さらに，学習によって得られた行動価値関数に基づき手を選択するＡＩプレイヤを作成し，ランダムプレイヤや既存手法であるモンテカルロ木探索を利用したＡＩとの対局実験を行う．

学位授与機関

学位授与機関名

電気通信大学

学位授与年度

内容記述タイプ

Other

内容記述

2015

学位授与年月日

2016-03-25

戻る

views

See details

	Views

Versions

Ver.1

2023-05-15 11:30:32.241063

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

ガイスターにおける自己対戦による行動価値関数の学習

× 佐藤, 佑史

Versions

Share

Cite as

エクスポート