4人でプレイするキャントストップを題材とした強化学習の事例研究

森, 寛毅; モリ, ヒロキ

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

{"_buckets": {"deposit": "98454ef2-6a3b-432f-b55d-d7ea0c08f081"}, "_deposit": {"created_by": 13, "id": "10256", "owners": [13], "pid": {"revision_id": 0, "type": "depid", "value": "10256"}, "status": "published"}, "_oai": {"id": "oai:uec.repo.nii.ac.jp:00010256", "sets": ["285"]}, "author_link": ["27240"], "control_number": "10256", "item_10006_date_granted_11": {"attribute_name": "学位授与年月日", "attribute_value_mlt": [{"subitem_dategranted": "2022-03-24"}]}, "item_10006_degree_grantor_9": {"attribute_name": "学位授与機関", "attribute_value_mlt": [{"subitem_degreegrantor": [{"subitem_degreegrantor_name": "電気通信大学"}]}]}, "item_10006_degree_name_8": {"attribute_name": "学位名", "attribute_value_mlt": [{"subitem_degreename": "修士"}]}, "item_10006_description_10": {"attribute_name": "学位授与年度", "attribute_value_mlt": [{"subitem_description": "2021", "subitem_description_type": "Other"}]}, "item_10006_description_7": {"attribute_name": "抄録", "attribute_value_mlt": [{"subitem_description": "近年、将棋やチェスなどの二人零和ゲームにおいて、人間の強さを超えるような人工知能が強化学習を用いて開発されてきた。さらに、カードの排出順などの、プレイヤの意思決定とは無関係に決定されるような偶然的要因がある不確定多人数ゲームに関しても近年、手札などの非公開情報が在る不完全情報ゲームにおいて顕著な成果が報告されている。しかし、該当するようなゲームが現実社会においてはさほどプレイされていないためか、不確定性を伴う完全情報ゲームに関する研究は少ない。\n本研究では不確定多人数完全情報ゲームの1つであるキャントストップを題材として、ゲームをプレイする人工知能をいくつかの手法で開発し、各手法の性能を比較する。各手法の性能を比較することで二人零和ゲームや一人ゲームで適用されてきた手法「TD(λ)」や「Q学習」が不確定多人数完全情報ゲームであるキャントストップにおいてどの程度有効であるか探る。適用・調査する強化学習に関連するいくつかの方法は、ε-グリーディ法、3層NNによる関数近似、オンポリシー型のTD(λ)、オフポリシー型のQ学習、経験リプレイ、先読み探索である。性能の測定には、簡易なルールを利用して実装したプレイヤ3人と対戦させ、その勝率を計測した。\n実験結果から、次のことがわかった。NNの中間層は性能に大きく寄与しなかった。また、TD(λ)の方策ε-グリーディ法の探査の度合いを指定するパラメタεは0.2程度が適切であり、価値バックアップの深さを指定するパラメタλは0.8程度が適切であった。そして、TD(0)をオフポリシー型で行うQ学習の性能は、λの値が適切に設定されたTD(λ)には及ばなかった。さらに経験リプレイは、これを適用しない場合でも性能が劣化せず、登録されたデータの利用頻度を極端に大きくした場合性能が劣化した。最後に、先読み探索は訪問節点数が増えるほど性能が改善した。", "subitem_description_type": "Abstract"}]}, "item_10006_text_22": {"attribute_name": "専攻", "attribute_value_mlt": [{"subitem_text_value": "情報理工学研究科"}, {"subitem_text_value": "情報・ネットワーク工学専攻"}]}, "item_10006_version_type_18": {"attribute_name": "著者版フラグ", "attribute_value_mlt": [{"subitem_version_resource": "http://purl.org/coar/version/c_ab4af688f83e57aa", "subitem_version_type": "AM"}]}, "item_creator": {"attribute_name": "著者", "attribute_type": "creator", "attribute_value_mlt": [{"creatorNames": [{"creatorName": "森, 寛毅", "creatorNameLang": "ja"}, {"creatorName": "モリ, ヒロキ", "creatorNameLang": "ja-Kana"}], "nameIdentifiers": [{"nameIdentifier": "27240", "nameIdentifierScheme": "WEKO"}]}]}, "item_files": {"attribute_name": "ファイル情報", "attribute_type": "file", "attribute_value_mlt": [{"accessrole": "open_date", "date": [{"dateType": "Available", "dateValue": "2022-05-11"}], "displaytype": "detail", "download_preview_message": "", "file_order": 0, "filename": "2031141.pdf", "filesize": [{"value": "1.1 MB"}], "format": "application/pdf", "future_date_message": "", "is_thumbnail": false, "licensetype": "license_free", "mimetype": "application/pdf", "size": 1100000.0, "url": {"label": "2031141.pdf", "url": "https://uec.repo.nii.ac.jp/record/10256/files/2031141.pdf"}, "version_id": "76e60041-d0c1-48d8-a286-aecb4e0c476d"}]}, "item_language": {"attribute_name": "言語", "attribute_value_mlt": [{"subitem_language": "jpn"}]}, "item_resource_type": {"attribute_name": "資源タイプ", "attribute_value_mlt": [{"resourcetype": "thesis", "resourceuri": "http://purl.org/coar/resource_type/c_46ec"}]}, "item_title": "4人でプレイするキャントストップを題材とした強化学習の事例研究", "item_titles": {"attribute_name": "タイトル", "attribute_value_mlt": [{"subitem_title": "4人でプレイするキャントストップを題材とした強化学習の事例研究", "subitem_title_language": "ja"}]}, "item_type_id": "10006", "owner": "13", "path": ["285"], "permalink_uri": "https://uec.repo.nii.ac.jp/records/10256", "pubdate": {"attribute_name": "PubDate", "attribute_value": "2022-05-11"}, "publish_date": "2022-05-11", "publish_status": "0", "recid": "10256", "relation": {}, "relation_version_is_last": true, "title": ["4人でプレイするキャントストップを題材とした強化学習の事例研究"], "weko_shared_id": -1}

4人でプレイするキャントストップを題材とした強化学習の事例研究

https://uec.repo.nii.ac.jp/records/10256

名前 / ファイル	ライセンス	アクション
2031141.pdf (1.1 MB)

Item type

学位論文 / Thesis or Dissertation(1)

公開日

2022-05-11

タイトル

言語

タイトル

4人でプレイするキャントストップを題材とした強化学習の事例研究

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_46ec

資源タイプ

thesis

著者

森, 寛毅

WEKO 27240

ja	森, 寛毅
ja-Kana	モリ, ヒロキ

Search repository

抄録

内容記述タイプ

Abstract

内容記述

近年、将棋やチェスなどの二人零和ゲームにおいて、人間の強さを超えるような人工知能が強化学習を用いて開発されてきた。さらに、カードの排出順などの、プレイヤの意思決定とは無関係に決定されるような偶然的要因がある不確定多人数ゲームに関しても近年、手札などの非公開情報が在る不完全情報ゲームにおいて顕著な成果が報告されている。しかし、該当するようなゲームが現実社会においてはさほどプレイされていないためか、不確定性を伴う完全情報ゲームに関する研究は少ない。
本研究では不確定多人数完全情報ゲームの1つであるキャントストップを題材として、ゲームをプレイする人工知能をいくつかの手法で開発し、各手法の性能を比較する。各手法の性能を比較することで二人零和ゲームや一人ゲームで適用されてきた手法「TD(λ)」や「Q学習」が不確定多人数完全情報ゲームであるキャントストップにおいてどの程度有効であるか探る。適用・調査する強化学習に関連するいくつかの方法は、ε-グリーディ法、3層NNによる関数近似、オンポリシー型のTD(λ)、オフポリシー型のQ学習、経験リプレイ、先読み探索である。性能の測定には、簡易なルールを利用して実装したプレイヤ3人と対戦させ、その勝率を計測した。
実験結果から、次のことがわかった。NNの中間層は性能に大きく寄与しなかった。また、TD(λ)の方策ε-グリーディ法の探査の度合いを指定するパラメタεは0.2程度が適切であり、価値バックアップの深さを指定するパラメタλは0.8程度が適切であった。そして、TD(0)をオフポリシー型で行うQ学習の性能は、λの値が適切に設定されたTD(λ)には及ばなかった。さらに経験リプレイは、これを適用しない場合でも性能が劣化せず、登録されたデータの利用頻度を極端に大きくした場合性能が劣化した。最後に、先読み探索は訪問節点数が増えるほど性能が改善した。

学位名

修士

学位授与機関

学位授与機関名

電気通信大学

学位授与年度

内容記述タイプ

Other

内容記述

2021

学位授与年月日

2022-03-24

著者版フラグ

出版タイプ

出版タイプResource

http://purl.org/coar/version/c_ab4af688f83e57aa

専攻

情報理工学研究科

専攻

情報・ネットワーク工学専攻

戻る

views

See details

	Views

Versions

Ver.1

2023-05-15 09:26:16.860796

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

4人でプレイするキャントストップを題材とした強化学習の事例研究

× 森, 寛毅

Versions

Share

Cite as

エクスポート