強化学習法を用いたデジタルカーリングと麻雀の人工知能の研究

松井, 亮平; マツイ, リョウヘイ

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

{"_buckets": {"deposit": "96d28f5c-3e2c-4f20-830b-4b2170d5267f"}, "_deposit": {"created_by": 13, "id": "9148", "owners": [13], "pid": {"revision_id": 0, "type": "depid", "value": "9148"}, "status": "published"}, "_oai": {"id": "oai:uec.repo.nii.ac.jp:00009148", "sets": ["198"]}, "author_link": ["24985"], "control_number": "9148", "item_10006_date_granted_11": {"attribute_name": "学位授与年月日", "attribute_value_mlt": [{"subitem_dategranted": "2019-03-25"}]}, "item_10006_degree_grantor_9": {"attribute_name": "学位授与機関", "attribute_value_mlt": [{"subitem_degreegrantor": [{"subitem_degreegrantor_name": "電気通信大学"}]}]}, "item_10006_degree_name_8": {"attribute_name": "学位名", "attribute_value_mlt": [{"subitem_degreename": "修士"}]}, "item_10006_description_10": {"attribute_name": "学位授与年度", "attribute_value_mlt": [{"subitem_description": "2018", "subitem_description_type": "Other"}]}, "item_10006_description_7": {"attribute_name": "抄録", "attribute_value_mlt": [{"subitem_description": "近年，人工知能研究の分野で強化学習と深層学習を組合わせた手法が注目されており，このような強化学習法を種々のゲームに適用する事例研究が期待されている. 本論文では, このような強化学習法の適用事例があまり報告されていない行動集合が非常に大きいゲームと多人数不完全情報ゲームに, 一般化方策反復に基づく強化学習法を適用した研究結果を述べる．行動集合が非常に大きいゲームとしてはデジタルカーリングを，多人数不完全情報ゲームとしては麻雀を題材にする．これらのゲームの状態集合は巨大であるから，価値関数はニューラルネットワークを用いて近似する．\n　デジタルカーリングを題材とする研究では，おおよそカーリングの予備知識を用いない行動集合を仮定し, ランダム方策から開始する強化学習法を検討した. 行動価値は, 重み総数1,000万ほどの畳込みニューラルネットワークを用いて，挙動方策が生成した総数6億ほどの行動から推定した．これにより導かれたグリーディ方策が，サンプルプログラムに比する程度の強さを持ち，初歩的なショット知識に基づいた行動をとるようになる過程を明らかにした．\n　麻雀を題材とする研究では，人間の上級者に匹敵する強さを持つプレイヤAko_Atarashi（栗田ら，2017）の方策を改善する方法を検討した．Ako_Atarashi 4体による自己対戦30万戦分の牌譜から，ニューラルネットワークを用いて事後状態の価値（順位期待値）を推定した．深層学習と強化学習のハイパーパラメタが与える影響を検証するため，様々なハイパーパラメタを用いてニューラルネットワークを学習させて，順位推定精度やグリーディ方策の強さなどを評価した．方策を改善するには至らなかったが，Ako_Atarashiとおおよそ同等の性能を持つグリーディ方策を導く実験設定を明らかにし，方策を改善するための示唆を得た．", "subitem_description_type": "Abstract"}]}, "item_10006_text_22": {"attribute_name": "専攻", "attribute_value_mlt": [{"subitem_text_value": "情報理工学研究科"}, {"subitem_text_value": "情報・ネットワーク工学専攻"}]}, "item_10006_version_type_18": {"attribute_name": "著者版フラグ", "attribute_value_mlt": [{"subitem_version_resource": "http://purl.org/coar/version/c_ab4af688f83e57aa", "subitem_version_type": "AM"}]}, "item_creator": {"attribute_name": "著者", "attribute_type": "creator", "attribute_value_mlt": [{"creatorNames": [{"creatorName": "松井, 亮平", "creatorNameLang": "ja"}, {"creatorName": "マツイ, リョウヘイ", "creatorNameLang": "ja-Kana"}], "nameIdentifiers": [{"nameIdentifier": "24985", "nameIdentifierScheme": "WEKO"}]}]}, "item_files": {"attribute_name": "ファイル情報", "attribute_type": "file", "attribute_value_mlt": [{"accessrole": "open_date", "date": [{"dateType": "Available", "dateValue": "2019-04-23"}], "displaytype": "detail", "download_preview_message": "", "file_order": 0, "filename": "1731146.pdf", "filesize": [{"value": "1.1 MB"}], "format": "application/pdf", "future_date_message": "", "is_thumbnail": false, "licensetype": "license_free", "mimetype": "application/pdf", "size": 1100000.0, "url": {"label": "1731146.pdf", "url": "https://uec.repo.nii.ac.jp/record/9148/files/1731146.pdf"}, "version_id": "057cde68-f6e0-4acc-9f71-57df6c128b67"}]}, "item_language": {"attribute_name": "言語", "attribute_value_mlt": [{"subitem_language": "jpn"}]}, "item_resource_type": {"attribute_name": "資源タイプ", "attribute_value_mlt": [{"resourcetype": "thesis", "resourceuri": "http://purl.org/coar/resource_type/c_46ec"}]}, "item_title": "強化学習法を用いたデジタルカーリングと麻雀の人工知能の研究", "item_titles": {"attribute_name": "タイトル", "attribute_value_mlt": [{"subitem_title": "強化学習法を用いたデジタルカーリングと麻雀の人工知能の研究", "subitem_title_language": "ja"}]}, "item_type_id": "10006", "owner": "13", "path": ["198"], "permalink_uri": "https://uec.repo.nii.ac.jp/records/9148", "pubdate": {"attribute_name": "PubDate", "attribute_value": "2019-04-23"}, "publish_date": "2019-04-23", "publish_status": "0", "recid": "9148", "relation": {}, "relation_version_is_last": true, "title": ["強化学習法を用いたデジタルカーリングと麻雀の人工知能の研究"], "weko_shared_id": -1}

強化学習法を用いたデジタルカーリングと麻雀の人工知能の研究

https://uec.repo.nii.ac.jp/records/9148

名前 / ファイル	ライセンス	アクション
1731146.pdf (1.1 MB)

Item type

学位論文 / Thesis or Dissertation(1)

公開日

2019-04-23

タイトル

言語

タイトル

強化学習法を用いたデジタルカーリングと麻雀の人工知能の研究

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_46ec

資源タイプ

thesis

著者

松井, 亮平

WEKO 24985

ja	松井, 亮平
ja-Kana	マツイ, リョウヘイ

Search repository

抄録

内容記述タイプ

Abstract

内容記述

近年，人工知能研究の分野で強化学習と深層学習を組合わせた手法が注目されており，このような強化学習法を種々のゲームに適用する事例研究が期待されている. 本論文では, このような強化学習法の適用事例があまり報告されていない行動集合が非常に大きいゲームと多人数不完全情報ゲームに, 一般化方策反復に基づく強化学習法を適用した研究結果を述べる．行動集合が非常に大きいゲームとしてはデジタルカーリングを，多人数不完全情報ゲームとしては麻雀を題材にする．これらのゲームの状態集合は巨大であるから，価値関数はニューラルネットワークを用いて近似する．
　デジタルカーリングを題材とする研究では，おおよそカーリングの予備知識を用いない行動集合を仮定し, ランダム方策から開始する強化学習法を検討した. 行動価値は, 重み総数1,000万ほどの畳込みニューラルネットワークを用いて，挙動方策が生成した総数6億ほどの行動から推定した．これにより導かれたグリーディ方策が，サンプルプログラムに比する程度の強さを持ち，初歩的なショット知識に基づいた行動をとるようになる過程を明らかにした．
　麻雀を題材とする研究では，人間の上級者に匹敵する強さを持つプレイヤAko_Atarashi（栗田ら，2017）の方策を改善する方法を検討した．Ako_Atarashi 4体による自己対戦30万戦分の牌譜から，ニューラルネットワークを用いて事後状態の価値（順位期待値）を推定した．深層学習と強化学習のハイパーパラメタが与える影響を検証するため，様々なハイパーパラメタを用いてニューラルネットワークを学習させて，順位推定精度やグリーディ方策の強さなどを評価した．方策を改善するには至らなかったが，Ako_Atarashiとおおよそ同等の性能を持つグリーディ方策を導く実験設定を明らかにし，方策を改善するための示唆を得た．

学位名

修士

学位授与機関

学位授与機関名

電気通信大学

学位授与年度

内容記述タイプ

Other

内容記述

2018

学位授与年月日

2019-03-25

著者版フラグ

出版タイプ

出版タイプResource

http://purl.org/coar/version/c_ab4af688f83e57aa

専攻

情報理工学研究科

専攻

情報・ネットワーク工学専攻

戻る

views

See details

	Views

Versions

Ver.1

2023-05-15 09:42:44.905314

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

強化学習法を用いたデジタルカーリングと麻雀の人工知能の研究

× 松井, 亮平

Versions

Share

Cite as

エクスポート