@misc{oai:uec.repo.nii.ac.jp:00009150,
 author = {吉田, 直人},
 month = {2019-04-24},
 note = {2018, 人工知能が活躍する場面が増えつつある現代において、人工知能は大量の情報を適切に集約し意思決定を行わなければならない。多数の知識が集まれば全体としてより良い意思決定を行うことができることが一般には知られており、このような性質を持つ知能を集合知と呼ぶ。近年大きな成果を上げているゲーム人工知能の分野で集合知に関連する研究が行われており、その例としてAlthöferらのMultiple Choice Systemの研究などがある。Multiple Choice Systemは人工知能がゲームの候補手を提示し、ボスと呼ばれる人間がそれらの中から一つを選択するシステムである。AlthöferらはチェスにおいてMultipleChoice SystemのEloレーティングがベースとなるゲーム人工知能のEloレーティングより高くなる可能性を示した。
本研究の目的は知識を適切に集約し意思決定を行う人工知能、ボス人工知能を強化学習やニューラルネットワークを用いて作成し、その性能を調査することである。題材はチェスとし、Multiple Choice System のボスをボス人工知能に置き換える。強化学習法はWatkinsのQ(λ)と方策オフ型モンテカルロ法を用いる。ニューラルネットワークは畳み込み層を用いた様々な構成を用いる。実験の結果、WatkinsのQ(λ)と一部のニューラルネットワークの構成の組み合わせで、単純にチェスの指し手を選択する方法より良い選択方法を学習したボス人工知能が作成できた。一番性能の良い強化学習法はQ(0.9)であった。ニューラルネットワークの構成について、各構成要素がどのように性能に関係しているかは明らかにならなかった。明らかにならなかった原因として学習が収束していないことが考えられ、その理由として重み更新回数が足りなかった、訓練サンプルを再利用すべきだった、訓練サンプルが独立でなかった、学習係数を段階的に小さくしていく必要があった、などの事項が考えられる。},
 title = {チェス人工知能が提示する複数の選択肢から着手する人工知能の強化学習},
 year = {},
 yomi = {ヨシダ, ナオト}
}