WEKO3
アイテム
モデルに内在する問題に対するマルチエージェント強化学習の設計
https://uec.repo.nii.ac.jp/records/913
https://uec.repo.nii.ac.jp/records/913be2c8495-2b07-42dd-9d94-7c0b551608b7
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2014-03-24 | |||||||||||
タイトル | ||||||||||||
言語 | ja | |||||||||||
タイトル | モデルに内在する問題に対するマルチエージェント強化学習の設計 | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_db06 | |||||||||||
資源タイプ | doctoral thesis | |||||||||||
アクセス権 | ||||||||||||
アクセス権 | open access | |||||||||||
アクセス権URI | http://purl.org/coar/access_right/c_abf2 | |||||||||||
著者 |
市川, 嘉裕
× 市川, 嘉裕
|
|||||||||||
抄録 | ||||||||||||
内容記述タイプ | Abstract | |||||||||||
内容記述 | 本論文では,Q 学習に代表される強化学習手法をマルチエージェント環境に適用する際に,無意識に行っているモデル化に起因する問題に着目し,その解決手法の提案と有効性の検証を目的とする.特に,マルチエージェント強化学習では,他のエージェントの学習によって動的に環境が変化するため,エージェント間の複雑な相互作用を考慮したエージェントモデルの構築が必要であるが,それだけでなくエージェントモデルの前提(例えば,エージェントの学習速度は同じであるなど)として設定されていることによってエージェント間の協調に問題が生じ,大局的な最適政策の獲得が困難となることがある.このような問題は,システム設計者が予め自覚することは難しく,本論文ではこれを「モデルに内在する問題」と称し,エージェントの設計を改善することによってモデルに内在する問題(特に,マルチエージェント学習環境特有の同時学習問題や報酬の組み合わせが増えることで表面化する問題)の解決を図る.具体的には,(1) 一定の学習速度のモデルが原因で学習の停滞や獲得する政策(エージェントが学習した行動規則集合)の偏りを引き起こす問題,(2) 外部報酬に対する受容モデルが引き起こす局所的な政策獲得の問題,(3) 単一の政策のみによる学習モデルが望ましい政策の獲得を阻害する問題の解消に取り組む.また,いつ生じるかわからないモデルに内在する問題の性質上,様々な問題に同時に対処できることが望ましいため,上記の個別の解決策を統合することを試みる.さらに,モデルに内在する問題という観点からマルチエージェント学習を体系化し課題を整理することを試みる.上記の目的達成に向け,(1) の問題に対しては,エージェントの行動がどれだけ確定的であるかを行動選択確率に関する情報エントロピーを用いて「学習進度」を定量化し,エージェント間で学習進度の差が大きくなり過ぎないように学習進度を共有しながら自身の学習速度を調整する手法を探究する.次に,(2) の問題に対しては,複数報酬問題において学習初期での獲得が容易で陥りやすい低い報酬への政策の獲得を避け,高い報酬を探索するために算出する「内部報酬」(外部報酬に置き換える目標)に基づいて状態-行動価値を見積もる(政策を学習する)手法を考案する.最後に,(3) の問題に対しては,学習途中で見つけた有望な政策(エージェント間のパレート政策)を複数保持し,それに基づいて低い報酬に対する学習を抑制することで,効率的に最適政策(パレート最適政策)を探索する手法を提案する.提案手法の有効性を検証するために,(1) 一定の学習速度のモデルに内在する問題を扱う例題(狭路すれ違い問題),(2) 外部報酬の受容モデルに内在する問題を扱う例題(マルチステップタスク割り当て問題),(3) 単一政策のみの学習モデルに内在する問題を扱う例題(マルチステップ4タスク問題)に提案手法を適用し,シミュレーション結果を通してその有効性を検証したところ,次の知見を得た:(1) 一定の学習速度のモデルに内在する問題に対しては,学習進度の違いがエージェント間の協調に影響を与えるが,通信を介して共有した学習進度を基に学習速度を調整する提案手法によって,エージェントの競合を回避できることを示した.特に,(i) 学習が進んでいるエージェントの割引率γを下げる方法は,価値が高く選択されやすい行動価値を重点的に下げ,政策の偏りを防ぐことで,全てのエージェントが目標達成のために学習できる機会を増加させる働きがあること,(ii) 学習が遅れているエージェントの割引率γを上げる方法は,目標達成につながる行動とつながらない行動の価値をはっきり分けるように推定するため,報酬獲得の機会が少ない状況から効率よく学習する働きがあることを明らかにした.次に,(2) 外部報酬の受容モデルに内在する問題に対しては,複数の報酬に対する報酬獲得の難易度の違いから局所的な政策に陥り易いが,外部報酬を基に見積もった内部報酬を用いて状態-行動価値を更新する提案手法によって,低い報酬へ向かう政策の獲得を避け,高い報酬へ向かう政策を獲得できることを示した.特に,(i) 高い報酬を集中的に探索するためには,今までに獲得した報酬の平均値を基準にして外部報酬を評価し直した内部報酬が有効であり,(ii)この内部報酬が最短経路の探索にも貢献することを見出した.最後に,(3) 単一政策の保持のモデルに内在する問題に対しては,多数の望ましくない報酬が望ましい報酬に対する学習を阻害するため,学習途中で見つけたパレート政策をアーカイブ保存し,それに基づいて状態-行動価値の更新を決定する提案手法によって,局所政策の獲得を回避できることを示した.特に,学習済みと判断したパレート政策のアーカイブを参照することによって,新しく学習する政策をそれよりも良い報酬を獲得できるものだけにすることを可能にしたことを示した.また,上記の三種の解決法を同時に例題に適用した実験の結果より,各手法の特徴が重なり合わさることによって特徴的な性能が得られることがあることを示した.さらに,モデルに内在する問題という観点からマルチエージェント学習を体系化することにより,今後の課題を明確にした. | |||||||||||
学位名 | ||||||||||||
学位名 | 博士(工学) | |||||||||||
学位授与機関 | ||||||||||||
学位授与機関識別子Scheme | kakenhi | |||||||||||
学位授与機関識別子 | 12612 | |||||||||||
学位授与機関名 | 電気通信大学 | |||||||||||
学位授与年度 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 2013 | |||||||||||
学位授与年月日 | ||||||||||||
学位授与年月日 | 2014-03-24 | |||||||||||
学位授与番号 | ||||||||||||
学位授与番号 | 甲第734号 | |||||||||||
著者版フラグ | ||||||||||||
出版タイプ | VoR | |||||||||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 |