@misc{oai:uec.repo.nii.ac.jp:00009905,
 author = {Huang, ShengKai},
 month = {2021-02-17},
 note = {2020, 強化学習とディープニューラルネットワークの開発するとともに、生センサーデータを直接活用するエンドツーエンドの方法に基づくロボットの意思決定システムを構築することができます。タスクの目標を反映できる報酬関数の設計は困難であり。
本論文では、エージェントが専門家が設計した状態の軌道に従って探索し、エージェントの創造性とタスクの知識によって形成されるゲームの厳格なルールとの間のバランスと取れる「Rank Temporal Difference」方法を提案する。本論文では、単純なタスクと複雑なロボットアームの把握タスクに関するアプローチを調査および評価します。本論文の実験結果は、RankTD 方により方策収束が加速できる、報酬関数の設計が簡単になれるという結論を得りました。},
 title = {End-to-End Robotic Reinforcement Learning based on Rank Temporal Difference},
 year = {}
}