【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

专知 2023-02-01

深度强化学习的最新进展已经证明了其在解决现实问题方面的巨大潜力。然而，有两个问题阻碍了强化学习的应用:效率和效果。本文研究如何通过设计基于深度模型的算法来提高强化学习的效率和效果。对动力学模型的访问使算法能够进行规划，这是顺序决策的关键。本文主要围绕在线强化学习、神经网络在深度强化学习中的表达能力、离线强化学习和安全强化学习四个主题展开研究。对于在线强化学习，本文提出了一个具有理论保证的算法框架，利用在学习环境中学习到的策略在真实环境中可以获得的性能下界。通过实验验证了所提方法的有效性。对于深度强化学习中神经网络的表达能力，证明了在某些情况下，基于模型的方法比无模型的方法需要更少的表示能力来近似接近最优的策略，并根据经验表明，这在模拟机器人环境中可能是一个问题，基于模型的规划器可以帮助。对于离线强化学习，设计了一种算法，使策略能够保持在提供的专家演示集附近，以减少分布偏移，还进行了实验，证明了所提出方法在提高模拟环境中机械臂操纵任务成功率的有效性。对于安全强化学习，提出了一种用学到的动力学模型来证明安全状态的方法，实验表明，该方法可以在一组简单但具有挑战性的任务中学习一个不错的策略，没有一次安全违规，而基线算法有数百次安全违规。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）
后台回复“R186” 就可以获取《【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf》专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“阅读原文”，了解使用专知，查看获取100000+AI主题知识资料

“家属和记者取得联系”：记者的退场意味深长

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

这位副市长，跨省升正厅

女主播性感斗舞，直播间惨遭拿下！知名团播整大活，邀女嘉宾家人做节目

要么空仓！要么盯紧这个！

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

这位副市长，跨省升正厅

女主播性感斗舞，直播间惨遭拿下！知名团播整大活，邀女嘉宾家人做节目

要么空仓！要么盯紧这个！

生成图片，分享到微信朋友圈

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

您可能也对以下帖子感兴趣