联合随机性策略的深度强化学习探索方法
所属分类:技术论文
上传者:zhoubin333
文档大小:679 K
标签: 强化学习 深度强化学习 探索利用困境
所需积分:0分积分不够怎么办?
文档介绍: 目前深度强化学习算法已经可以解决许多复杂的任务,然而如何平衡探索和利用的关系仍然是强化学习领域的一个基本的难题,为此提出一种联合随机性策略的深度强化学习探索方法。该方法利用随机性策略具有探索能力的特点,用随机性策略生成的经验样本训练确定性策略,鼓励确定性策略在保持自身优势的前提下学会探索。通过结合确定性策略算法DDPG和提出的探索方法,得到基于随机性策略指导的确定性策略梯度算法(SGDPG)。在多个复杂环境下的实验表明,面对探索问题,SGDPG的探索效率和样本利用率要优于DDPG算法。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。