打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
基于自适应策略的深度强化学习
人工智能算法与Python大数据
致力于提供深度学习、机器学习、人工智能干货文章,为AI人员提供学习路线以及前沿资讯
23篇原创内容
公众号

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ,第一时间获取资源

仅做学术分享,如有侵权,联系删除

转载于 :arxiv,机器之心

Efficient Deep Reinforcement Learning via Adaptive Policy Transfer

  • 作者:Tianpei Yang、Jianye Hao、Zhaopeng Meng 等

  • 论文链接:https://arxiv.org/pdf/2002.08037.pdf


摘要:通过利用过去学得的相关任务策略的先验知识,迁移学习(Transfer Learning, TL)在加速强化学习方面表现出了极大的潜力。现有的迁移方法要么显式地计算任务间的相似度,要么选择合适的源策略为目标任务提供指导性探索。但是,如何利用合适的源策略知识并且隐式地度量相似度,进而直接优化目标策略,这种思路的研究目前是缺失的。

因此,在本文中,来自华为诺亚方舟实验室等机构的研究者提出的新型策略迁移框架(Policy Transfer Framework, PTF)通过利用上述思路来加速强化学习。该框架学习对于目标策略来说何时复用以及复用哪种源策略才能达到最佳效果,以及通过将多策略迁移建模为选择学习问题来确定何时终止这种源策略。

本研究中策略迁移框架(PTF)示意图。

算法 1:PTF-A3C。

两种风格的网格世界(Grid world)W 和 W』。

两种具有连续控制的评估环境。

推荐:实验表明,这种新型策略迁移框架能够显著加速学习过程,并在独立和连续动作空间中的学习效率和最终性能两方面超越了当前 SOTA 策略迁移方法。

------------------

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
专访杨强:从 0 到 1,迁移学习如何登上今日高峰?
40min俘获徐小平600万 他把深度学习样本降低800倍 照片1s变名画
人工智能之迁移学习与网络安全
人工智能之迁移学习
技术大牛带你走向机器学习“正道”:小朋友才迷信算法,大人们更重视工程实践
不吹不黑!用Pytorch轻易完成图像风格迁移
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服