基于自适应策略的深度强化学习

人工智能算法与Python大数据

致力于提供深度学习、机器学习、人工智能干货文章，为AI人员提供学习路线以及前沿资讯

23篇原创内容

公众号

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★，第一时间获取资源

仅做学术分享，如有侵权，联系删除

转载于：arxiv，机器之心

Efficient Deep Reinforcement Learning via Adaptive Policy Transfer

作者：Tianpei Yang、Jianye Hao、Zhaopeng Meng 等
论文链接：https://arxiv.org/pdf/2002.08037.pdf

摘要：通过利用过去学得的相关任务策略的先验知识，迁移学习（Transfer Learning, TL）在加速强化学习方面表现出了极大的潜力。现有的迁移方法要么显式地计算任务间的相似度，要么选择合适的源策略为目标任务提供指导性探索。但是，如何利用合适的源策略知识并且隐式地度量相似度，进而直接优化目标策略，这种思路的研究目前是缺失的。

因此，在本文中，来自华为诺亚方舟实验室等机构的研究者提出的新型策略迁移框架（Policy Transfer Framework, PTF）通过利用上述思路来加速强化学习。该框架学习对于目标策略来说何时复用以及复用哪种源策略才能达到最佳效果，以及通过将多策略迁移建模为选择学习问题来确定何时终止这种源策略。

本研究中策略迁移框架（PTF）示意图。

算法 1：PTF-A3C。

两种风格的网格世界（Grid world）W 和 W』。

两种具有连续控制的评估环境。

推荐：实验表明，这种新型策略迁移框架能够显著加速学习过程，并在独立和连续动作空间中的学习效率和最终性能两方面超越了当前 SOTA 策略迁移方法。

---------♥---------

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。