打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
无限地平线强化学习的离策略估计

视频介绍:无限地平线强化学习的离策略估计

在传统的强化学习(RL) 设置中,代理以在线方式与环境交互,这意味着它从与环境的交互中收集数据,然后用于通知管理其行为的策略的更改。相比之下,离线 RL 是指使用历史数据来学习在环境中采取行动的良好策略或评估新策略的性能的设置。随着 RL 越来越多地应用于关键的现实生活问题,如机器人和推荐系统,评估新的离线设置中的策略——根据基于行为策略的操作生成的历史数据估计目标策略的预期回报——变得更加重要。然而,尽管它很重要,但由于构建高保真模拟器的难度以及数据分布的不匹配,基于历史行为策略评估目标策略的整体有效性可能有点棘手。

作为一个简单的例子,考虑游戏Pong:当只考虑从以前的策略(行为策略)收集的历史数据而不实际玩游戏时,人们可能想预测新策略(目标策略)是否会增加获胜的机会。如果只对行为策略的性能感兴趣,那么一个好的指标可能是对历史数据中所有时间步的奖励进行平均。然而,由于历史数据是基于行为策略而不是目标策略确定的动作,这种非策略数据中奖励的简单平均不会产生对目标策略长期奖励的良好估计。相反,必须进行适当的校正以消除偏差 由于有两种不同的策略(即数据分布的差异)。

在ICLR 2020接受的“无限地平线强化学习的黑盒离策略估计”中,我们提出了一种新方法来评估离线数据中的给定策略,该方法基于将目标策略的预期奖励估计为加权平均值离策略数据的奖励。由于非策略数据的有意义的权重不是先验已知的,我们提出了一种学习它们的新方法。与以前的大多数工作不同,我们的方法特别适合当我们计划使用轨迹非常长或具有无限视野的历史数据时。我们使用许多经典的控制基准,凭经验证明了这种方法的有效性。背景

一般来说,解决离策略评估问题的一种方法是构建一个模拟器来模拟代理与环境的交互,然后根据模拟评估目标策略。虽然这个想法很自然,但为许多领域构建高保真模拟器可能极具挑战性,尤其是那些涉及人类交互的领域。

另一种方法是使用来自离策略数据的加权平均奖励作为目标策略的平均奖励的估计。这种方法比使用模拟器更稳健,因为它不需要对现实世界的动力学进行建模假设。事实上,以前使用这种方法的大多数努力都在短范围问题上取得了成功,其中时间步长的数量(即数据轨迹的长度)) 是有限的。然而,随着范围的扩大,大多数先前估计器所做的预测的方差通常呈指数增长,需要对长期问题提出新的解决方案,在无限范围问题的极端情况下更是如此。

我们的无限地平线强化学习

方法我们的 OPE 方法利用了一种著名的统计技术,称为重要性采样通过它可以从另一个分布生成的样本中估计特定分布(例如平均值)的属性。特别是,我们使用来自行为策略数据的加权平均奖励来估计目标策略的长期平均奖励。这种方法的难点在于如何选择权重以消除离策略数据分布与目标策略分布之间的偏差,同时实现对目标策略平均奖励的最佳估计。

一个重要的点是,如果权重被归一化为正并且总和为 1,那么它们定义了代理可能的状态和动作集的概率分布。另一方面,一个人策略定义了代理访问特定状态或执行特定操作的频率的分布。换句话说,它定义了状态和动作的唯一分布。在合理的假设下,这种分布不随时间变化,称为平稳分布。由于我们使用了重要性采样,我们自然希望优化估计器的权重,使得目标策略的平稳分布与我们的估计器权重引起的分布相匹配。然而,问题仍然是我们不知道目标策略的平稳分布,因为我们没有该策略生成的任何数据。

克服这个问题的一种方法是确保权重分布满足目标策略分布具有的属性,而实际上不知道该分布是什么。幸运的是,我们可以利用一些数学“技巧”来解决这个问题。虽然在我们的论文中可以找到完整的细节,但结果是,虽然我们不知道目标策略的平稳分布(因为我们没有从中收集到数据),但我们可以通过解决一个涉及后向算子的优化问题来确定该分布,它描述了代理如何使用概率分布作为输入和输出从其他状态和动作转换到特定状态和动作。完成后,来自历史数据的加权平均奖励为我们提供了对目标策略的预期奖励的估计。

实验结果

使用一个名为ModelWin 的玩具环境,它具有三个状态和两个动作,我们将我们的工作与之前最先进的方法(标记为“ IPS ”)以及一种简单的方法进行比较,在该方法中我们只是简单地平均奖励行为政策数据。下图显示了均方根误差的日志(RMSE)关于目标策略奖励,因为我们改变了行为策略收集的步骤数。朴素的方法存在很大的偏差,即使通过增加剧集的长度收集更多数据,其误差也不会改变。IPS 方法的估计误差随着地平线长度的增加而减小。另一方面,我们的方法表现出的误差很小,即使对于较短的地平线长度也是如此。

我们还在几个经典控制问题上比较了我们的方法与其他方法(包括朴素估计器、IPS 和基于模型的估计器)的性能。正如我们在下图中看到的,朴素的平均性能几乎与轨迹的数量无关。我们的方法在三个示例环境中优于其他方法:CartPole、Pendulum和MountainCar。

总而言之,在这篇文章中,我们描述了如何使用根据行为策略收集的历史数据来评估新目标策略的质量。这项工作的一个有趣的未来方向是使用结构领域知识来改进算法。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
目测距离
在调查过基于模型的强化学习方法后,我们得到这些结论
如何让你的意志力更强大?
增加公司收入,最简单最直接的办法是什么?
什么是最小二乘法?
南栖仙策:让决策走出游戏,解决真实业务需求 | 甲子光年
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服