好课推荐 | 以模型为基础的强化学习（Model-based Reinforcement Learn...

编者按：与无模型强化学习（MFRL）相比，以模型为基础的强化学习（MBRL）有着怎样的优势和特点呢？MBRL是怎样步步发展，又可以达成怎样的目标呢？本期，来听听上海交通大学张伟楠副教授讲授以模型为基础的强化学习，希望能帮助大家更全面地了解这一强化学习方向。

转载来源：中国科学院自动化研究所

备注：该课程来自于近日国内外知名高校和研究机构的强化学习领域研究者共同发起的RLChina 2020强化学习夏令营。该夏令营以在线公开课的形式开展，课程内容包括严谨的数学推导、最新的研究结果和理论。相关课程视频在ZOOM、B站同步直播。中科院自动化所(公众号：casia1956)获得课程主讲老师授权，做不改变原意的课程概要编辑整理。

往期回顾：
好课推荐 | 基于策略的强化学习和强化学习理论
好课推荐 | 博弈论基础Game Theory Basics

本期，上海交通大学John Hopcroft中心副教授张伟楠带来《以模型为基础的强化学习（Model-based Reinforcement Learning, MBRL）》。张伟楠副教授从无模型强化学习与有模型强化学习的对比开始，结合基于黑盒的有模型强化学习的发展历史，讲解了有模型强化学习诸多算法的基本概念、算法起源、实现原理、理论分析以及实验结果等，同时对白盒模型的反向传播进行了介绍。最后，他对比了基于黑盒模型与白盒模型的MBRL算法，对MBRL领域今后的发展方向进行了前瞻性的总结概述。

张伟楠副教授认为MBRL将会是接下来几年强化学习领域的研究热点，可以应用于多智能体强化学习（Multi-Agent RL，MARL）。面对复杂问题时，如何实现高质量的环境建模将是这一方向未来研究的热点。

张伟楠

上海交通大学电院John Hopcroft中心长聘教轨副教授

观看课程

课程概要

张伟楠副教授由深度强化学习的不足引入，总结了MBRL的优势，并在之后的部分中介绍18年以来MBRL的最新工作。他区分了Model-based和Model-free的特点和优势与不足，介绍了Model-based中主要研究思路和研究重点。

第一章

本章介绍了90年代前MBRL的研究思路，以及早期一些经典算法，包括Q-planning、Sutton提出的著名的Dyna-Q，并通过一个简单的例子反映Dyna-Q对提升采样效率的显著程度。

第二章 Shooting Method

shooting方法，即获得模型后在不学习的情况下通过采样得到最优policy的方法，也叫Model Predictive Control。张伟楠副教授介绍了基础的随机shooting（RS）、PETS（Probabilistic Ensemble with Trajectory Sampling）、POPLIN，并比较了PETS和POPLIN方法的效果。

第三章 Theoretic Bounds and Methods

本章主要介绍模型有多“准”即模型的边界和学习模型的算法。介绍的第一个边界是真实的模型和估计模型之间值函数的差Value Discrepancy Bound以及它的前提假设，并由此产生的同时训练模型和policy的调度算法Meta-Algorithm及其收敛性证明。

接着，他介绍了2019年SLBO（Stochastic Lower Bound Optimization）算法、目前效果最出众的算法之一MBPO（Model-based Policy Optimization）和张伟楠团队基于MBPO提出的BMPO（Bidirectional Model-based Policy Optimization）方法。并展示了这些算法与其他算法比较的实验结果。

第四章 Backpropagation through paths

前面3章主要介绍的都是黑盒模型，本章开始介绍白盒模型中的后向传播。主要内容有：

从DPG（Deterministic Policy Gradient）引入，解释当确定性环境变为随机环境后求梯度的方法。
SVG（Stochastic Value Gradient）算法，即在当前位置如何优化policy参数的问题。
2020年最新的MAAC（Model-Augmented Actor Critic）算法及实验结果。

总结

张伟楠副教授的个人主页：http://wnzhang.net

中国人工智能大会

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。