概率图模型(六)：强化学习概率推断

每日一句

There is not one big cosmic meaning for all, there is only the meaning we each give to our life. —Anaïs Nin

本文大纲如下：

前言

通过将学习问题的全部内容用概率理论的术语来表达，概率图模型（PGM）提供了一致和灵活的框架来设计原则性的目标，建立反映世界因果结构的模型，并允许针对广泛的问题领域部署一套通用的推理方法。最重要的是，在PGM的框架中，只需写下模型和提出问题，学习和推理的目标就会自动出现。

强化学习（reinforcement learning）或最优控制的决策问题被设计为一个框架，该框架旨在通过用效用或奖励来增强概率模型，其中奖励函数（ eward function）被视为一个外在的信号。尽管底层动态系统仍可由概率图模型描述，确定最佳行动方案（计划）或最佳决策策略（政策）是一个与概率推理完全不同的问题类型。后面将介绍：决策问题只是一个特定类型的图模型中的推理问题。将决策形式化为概率图模型中的推理，原则上可以让我们使用大量的近似推理工具，以灵活和强大的方式扩展模型，并对组合性和部分观察性进行推理。

具体来说，我们将讨论强化学习或最优控制问题的泛化，有时被称为最大熵强化学习(maximum entropy reinforcement learning)，在确定性动力学的情况下相当于精确的概率推理，而在随机动力学的情况下相当于变分推理。虽然具体的推导方法不同，但基础框架和优化目标是相同的。所有这些方法都涉及到将控制或强化学习明确或隐含地表述为PGM，然后使用PGM学习和推理方法来解决问题。

将强化学习和决策表述为推理，还引出了提供了：基于最大熵的自然探索策略，逆向强化学习（inverse reinforcement learning），以及部署强大的近似推理算法来解决强化学习问题的能力。此外，概率推理和控制之间的联系为奖励函数的意义及其对最优策略的影响提供了概率解释。强化学习中奖励或成本函数的设计往往是艺术与科学的结合，奖励的选择往往模糊了算法和目标之间的界限，特定任务的启发式方法和任务目标结合成一个奖励。在作为推理的控制框架中，奖励勾勒一个随机变量的分布，最优策略的目的是明确地匹配由奖励和系统动力学定义的概率分布。

强化学习介绍

在监督学习中，我们有一组数据，我们的目的是学习一个近似于的模型。在无监督学习中，我们有一组数据，我们寻求学习一个接近的模型。强化学习是一个闭环，AGENT可以与世界互动，获得样本并学习一个策略，在给定的环境中实现奖励函数的最大化。

强化学习可以称为马尔可夫决策过程（Markov Decision Process, MDP）。一个MDP由一组、一组可能的行动、环境动态和一个奖励函数指定。环境动力学(environment dynamics)规定了agent在采取行动后从状态到状态的转移概率。奖励函数提供了一个标量反馈，指定了行动的效用。该MDP中的轨迹（trajectory）表示为

利用这个框架，我们可以解决两个常见的问题。第一个问题是找到一个策略，为每个给定的状态输出行动，使沿轨迹的累积奖励达到最大。另外，我们可能给定的一组最优轨迹找出MDP。第一个问题是标准的RL目标，而第二个问题则被称为逆向强化学习。

定义

从时间点t开始的累积回报被定义为从时间点t开始的累积奖励

如果，总和就会发散，我们可以使用折扣系数的概念，其中，得到一个有限的总和。

策略是一种从状态到行动的映射。它可以是确定性的，也可以是随机性的。在最一般的形式下，在任何状态下，s

状态的价值函数被定义为从状态开始并遵循策略时获得的累积奖励期望。

状态-行动对的价值函数或更多地被称为状态-行动对（s,a）的函数，被定义为从状态开始，采取行动a并在此后遵循策略时获得的累积奖励期望。

价值和Q函数的贝尔曼方程

鉴于价值和函数的定义，自然可以推导出以下贝尔曼方程。

最优策略和价值函数

RL的目标：找到能实现最高预期收益的最优政策。如果一个策略在所有状态下的预期收益都大于，则该策略优于或等于:

鉴于此，我们可以定义最优价值和Q函数，以及贝尔曼最优方程:

其中是折扣因子，表示未来状态下奖励的重要性.上述贝尔曼更新也可以用下图来说明。

如果我们能计算出最优的值，那么我们可以恢复最优政策:

为了恢复一组最优轨迹，我们只需要执行最优策略:

设。作为完整轨迹。。在图模型中推理，可以计算出:

此外，我们还知道以下的软性关系:

我们也能得到:

其中，我们通常称为优势函数(advantage function)。

推理程序想要优化的目标是散度:

其中是策略的熵。第一项只是标准的RL目标，而第二个熵项是用于正则化。

对于确定性动态，我们可以直接得到这个目标。对于随机动态，我们从ELBO中得到(后面介绍).

小结

强化学习通常被建模为马尔可夫决策过程（MDP），一个典型的MDP有4个主要部分。

初始状态分布：
转移概率：
策略：
奖励：

为了用图形模型表示MDP，我们引入了一个辅助变量来定义最优轨迹的分布。图模型的表示方法为：

初始状态分布：
转移概率：
策略：
奖励：
优化：

引入的辅助变量允许我们对次优行为进行建模，并可用于解决逆向强化学习问题。的图模型表示为我们提供了一种通过推理算法解决控制和规划问题的选择。

策略梯度

在本节中，我们将研究直接优化标准RL目标函数。是策略函数的参数，即，相当于找到最佳策略函数。

首先，让我们从定义轨迹的概率分布开始。任何轨迹的概率由以下公式给出:

现在，的最优值是使我们的报酬期望最大化，即:

目标函数为

因此，最优的是使目标函数最大化的

我们可以通过提取轨迹、计算期望的蒙特卡洛估计来估计这个目标函数

对目标函数进行梯度上升来优化。在目标函数的近似形式中，对参数没有明确的依赖性。这可能会使我们认为。当然不是，对的依赖被加入蒙特卡洛近似中。为了明确这种依赖性，我们可以把写成如下形式:

其中第二步来自期望的定义，第三步是由于积分和梯度算子的线性，第四步是由于不依赖。

很难计算，因为这个积分没有明显的蒙特卡洛估计，取决于环境的动态变化，我们可能不知道这种变化是什么。

我们可以使用对数梯度技巧来轻松估计。更具体地说 :

因此，可以写为:

现在，我们将代入到的表达式中

因此，我们把写成对的期望

试着评估，首先写出

变为：

最后，将的表达式代入的表达式，可以得到:

通过抽取样本轨迹，用蒙特卡洛平均值来估计这个期望值 :

现在可以通过执行梯度上升法来更新的估计:

很明显，更新规则试图提高总回报较高轨迹的权重（因为）较高），并抑制那些总回报较低的轨迹（因为较低）。

将所有步骤放在一起，我们就有了REINFORCE算法:

Value Based Reinforcement Learning

我们可以学习最优价值函数，并从中检索最佳策略，而不是学习强化学习代理的策略。如果我们得到的值，我们可以得到最优策略为.

策略迭代

策略迭代分两步进行。第一步，策略评估，使用bellman更新迭代评估策略函数。

第二步是贪婪地更新策略，采取具有最高值的行动。

策略改进步骤保证至少和当前策略一样好。这可以直观地理解为以下几点。假设我们在第一步采取了的行动，并依照策略。这样做比从一开始就遵循政策要好，或者至少是一样好，因为我们采取了具有最高值的行动。然后，当我们从转移到状态时，我们可以扩展这个论点。也就是说，我们选择行动. 从状态选择行动，并从那里开始遵循策略。同样地，在每一步跟随更新的策略，保证至少与当前策略一样好。

上图显示了策略迭代。策略验证步骤评估了正确的价值函数。对策略的贪婪更新改善了策略，但价值函数不再正确。经过多个迭代步骤，这两个步骤都收敛到了真实值。

价值迭代

我们是否有办法避免明确表示策略，而只根据价值函数进行强化学习。我们可以将策略评估和策略改进步骤合并为一个步骤。

在bellman更新中，我们用代替

由于替换，我们可以用价值函数来表示更新方程。策略迭代和价值迭代之间有一个关键区别。策略迭代对值进行多步更新，直到收敛，然后对策略进行一次贪婪的更新。价值迭代对策略的每一次贪婪更新都做一次价值函数的更新。

拟合Q迭代

策略迭代和价值迭代只适用于小规模的离散状态空间。对于一个有状态和每个状态有行动的环境，我们需要存储和更新值。

对于大的或连续的状态空间，我们可以用一个参数为的函数近似器来近似值函数。我们可以使误差最小化:

这里。我们可以用随机梯度下降法使这个目标最小化。在更新参数时，我们不考虑目标相对于参数的梯度。我们可以像在策略迭代中一样对策略进行贪婪的更新。在实践中，拟合Q-learning非常不稳定。

soft策略梯度和soft Q-学习

soft策略梯度写为:

为了计算第二项的梯度，我们使用轨迹的期望计算:

从RL中的后向信息来看

从这两个方程中, 可得

为了摆脱的项，我们用次抽样轨迹对其进行近似。展开soft策略梯度并对参数求导，得到:

由于括号内包含的项成为。展开与有关的项，我们得到:

这个方程的结果与Q-learning更新非常相似:

其中价值函数定义为:

从技术上讲，我们可以在Q函数的exp里面添加一个温度参数，如exp 。较高的值对应于更多的 '随机 '政策，接近于0意味着较少的随机性政策。

RL/控制作为推理

MDP作为图模型

标准MDP的图模型显示下图的左边。状态是一个马尔可夫链，状态和行动都是随机变量。

在MDP中，一些转换会得到高额的奖励，我们希望提高高额奖励的轨迹的权重，降低次优轨迹的权重。因此，我们用一个优化变量来增强图模型，该变量是可观察的，使其成为一个隐马尔可夫过程。优化变量的条件分布是。高奖励意味着在时间点上成为最优的概率很高。请注意，这里我们假设奖励满足：是一个概率分布。

为什么最优性变量很重要？

辅助变量使我们能够将奖励信息纳入概率生成过程，以便对轨迹进行采样。我们可以在这个隐马尔科夫模型中使用概率推理算法解决控制和规划问题。
它允许我们以概率方式指定一个最佳行为的模型，这对逆向RL很重要。
还解释为什么随机行为可能是首选（对于解释和转移学习的观点）。

鉴于图模型，我们可以

给出一个奖励，确定一个轨迹成为最优的可能性有多大。在数学上，我们可以计算出，即一个轨迹在整个轨迹中表现为最优的概率。

给定一个最优轨迹的集合，推断出奖励和先验，这是一个逆向RL问题。

该问题是一个特征化的CRF。通过恢复参数化的势能函数和，我们可以学习从轨迹中恢复的奖励。请注意，CRF是无向的，不具有因果结构；这种模型的限制性更强，被称为MEMM。

给定奖励，通过计算现在我们可以不解决优化问题，而是解决推断问题。

通过推理实现最优策略

现在我们的目标是通过标准的消息传递算法推断出最优策略。只要计算出，表示从的状态和行动开始，从到的最优轨迹的概率。我们还引入了信息。然后可以递归地计算这些:

那么，最佳行动分布可以通过两个后向信息得出:

然后，最佳行动分布可以通过两个后向信息得出这里我们假设行动先验是一个均匀分布。

然后，我们引入对数空间的信息:

实际上，对数信息对应于软版的状态行动和状态价值函数。行动分布与优势值(advantage value)成正比。此外，我们可以推导出的以下关系 :

因此，可以被看作是的软最大值。当动态是确定的，第二个关系正是贝尔曼方程的备份(backup):

然而，当动态是随机的，更新是乐观的，因为它将主要由下一个状态的最大值决定，这就产生了寻求风险的行为。这个问题将在下一节通过变分推理得到缓解。总之，在PGM的基础上增加了优化变量，我们将最优控制简化为类似HMM模型的推理，并将其与动态规划、RL的值迭代联系起来。

与变分推断的联系

推理优化目标

回顾一下，最优轨迹分布:

现在我们的目标是优化一个近似策略，使之与这个策略分布相闭。策略为, 那么它在确定性动力学下的轨迹分布 (其中 :

精确推理下。因此，我们可以把优化目标看作是最大化负散度:

现在，在确定性条件下的动态为-

而在随机条件下的动态则为 -

这里，我们想问的不是乐观项（它假定如果任何一个未来状态有高回报，而不考虑导致该状态的中间状态，那么指数项将只有利于该高回报状态），而是鉴于过去获得了高回报，在转移概率没有改变的情况下，行动概率是多少？

变分推断进行控制

为了解决上述问题，我们将使用变分推断，其目标是找到，使其接近，同时动态保持在。

最佳轨迹的分布为

策略产生分布为

因此，我们可以计算ELBO：

对可观察变量的对数概率使用Jensen不等式计算ELBO。现在的目标由两部分组成的，就像确定性的情况一样，但在变分分布方面。第一个项目是由变分策略导致收益的期望，第二个项目是变分策略的熵。现在，为了得到最优政策，有

进一步求解，有

当时有最小值

价值函数为：

参考文献

Reinforcement learning and control as probabilistic inference: Tutorial and review Levine, S., 2018. arXiv preprint arXiv:1805.00909.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。