大脑通过调整预期和现实的偏差来学习

作者 | Mark Humphries

翻译 | 吴迪

审校 | 酷炫脑主创 & 小草 & 林宇豪

朗读 | 胡恩

编辑 | 黄喜欢

美工 | 豆浆

古话说，失败是成功之母。为什么面对奖赏时，大脑会产生一个偏差信号呢？人们是否可以利用这一点，进行大量的学习以便达成学习目标？如果无论有没有明确的偏差信号来预测强化，大脑都可以从强化中学习，但大脑确实有一个经多巴胺神经元编码的外显偏差信号。这又意味着什么？

偏差预测理论是现代神经科学界的一个巨大成就，该理论认为，当你的预期回报和实际回报之间存在偏差时，多巴胺神经元会发出一种表示偏差的信号。这一理论得到了多种证据支持，比如神经元的放电情况、多巴胺的释放情况以及功能磁共振成像（fMRI）所呈现出的脑部血液流通情况，而且这一现象会发生在人类、猴子、老鼠和蜜蜂等许多不同物种身上。

预期与现实的差异 | 图源 naturallycurly

当我们对动物的多巴胺神经元加以控制时，它们的行为发生了变化，这样的实证研究可以证明，如果我们强迫多巴胺神经元放电，就会导致大脑中表示偏差的信号产生，从而影响个体的行为。

该理论将宏观水平上的人类行为与微观水平上的神经元活动联系起来。该理论与其它关于大脑理论的不同之处在于，它的假设可以完全通过计算模拟进行检验，而且它所做出的多个假设都被后续研究所证实。由此看来，多巴胺和奖赏偏差预测之间有着异常紧密的联系。

但这种关联引出了一个更有价值，但鲜有人提到的问题：我们完全可以模拟一个从错误偏差中学习的大脑，但这个大脑中不必存在任何对于错误偏差的明确表征。那么，为什么面对奖赏时，大脑会产生一个偏差信号呢？

为了更好地理解这个问题，首先我们需要了解一下偏差预测理论本身。该理论认为，遇到意想不到的好事时，多巴胺神经元会放电。如果我突然拍拍你的肩膀，给了你一块糖，你的多巴胺神经元就会放电。

图源 google

如果我不断重复这个行为——先是拍你的肩膀，然后给你一颗糖，你的多巴胺神经元就不再为糖果兴奋了。得到糖固然令人开心，但这个事件不再是出乎意料的了（坦白地说，你可能更希望我尊重你的个人空间，离你稍微远点）。相反，多巴胺的神经元会因为我拍你的这个动作本身而放电。

在这里划个重点：神经元单单为拍这一动作放电了！轻拍肩膀的动作现在可以稳定地预测到糖的到来（一件好事），但拍肩膀的动作仍是意想不到的，因为你不知道我什么时候会来拍你，所以拍肩膀的动作就变成了那件意想不到的、会触发神经元放电的好事。

该理论还认为，多巴胺神经元和人一样，当自己建立起的常规被意外事件打破时，会深感不安和挫败。它已经在事件之间建立起了联系，并且足够相信一件事的发生会导致另一件事的发生，即我一旦轻拍你的肩膀，你肯定会得到糖果；然而，如果我拍了你的肩膀，却不给你糖果，那会怎样呢？这时你的多巴胺神经元会完全关闭，在短时间内完全停止放电。

简而言之，多巴胺神经元能够发送一个快速信号，涵盖预测奖励时可能出现的三种偏差情况：奖励高于预期（正偏差）；奖励与预期一致（无偏差）；或奖励低于预期（负偏差）。我们可以用科学家们认可的一种说法来概括上述所有情况：多巴胺神经元发出了一个奖赏预测偏差的信号。

图源 google

多巴胺和“奖赏预测偏差”之间的对应关系起源于人工智能的一个分支，叫做强化学习。强化学习的核心思想是：先对事件的结果做出预期，再在事件发生后，基于事件真正的结果校正预期的偏差，从而达成学习的目标。因此，这种学习需要大量数据的累积。

所有经典的强化学习算法都有一个明确的偏差信号，用于预测选择的价值。这种偏差信号所反映的，是接下来发生的事情的预测奖赏值和实际奖赏值之间的差值。强化学习只要通过积累大量的实战经验，尽力将预测值和实际值之间的偏差缩到最小就可以让人工智能学习非常复杂的事件序列，比如在世界各地导航，或如何让一个机器人学会奔跑，

图源 joyreacto

多巴胺神经元的快速反应代表着强化学习算法的预测偏差，也就是接下来发生的事情的预测值和实际值之间的偏差，并反映出它们惯于学习的特性。这个理论的关键不只是多巴胺神经元可以发出信号，来反映出你得到的奖励和你期望值之间的差距；重点是，它们会将这个信号迁移给意想不到的、能预测奖励东西。

这并不是说，多巴胺神经元的唯一功能只是给预测偏差编码而已。不同的多巴胺神经元还有许多不同的功能。而奖励预测偏差也只是关于世界万物的预测偏差中的一个子集罢了。但是，在预测奖赏时对误差进行编码是多巴胺神经元所做工作中不可缺少的一部分。

*作者注：多巴胺神经元的快速反应和预测错误之间的对应关系也适用于更复杂的强化学习算法，如 Sam Gershman ，Ida Momennejad，Kim Stachenfeld 和同事们研究的算法就借鉴了 PeterDayan 的“后继表征”思想。这种思想认为个体预期和实得奖励之间存在的并不是单一维度的简单偏差，这种误差可以被一个完整的向量表示，它的维度涵盖了各种不同特征的预测——奖励只是其中的一个维度而已。Gershman 及其同事最近发表的一篇论文表明，如果我们将快速多巴胺神经元反应视为这些偏差的总和，就可以解释一种令人费解的现象，即多巴胺神经元会因非奖赏的刺激变化而放电。

但在神经元和理论误差信号之间不一定需要这种对应关系。强化学习的算法基于对动物行为的观察。它们可能会非常成功：动物（包括人类）的行为常常可以体现出它们在利用奖赏的预测偏差来探索世界。

但是，我们可以用一个偏差来描述关于奖励的预测，并不代表着大脑中就必须存在这样一个明确的偏差信号。因为完全有可能存在这么一个系统，它利用反馈了解世界，而它自己并不产生预测偏差的信号。

我们可以假设有一个小人，这个小人代表着采取行动 A 的价值的不确定性。这种不确定性将由采取行动 A 的可能值的概率分布来表示——我们可以写作 P （价值/行动 A ）——例如，我们有很大可能性会通过采取行动 A 获得很低的奖励值，有很小的可能性会通过采取行动 A 获得很高的奖励值，反之亦然；或者我们还可以用这个值表示更复杂的事情。

这个小人面前的任务是从三个杠杆中选择一个撬动，看能不能通过所选的杠杆赢得一枚硬币，周而复始。因为这三个杠杆赢得硬币的几率是不同的，所以小人必须从长计议，计算出要撬动哪一个才能得到最多的硬币。

图源 tenor

三个杠杆分别对应三种概率分布。每一次，小人都会根据这些概率分布来选择一个杠杆——也许他倾向于选择当前获得回报的概率最高的杠杆——然后看看能拿多少硬币。

之后，小人会依据撬动杠杆的结果，来更新杠杆对应的回报概率分布的知识。如果撬动某个杠杆有硬币掉落，那么该杠杆就是好的，所以小人在之后就更应该撬动它，该杠杆就被认为有更高的可能性会具有高价值；如果没有硬币掉落，那就说明这根杠杆具有高价值的可能性较低。

不管撬动杠杆的结果是好是坏，小人都会得到更多关于它的信息，更新它所对应的概率分布。在该情境中，偏差信号是不存在的。小人从宏观环境中的反馈里学习，从而做出决策，但不会产生预测误差信号。

再强调一次，我们刚刚讨论的只是行为层面，还没到大脑的层面。但是许多人相信大脑是通过概率分布来对世界进行表征的；关于如何用神经元来代表和更新概率分布，已经有了一些可信的理论。

这些活动可以归结为代表概率分布的神经元群的放电模式调节，也就是说，你可以通过调节这些神经元的刺激输入强度来表征概率分布（不管这些刺激的输入是来自神经元群体本身还是外界）。所以，在概率分布的假设下，大脑只需要一个信号来判断是否有奖赏回报，然后用它来调整神经连接，而不需要发出复杂的预测误差信号。

图源 interestingengineering

因此，无论是否有明确的偏差信号来预测强化，大脑都可以从强化中学习。但是大脑确实有一个经多巴胺神经元编码的外显偏差信号。这意味着什么？

我认为，这与三个关于大脑如何工作的有趣理论有关。

第一个理论是，一个明确的偏差信号的存在说明着一个简单的世界表征在大脑中的存在。这种所谓的“无模型”表征不包含一种行为的所有可能结果以及这些结果的概率。这种表征好像是可以快速直接查询，不需要更新学习的行动价值表，可以帮助我们在时间紧迫或者外部环境相对稳定时选择下一步的行动。我们已经发现了这些表征在大脑中所处的位置。而所有形式的这些简单表征，都需要一个明确的信号来表示实际值和预测值之间的偏差。

第二个理论认为，强化学习中的一个概念实际上代表大脑中的两个加工过程。强化学习中的一个概念是，个体会用预期和现实的偏差修正自己对行动对应价值的估算。为什么这一概念会对应大脑中的两个过程？因为大脑可能想区分开短期和长期的价值估计，而多巴胺所携带的一个明确的错误信号使得它可以同时操纵两种变化。

为了估计长期价值，我们可以通过改变神经元的连接强度来调整我们对行为价值的估计。这种调整方式会改变长期行为，而快速的多巴胺信号确实被发现可以控制大脑中的某些突触连接并可以改变它们的强度和连接方向。偏差信号可以告诉突触连接要向哪个方向改变。

但是大脑并不一定需要所有的反馈来改变神经元之间的联系。因为有些神经元之间的连接一旦被改变，就很难复原了。当我们试图通过刺激神经元的输入来改变这些连接的强度时，其中的一些很难改变。这就增加了一种可能性，即在短期内，大脑可能希望在不改变任何连接强度的情况下来改变对行为价值的估计。

它可以通过改变神经元对输入的反应来做到这一点。如果你使动作神经元变得更容易激活，那么你就增加了它的预测值；反之亦然。猜猜哪个大脑中的传输器被数百篇论文证实它改变了控制动作的神经元的反应能力？是的，多巴胺。

多巴胺通道 | 图源 youtube

总而言之，明确的错误信号存在，允许大脑在两个时间尺度上控制预测值的变化。用多巴胺编码的一个错误信号来实现这一点：既允许长期改变连接强度，又改变短期内神经元的反应能力。

第三种观点是，大脑中发射错误信号是进化产生的偶发事件。建立一个从反馈中学习的系统，一个明确的错误信号比一组神经元的概率表征更易于使用。远古动物可能有一两个神经元发射多巴胺，作为它们运动控制的一部分。

我们可以发现很多无脊椎动物只有几千个神经元，多巴胺通过改变神经元对输入的反应方式来控制运动。在多巴胺系统就位的情况下，最简单的进化途径可能是通过向神经元广播信号来改变它们之间的连接。这似乎比进化出一个不需要显性错误信号的分布式系统容易。

理论对神经科学的贡献，在于表明大脑的功能和局限性。在这里，我们在大脑中发现了一个明确的偏差信号，大脑可以利用这种偏差信号以某种特定的方式从反馈中学习。在科学探索的岔路花园里，我们应该庆幸自己得到这个理论的一些帮助，毕竟很少有花园里的路径会比脑回路更复杂。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。