图源 google 如果我不断重复这个行为——先是拍你的肩膀,然后给你一颗糖,你的多巴胺神经元就不再为糖果兴奋了。得到糖固然令人开心,但这个事件不再是出乎意料的了(坦白地说,你可能更希望我尊重你的个人空间,离你稍微远点)。相反,多巴胺的神经元会因为我拍你的这个动作本身而放电。 在这里划个重点:神经元单单为拍这一动作放电了!轻拍肩膀的动作现在可以稳定地预测到糖的到来(一件好事),但拍肩膀的动作仍是意想不到的,因为你不知道我什么时候会来拍你,所以拍肩膀的动作就变成了那件意想不到的、会触发神经元放电的好事。该理论还认为,多巴胺神经元和人一样,当自己建立起的常规被意外事件打破时,会深感不安和挫败。它已经在事件之间建立起了联系,并且足够相信一件事的发生会导致另一件事的发生,即我一旦轻拍你的肩膀,你肯定会得到糖果;然而,如果我拍了你的肩膀,却不给你糖果,那会怎样呢?这时你的多巴胺神经元会完全关闭,在短时间内完全停止放电。简而言之,多巴胺神经元能够发送一个快速信号,涵盖预测奖励时可能出现的三种偏差情况:奖励高于预期(正偏差);奖励与预期一致(无偏差);或奖励低于预期(负偏差)。我们可以用科学家们认可的一种说法来概括上述所有情况:多巴胺神经元发出了一个奖赏预测偏差的信号。
图源 google 多巴胺和“奖赏预测偏差”之间的对应关系起源于人工智能的一个分支,叫做强化学习。强化学习的核心思想是:先对事件的结果做出预期,再在事件发生后,基于事件真正的结果校正预期的偏差,从而达成学习的目标。因此,这种学习需要大量数据的累积。所有经典的强化学习算法都有一个明确的偏差信号,用于预测选择的价值。这种偏差信号所反映的,是接下来发生的事情的预测奖赏值和实际奖赏值之间的差值。强化学习只要通过积累大量的实战经验,尽力将预测值和实际值之间的偏差缩到最小就可以让人工智能学习非常复杂的事件序列,比如在世界各地导航,或如何让一个机器人学会奔跑,
图源 joyreacto多巴胺神经元的快速反应代表着强化学习算法的预测偏差,也就是接下来发生的事情的预测值和实际值之间的偏差,并反映出它们惯于学习的特性。这个理论的关键不只是多巴胺神经元可以发出信号,来反映出你得到的奖励和你期望值之间的差距;重点是,它们会将这个信号迁移给意想不到的、能预测奖励东西。 这并不是说,多巴胺神经元的唯一功能只是给预测偏差编码而已。不同的多巴胺神经元还有许多不同的功能。而奖励预测偏差也只是关于世界万物的预测偏差中的一个子集罢了。但是,在预测奖赏时对误差进行编码是多巴胺神经元所做工作中不可缺少的一部分。*作者注:多巴胺神经元的快速反应和预测错误之间的对应关系也适用于更复杂的强化学习算法,如 Sam Gershman ,Ida Momennejad,Kim Stachenfeld 和同事们研究的算法就借鉴了 PeterDayan 的“后继表征”思想。这种思想认为个体预期和实得奖励之间存在的并不是单一维度的简单偏差,这种误差可以被一个完整的向量表示,它的维度涵盖了各种不同特征的预测——奖励只是其中的一个维度而已。Gershman 及其同事最近发表的一篇论文表明,如果我们将快速多巴胺神经元反应视为这些偏差的总和,就可以解释一种令人费解的现象,即多巴胺神经元会因非奖赏的刺激变化而放电。但在神经元和理论误差信号之间不一定需要这种对应关系。强化学习的算法基于对动物行为的观察。它们可能会非常成功:动物(包括人类)的行为常常可以体现出它们在利用奖赏的预测偏差来探索世界。 但是,我们可以用一个偏差来描述关于奖励的预测,并不代表着大脑中就必须存在这样一个明确的偏差信号。因为完全有可能存在这么一个系统,它利用反馈了解世界,而它自己并不产生预测偏差的信号。 我们可以假设有一个小人,这个小人代表着采取行动 A 的价值的不确定性。这种不确定性将由采取行动 A 的可能值的概率分布来表示——我们可以写作 P (价值/行动 A )——例如,我们有很大可能性会通过采取行动 A 获得很低的奖励值,有很小的可能性会通过采取行动 A 获得很高的奖励值,反之亦然;或者我们还可以用这个值表示更复杂的事情。这个小人面前的任务是从三个杠杆中选择一个撬动,看能不能通过所选的杠杆赢得一枚硬币,周而复始。因为这三个杠杆赢得硬币的几率是不同的,所以小人必须从长计议,计算出要撬动哪一个才能得到最多的硬币。