好奇心，对于人工智能来说也很重要！

导读

以往人工智能的学习过程中，奖励一直是最大的驱动力。然而，加州大学伯克利分校提出了一种创新方法，通过好奇心驱动人工智能，在无需奖励机制的情况下进行学习，并且通过《超级马里奥兄弟》和《VizDoom》这两款电子游戏进行了实验。

关键字

人工智能、增强学习、好奇心、电子游戏

背景

最近，笔者一直在给大家介绍量子计算、柔性电子、自供电等前沿创新技术，好长时间没有关注人工智能了。

然而，人工智能领域最近又爆出了大新闻，AlphaGo（阿尔法狗）继去年战胜世界冠军、韩国围棋棋手李世石后，昨天又以3:0的战绩战胜了现世界排名第一的中国围棋棋手柯洁。

在惊叹之余，大家更需冷静思考一下，为什么AlphaGo如此强大？其中有一点值得我们注意：最新版本的AlphaGo采用了增强学习策略。

那么，什么是增强学习呢？

我们可以通过以下这幅图简单认识一下，其中有几个要素：环境（Environment）、动作（Action）、学习体（Agent）、奖励（Reward）、解释者（Interpreter），状态（State）。

那么，背后的机制其实很简单，就是“学习体”（Agent）在环境中采取动作，然后动作结果被解释为和一种新的状态，反馈给学习体。然后，学习体进行学习后，采取新动作，如此往复，不断强化学习的过程。

（图片来源于：维基百科）

进一步说，也就是学习体采取动作后，会得到不同反馈。所以，学习体就会根据强化信号和环境状态，选择性地产生下一个动作，而下一个动作的主要目标就是使得获取奖励的概率增大。

简单的一句话总结：

强化学习就是根据奖励或者惩罚的反馈来采取相应动作的过程。

我们再看看对于围棋，简单地说，增强学习就是根据当前棋局，通过赢棋为奖励，让人工智能棋手（学习体）不断寻找最优化的落子动作，不断进行学习的过程。其实，该人工智能棋手（学习体），可以通过反复和过去的“自己”下棋，不断获取反馈数据，再以输赢结果作为奖励和惩罚，不断地反复学习，最终形成最优的下棋策略。

所以，在这种增强学习的机制中，奖励成为了关键因素和学习驱动力。

创新

然而，现实世界的许多情况却不是如此。人工智能学习体完成任务时得到的奖励是很少的，有时候甚至完全没有奖励，也就是说这种奖励人工智能的机制可能不起作用。

这种情况下，如何才能继续驱动人工智能学习体进行学习呢？

让我们对照一下人类智能，如果让一个人在没有任何回报的情况下，继续进行学习。那么，可想而知，最主要驱动因素莫过于“好奇心”了。

伟大的科学家爱因斯坦曾说过：

好奇心是科学工作者产生无穷的毅力和耐心的源泉。

换句话说，好奇心本身就是一种回报，驱动我们不断探索环境，努力学习那些让我们可以终身受用的技能。

最近，美国加州大学伯克利分校研究人员Deepak Pathak、Pulkit Agrawal、Alexei A.Efros 、Trevor Darrell 发表了一篇学术论文：

《通过自监督预测进行好奇心驱动的探索》'Curiosity Driven Exploration by Self-Supervised Prediction'

其中，研究人员提出一种创新型的方法，也就是以好奇心为驱动力的新型人工智能算法，无需奖励机制就可以让人工智能进行学习。而且，研究人员在《超级马里奥兄弟》和《VizDoom》这两款游戏中，使用了具有这种好奇心驱动算法的人工智能进行了评估。

技术

如何对于这种好奇心驱动的人工智能算法模型进行评估？

研究人员主要利用以上两款游戏作为环境，对于其中人工智能“学习体”（游戏角色）的表现进行评估。这种评估主要集中在以下三方面：

较少外部奖励情况下进行探索，那么好奇心将在达到目标的过程中，占据重要位置；没有外部奖励的情况下进行探索，依靠好奇心推动学习体（这里应该使游戏玩家角色）进行更有效的探索；全新的环境（如游戏的新关卡），在这种情况下此前获得的经验可以帮助人工智能玩家快速通关。

接下来，我们首先来看看《超级马里奥兄弟》这款游戏。也许，大家对于这款游戏都很熟悉，这款游戏之前也有用于人工智能方面的研究，例如：笔者曾经在《'社交人工智能'让马里奥和路易基学会如何自己拯救公主》一文中有过介绍：

德国蒂宾根大学科研人员开发出一种算法，让电子游戏的角色像人类一样，通过观察和想象进行相互学习，一起合作来达成目标。

(图片来源于: 马里奥人工智能项目/蒂宾根大学）

在《超级马里奥兄弟》游戏中，一般传统的人工智能算法，都使用的是增强学习机制，训练人工智能学习体，即通过正反馈：奖励，训练人工智能学习体（游戏玩家角色）进行探索、避免落入坑中、躲避和消灭敌人。这样的奖励，往往是游戏分数的增加，例如在游戏中，学习体通过踩敌人的动作，让游戏分数增加。然而，另外一些动作例如落入坑中，就会让学习体得到一个负反馈。

这种增强学习机制的主要是为了赢得最终奖励：一场胜利。

可是，在好奇心驱动的人工智能算法中，情况并不是如此。

学习体并不是为了在游戏中获取奖励，而是为了探索和掌握技能，从而更好地了解关卡。所以，这种策略能够缩短学习时间，提高学习效率。

平均来说，在《超级马里奥兄弟》第一关中，学习体在无奖励的情况下，只完成了超过30%的进度。主要原因是前面有一个坑，这个坑需要15到20个特定顺序的按键操作才能通过。但是，人工智能学习体目前还未学会这个操作，为了避免落入坑中，这个学习体会在那个坑的地方，向后退或者停滞不前。