导读
以往人工智能的学习过程中,奖励一直是最大的驱动力。然而,加州大学伯克利分校提出了一种创新方法,通过好奇心驱动人工智能,在无需奖励机制的情况下进行学习,并且通过《超级马里奥兄弟》和《VizDoom》这两款电子游戏进行了实验。
关键字
人工智能、增强学习、好奇心、电子游戏
背景
最近,笔者一直在给大家介绍量子计算、柔性电子、自供电等前沿创新技术,好长时间没有关注人工智能了。
然而,人工智能领域最近又爆出了大新闻,AlphaGo(阿尔法狗) 继去年战胜世界冠军、韩国围棋棋手李世石后,昨天又以3:0的战绩战胜了现世界排名第一的中国围棋棋手柯洁。
在惊叹之余,大家更需冷静思考一下,为什么AlphaGo如此强大?其中有一点值得我们注意:最新版本的AlphaGo采用了增强学习策略。
那么,什么是增强学习呢?
我们可以通过以下这幅图简单认识一下,其中有几个要素:环境(Environment)、动作(Action)、学习体(Agent)、奖励(Reward)、解释者(Interpreter),状态(State)。
那么,背后的机制其实很简单,就是“学习体”(Agent)在环境中采取动作,然后动作结果被解释为和一种新的状态,反馈给学习体。然后,学习体进行学习后,采取新动作,如此往复,不断强化学习的过程。
(图片来源于:维基百科)
进一步说,也就是学习体采取动作后,会得到不同反馈。所以,学习体就会根据强化信号和环境状态,选择性地产生下一个动作,而下一个动作的主要目标就是使得获取奖励的概率增大。
简单的一句话总结:
强化学习就是根据奖励或者惩罚的反馈来采取相应动作的过程。
我们再看看对于围棋,简单地说,增强学习就是根据当前棋局,通过赢棋为奖励,让人工智能棋手(学习体)不断寻找最优化的落子动作,不断进行学习的过程。其实,该人工智能棋手(学习体),可以通过反复和过去的“自己”下棋,不断获取反馈数据,再以输赢结果作为奖励和惩罚,不断地反复学习,最终形成最优的下棋策略。
所以,在这种增强学习的机制中,奖励成为了关键因素和学习驱动力。
创新
然而,现实世界的许多情况却不是如此。人工智能学习体完成任务时得到的奖励是很少的,有时候甚至完全没有奖励,也就是说这种奖励人工智能的机制可能不起作用。
这种情况下,如何才能继续驱动人工智能学习体进行学习呢?
让我们对照一下人类智能,如果让一个人在没有任何回报的情况下,继续进行学习。那么,可想而知,最主要驱动因素莫过于“好奇心”了。
伟大的科学家爱因斯坦曾说过:
好奇心是科学工作者产生无穷的毅力和耐心的源泉。
换句话说,好奇心本身就是一种回报,驱动我们不断探索环境,努力学习那些让我们可以终身受用的技能。
最近,美国加州大学伯克利分校研究人员Deepak Pathak、Pulkit Agrawal、Alexei A.Efros 、Trevor Darrell 发表了一篇学术论文:
《通过自监督预测进行好奇心驱动的探索》'Curiosity Driven Exploration by Self-Supervised Prediction'
其中,研究人员提出一种创新型的方法,也就是以好奇心为驱动力的新型人工智能算法,无需奖励机制就可以让人工智能进行学习。而且,研究人员在《超级马里奥兄弟》和《VizDoom》这两款游戏中,使用了具有这种好奇心驱动算法的人工智能进行了评估。
技术
如何对于这种好奇心驱动的人工智能算法模型进行评估?
研究人员主要利用以上两款游戏作为环境,对于其中人工智能“学习体”(游戏角色)的表现进行评估。这种评估主要集中在以下三方面:
较少外部奖励情况下进行探索,那么好奇心将在达到目标的过程中,占据重要位置;没有外部奖励的情况下进行探索,依靠好奇心推动学习体(这里应该使游戏玩家角色)进行更有效的探索;全新的环境(如游戏的新关卡),在这种情况下此前获得的经验可以帮助人工智能玩家快速通关。
接下来,我们首先来看看《超级马里奥兄弟》这款游戏。也许,大家对于这款游戏都很熟悉,这款游戏之前也有用于人工智能方面的研究,例如:笔者曾经在《'社交人工智能'让马里奥和路易基学会如何自己拯救公主》一文中有过介绍:
德国蒂宾根大学科研人员开发出一种算法,让电子游戏的角色像人类一样,通过观察和想象进行相互学习,一起合作来达成目标。
(图片来源于: 马里奥人工智能项目/蒂宾根大学)
在《超级马里奥兄弟》游戏中,一般传统的人工智能算法,都使用的是增强学习机制,训练人工智能学习体,即通过正反馈:奖励,训练人工智能学习体(游戏玩家角色)进行探索、避免落入坑中、躲避和消灭敌人。这样的奖励,往往是游戏分数的增加,例如在游戏中,学习体通过踩敌人的动作,让游戏分数增加。然而,另外一些动作例如落入坑中,就会让学习体得到一个负反馈。
这种增强学习机制的主要是为了赢得最终奖励:一场胜利。
可是,在好奇心驱动的人工智能算法中,情况并不是如此。
学习体并不是为了在游戏中获取奖励,而是为了探索和掌握技能,从而更好地了解关卡。所以,这种策略能够缩短学习时间,提高学习效率。
平均来说,在《超级马里奥兄弟》第一关中,学习体在无奖励的情况下,只完成了超过30%的进度。主要原因是前面有一个坑,这个坑需要15到20个特定顺序的按键操作才能通过。但是,人工智能学习体目前还未学会这个操作,为了避免落入坑中,这个学习体会在那个坑的地方,向后退或者停滞不前。
(图片来源于:加州大学伯克利分校)
然后,在其他关卡,人工智能会采用之前学习到的策略,继续进行探索。
(图片来源于:加州大学伯克利分校)
另外,在《VizDoom》游戏中,人工智能学习体也能够在没有任何外部奖励的环境中,也会学着沿着走廊和房间移动,进行探索。
(图片来源于:加州大学伯克利分校)
所以,从上述两款游戏的实践中,可以看出好奇心可以帮助人工智能学习体在缺乏的情况下探索环境。
在论文中,研究人员还提出了“内在的好奇心模型”(ICM),利用内在的好奇心规划,帮助学习体进行探索。好奇心可以帮助学习体在外在奖励很少,或者没有奖励的情况下,继续进行探索。该模型结构如下图所示:
(图片来源于:加州大学伯克利分校)
另外,研究人员相关研究的代码发布在GitHub上,这些代码是基于TensorFlow 和 OpenAI Gym开发的。
价值
这种好奇心驱动的人工智能算法模型,未来将显现出很大的科研和应用价值。研究团队希望能将这一技术应用到机器人领域,例如让机器人学会如何抓握新物体。以前,机器人学习的许多时间,都浪费在大量无意义的随机动作上。如果他们可以具备了这种好奇心驱动的算法,将能够更快地了解周围环境,与周围物体进行互动。
人类在婴儿时期,天生就会具有好奇心,好奇心让我们学会了很多东西。所以,当人工智能受好奇心驱动,进行学习训练好,它的思考和学习能力也都会取得很大的进步。
参考资料
【1】https://pathak22.github.io/noreward-rl/
【2】https://arxiv.org/abs/1705.05363
联系客服