打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
好奇心,对于人工智能来说也很重要!

导读

以往人工智能的学习过程中,奖励一直是最大的驱动力。然而,加州大学伯克利分校提出了一种创新方法,通过好奇心驱动人工智能,在无需奖励机制的情况下进行学习,并且通过《超级马里奥兄弟》和《VizDoom》这两款电子游戏进行了实验。

关键字

人工智能、增强学习、好奇心、电子游戏

背景

最近,笔者一直在给大家介绍量子计算、柔性电子、自供电等前沿创新技术,好长时间没有关注人工智能了。

然而,人工智能领域最近又爆出了大新闻,AlphaGo(阿尔法狗) 继去年战胜世界冠军、韩国围棋棋手李世石后,昨天又以3:0的战绩战胜了现世界排名第一的中国围棋棋手柯洁

在惊叹之余,大家更需冷静思考一下,为什么AlphaGo如此强大?其中有一点值得我们注意:最新版本的AlphaGo采用了增强学习策略。

那么,什么是增强学习呢?

我们可以通过以下这幅图简单认识一下,其中有几个要素:环境(Environment)、动作(Action)、学习体(Agent)、奖励(Reward)、解释者(Interpreter),状态(State)。

那么,背后的机制其实很简单,就是“学习体”(Agent)在环境中采取动作,然后动作结果被解释为和一种新的状态,反馈给学习体。然后,学习体进行学习后,采取新动作,如此往复,不断强化学习的过程。

(图片来源于:维基百科)

进一步说,也就是学习体采取动作后,会得到不同反馈。所以,学习体就会根据强化信号和环境状态,选择性地产生下一个动作,而下一个动作的主要目标就是使得获取奖励的概率增大。

简单的一句话总结:

强化学习就是根据奖励或者惩罚的反馈来采取相应动作的过程。

我们再看看对于围棋,简单地说,增强学习就是根据当前棋局,通过赢棋为奖励,让人工智能棋手(学习体)不断寻找最优化的落子动作,不断进行学习的过程。其实,该人工智能棋手(学习体),可以通过反复和过去的“自己”下棋,不断获取反馈数据,再以输赢结果作为奖励和惩罚,不断地反复学习,最终形成最优的下棋策略。

所以,在这种增强学习的机制中,奖励成为了关键因素和学习驱动力。

创新

然而,现实世界的许多情况却不是如此。人工智能学习体完成任务时得到的奖励是很少的,有时候甚至完全没有奖励,也就是说这种奖励人工智能的机制可能不起作用。

这种情况下,如何才能继续驱动人工智能学习体进行学习呢?

让我们对照一下人类智能,如果让一个人在没有任何回报的情况下,继续进行学习。那么,可想而知,最主要驱动因素莫过于“好奇心”了。

伟大的科学家爱因斯坦曾说过:

好奇心是科学工作者产生无穷的毅力和耐心的源泉。

换句话说,好奇心本身就是一种回报,驱动我们不断探索环境,努力学习那些让我们可以终身受用的技能。

最近,美国加州大学伯克利分校研究人员Deepak Pathak、Pulkit Agrawal、Alexei A.Efros 、Trevor Darrell 发表了一篇学术论文:

《通过自监督预测进行好奇心驱动的探索》'Curiosity Driven Exploration by Self-Supervised Prediction'

其中,研究人员提出一种创新型的方法,也就是以好奇心为驱动力的新型人工智能算法,无需奖励机制就可以让人工智能进行学习。而且,研究人员在《超级马里奥兄弟》和《VizDoom》这两款游戏中,使用了具有这种好奇心驱动算法的人工智能进行了评估。

技术

如何对于这种好奇心驱动的人工智能算法模型进行评估?

研究人员主要利用以上两款游戏作为环境,对于其中人工智能“学习体”(游戏角色)的表现进行评估。这种评估主要集中在以下三方面:

较少外部奖励情况下进行探索,那么好奇心将在达到目标的过程中,占据重要位置;没有外部奖励的情况下进行探索,依靠好奇心推动学习体(这里应该使游戏玩家角色)进行更有效的探索;全新的环境(如游戏的新关卡),在这种情况下此前获得的经验可以帮助人工智能玩家快速通关。

接下来,我们首先来看看《超级马里奥兄弟》这款游戏。也许,大家对于这款游戏都很熟悉,这款游戏之前也有用于人工智能方面的研究,例如:笔者曾经在《'社交人工智能'让马里奥和路易基学会如何自己拯救公主》一文中有过介绍:

德国蒂宾根大学科研人员开发出一种算法,让电子游戏的角色像人类一样,通过观察和想象进行相互学习,一起合作来达成目标。

(图片来源于: 马里奥人工智能项目/蒂宾根大学)

在《超级马里奥兄弟》游戏中,一般传统的人工智能算法,都使用的是增强学习机制,训练人工智能学习体,即通过正反馈:奖励,训练人工智能学习体(游戏玩家角色)进行探索、避免落入坑中、躲避和消灭敌人。这样的奖励,往往是游戏分数的增加,例如在游戏中,学习体通过踩敌人的动作,让游戏分数增加。然而,另外一些动作例如落入坑中,就会让学习体得到一个负反馈。

这种增强学习机制的主要是为了赢得最终奖励:一场胜利。

可是,在好奇心驱动的人工智能算法中,情况并不是如此。

学习体并不是为了在游戏中获取奖励,而是为了探索和掌握技能,从而更好地了解关卡。所以,这种策略能够缩短学习时间,提高学习效率。

平均来说,在《超级马里奥兄弟》第一关中,学习体在无奖励的情况下,只完成了超过30%的进度。主要原因是前面有一个坑,这个坑需要15到20个特定顺序的按键操作才能通过。但是,人工智能学习体目前还未学会这个操作,为了避免落入坑中,这个学习体会在那个坑的地方,向后退或者停滞不前。

(图片来源于:加州大学伯克利分校)

然后,在其他关卡,人工智能会采用之前学习到的策略,继续进行探索。

(图片来源于:加州大学伯克利分校)

另外,在《VizDoom》游戏中,人工智能学习体也能够在没有任何外部奖励的环境中,也会学着沿着走廊和房间移动,进行探索。

(图片来源于:加州大学伯克利分校)

所以,从上述两款游戏的实践中,可以看出好奇心可以帮助人工智能学习体在缺乏的情况下探索环境。

在论文中,研究人员还提出了“内在的好奇心模型”(ICM),利用内在的好奇心规划,帮助学习体进行探索。好奇心可以帮助学习体在外在奖励很少,或者没有奖励的情况下,继续进行探索。该模型结构如下图所示:

(图片来源于:加州大学伯克利分校)

另外,研究人员相关研究的代码发布在GitHub上,这些代码是基于TensorFlow 和 OpenAI Gym开发的。

 

价值

这种好奇心驱动的人工智能算法模型,未来将显现出很大的科研和应用价值。研究团队希望能将这一技术应用到机器人领域,例如让机器人学会如何抓握新物体。以前,机器人学习的许多时间,都浪费在大量无意义的随机动作上。如果他们可以具备了这种好奇心驱动的算法,将能够更快地了解周围环境,与周围物体进行互动。

人类在婴儿时期,天生就会具有好奇心,好奇心让我们学会了很多东西。所以,当人工智能受好奇心驱动,进行学习训练好,它的思考和学习能力也都会取得很大的进步。

参考资料

【1】https://pathak22.github.io/noreward-rl/

【2】https://arxiv.org/abs/1705.05363

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
学界 | 不设目标也能通关「马里奥」的AI算法,全靠好奇心学习
好奇的AI通过探索游戏世界和犯错来学习
我们现在所说的“人工智能”,其实只是神经网络
【 AI NEWS 】AI一周要闻(2018.01.07)
中国博士用算法征服谷歌,让AI学习速度提升64倍,网友:河南骄傲
是什么使我们如此好奇?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服