打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
李飞飞这堂人工智能公开课 讲了那些重要的事实


1 月 13 日,李飞飞应邀参加了极客公园主办的 'GIF 2017' 大会,讲述了人工智能的演变,以及如今她的实验室研究方向,和计算机视觉和人工智能的未来愿景。

李飞飞,2015年,李入选“全球百大思想者”。她是斯坦福大学计算机系终身教授,人工智能实验室主任。是全球人工智能领域最具影响力的科学家之一。

人工智能的演变


在视频中,李飞飞的演讲从三个方面,简单阐述了人工智能的发展历史。


1、智能的机器需要两个重要元素:感知、对含义的理解与推断;


感知。我们可以看人最大的感知系统是视觉,人还有其他的感知系统,机器也可以有其它的感知系统,但视觉是一个最大的感知系统。


对含义的理解和推断。语言,基本上是人类最特别的一个能力,大多数人都会同意,动物是没有这样的能力的。


当我们把Semantics和Syntax解决以后,智能的机器或者是人,主要解决的问题就是Inference ,Inference就是统计推导、统计推理这个过程。所以要实现人工智能,需要有这3个要素:Syntax、Semantics、Inference 。


2、hand-design rules的3个致命问题;


1、scalable(可扩展的)。你不可能把天下所有的rule,都写进一个程序。比如说,大家用苹果手机有siri,你跟siri说“call me Fred”,siri就说“OK,这个听起来不错”。你再问一句「call me when you get a chance 」?”。这时siri就看不懂了。


2、adaptable(可适应的)。当你给系统设计这个rule的时候,你很难把它转换到另外一个rule。比如说,英文的语法、语义,我可以设计很多rule。可是,我要把它放进中文,它的语法就完全不一样了,我就得重新设计出来一套rule。


3、它是一个closed word。它要selmu,我们把这个word都了解了。所以,我可以把这个rule给come ples,但是这是一个非常大的工程,实际我们的大千世界是很难做这样的工程的。


3、为何深度学习和神经网络发生了一次井喷式的成长和革命呢?


50年代Rosenbatt ,提出了PERCEPTRON这个概念。60年代初, 一个重要的神经生物学的发现,推动了这个思路。70年代末,一个重要的日本计算机科学家,叫Fukushima,做出了第一个Neocognnitron的神经网络,可以识别数字和字母。90年代末,通过Geoffrey Hinton、Yan LeCun进一步的把学习的rules更优化了以后,就出现了今天大家比较熟悉的卷积神经网络。最近,给我们带来最大的一次神经网络,或者叫深度学习冲击的work,是2012年Alex Krizhevsky和他的导师Geoffrey Hinton,一块写的 AlexNet。


为什么在2012年这个大致的历史时期,深度学习和神经网络发生了一次井喷式的成长和革命呢?是因为3个重要的因素:


1、这些算法的不断优化和成长。

2、互联网给我们带来的海量数据,这也是我和我的学生们,在9年前做的一项工作ImageNet。

3、硬件的发展。


李飞飞实验室的研究方向


在计算机视觉里面它是物体分类、场景分类、物体切割这些。这个领域,也是在这几年有蓬勃的发展。下一步要结合的是Syntax、Semantics在计算机视觉里面它就是场景结构和语义,或者物体含义,一块的融合。我们再往下推进一步,可以看出,我们现在在尽量完善这个图片。我们现在把 Language加进来,结合Vision。


下面这个工作,主要结合的是Syntax和 Inference,它结合了Semantics,这是我的实验室最近和Facebook的一次合作。我们联合发现了一个Benchmark(标杆),它的意义是什么呢?我们跟ImageNet比较一下,ImageNet主要在测试机器对Semantics的认知能力,就是物体分类。


这项工作,我们把它取名叫CLEVR,它测试的是机器对Language Vision在Syntax和Inference方面能达到多好,它跟ImageNet基本上是反的。


具体是怎么做呢?具体我们用了一个图像引擎,去模仿很多很多的场景,又回到了更像积木一样的世界。


在这些场景里面,我们又自动生成了很多问题。比如说,这张图里有没有和半球一样大的积木?这些问题是在挑战这个计算机系统对场景结构的理解,这个结构里面包括物体的大小,或者物体的材料,包括数字计算,也包括比较的能力,也包括空间的关系,最后包括逻辑运算。所以,这在测试计算机好几层的能力。


这个数据库,组成了很多很多不同的场景,提出了很多不同的问题。然后,我们就可以通过用最好的深度学习模型,来测试计算机做的怎么样。其中最好的,比如用CNN和LSTM,。然后我们就会发现,计算机现在远远达不到人类的,比如数数能力,或者现在对材料的分析还不够好。而且,我们也远远达不到比较的能力,人是很容易比较出一个东西比另外一个东西大,计算机现在还远远没有达到。


最后一点,我们怎么把language、Syntax 和 Semantics一块融合进来?这是最近我们做的一系列关于看图说话的工作。看图说话就是,一个图片进来,我希望这个计算机讲出一个故事,比如一句话“两个男人在玩飞盘”。这个模型,我们是用了一个图片的模型,再加上一个语言的模型。


图片的模型用的是卷机神经网络,语言的模型用的是一个LSTM。


刚开始,这个计算机在还没有足够学习能力的时候,给出的语句是非常傻的,慢慢的它就开始学习这个图片的内容了。到了最后,它可以说出其中的内容。


最近,我们把这个工作推动了,看图说话不光是说一句话,可以说很多句话,因为每一幅图里面有很多很多内容。所以,这幅图我们可以让计算机说出好几句不同的,关于这幅图片的话。这是另外一个例子。


看图说话,不光可以说几句话,可以说一段话,这是还没有被发表的,最近最新的工作,这是我们实验室的两位学生,可以给计算机看一幅图,说出整个一段跟这个场景有关的话。


计算机视觉和人工智能的未来愿景


泰瑞和图灵,给我们指出了这个结合Syntaxt,Inference和Semantics的路径,我们远远还没有完成这个愿景。比如说这幅图,现在计算机视觉可以告诉我们,这个图里有一些人,甚至这幅图的三维结构是什么,或者给我们一句话或者给我们几句话、N句话,就像刚才我们看的。


但是,我们人看到的远远不止这些,我们人看到的是一个非常有意思的故事,我们知道这里面的人是谁,我们知道他们的关系是什么,我们知道他们的情绪是什么,这是计算机现在远远没有达到的。


以上内容为不完全整理,李飞飞演讲完整视频:



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
李飞飞加入谷歌后首次中国演讲:我的选择与机器认知进化
完整视频 | 谷歌云首席科学家李飞飞:一堂人工智能公开课
李飞飞最新演讲全文:机器已能“看懂”图像和视频,但我们仍站在人工智能研究的起点
从清洁工到斯坦福,人工智能女神级科学家李飞飞的逆袭之路
李飞飞和ImageNet的洪荒之力
人工智能的三个必要条件
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服