李飞飞这堂人工智能公开课讲了那些重要的事实

1 月 13 日，李飞飞应邀参加了极客公园主办的 'GIF 2017' 大会，讲述了人工智能的演变，以及如今她的实验室研究方向，和计算机视觉和人工智能的未来愿景。

李飞飞，2015年，李入选“全球百大思想者”。她是斯坦福大学计算机系终身教授，人工智能实验室主任。是全球人工智能领域最具影响力的科学家之一。

人工智能的演变

在视频中，李飞飞的演讲从三个方面，简单阐述了人工智能的发展历史。

1、智能的机器需要两个重要元素：感知、对含义的理解与推断；

感知。我们可以看人最大的感知系统是视觉，人还有其他的感知系统，机器也可以有其它的感知系统，但视觉是一个最大的感知系统。

对含义的理解和推断。语言，基本上是人类最特别的一个能力，大多数人都会同意，动物是没有这样的能力的。

当我们把Semantics和Syntax解决以后，智能的机器或者是人，主要解决的问题就是Inference ，Inference就是统计推导、统计推理这个过程。所以要实现人工智能，需要有这3个要素：Syntax、Semantics、Inference 。

2、hand-design rules的3个致命问题；

1、scalable（可扩展的）。你不可能把天下所有的rule，都写进一个程序。比如说，大家用苹果手机有siri，你跟siri说“call me Fred”，siri就说“OK，这个听起来不错”。你再问一句「call me when you get a chance 」？”。这时siri就看不懂了。

2、adaptable（可适应的）。当你给系统设计这个rule的时候，你很难把它转换到另外一个rule。比如说，英文的语法、语义，我可以设计很多rule。可是，我要把它放进中文，它的语法就完全不一样了，我就得重新设计出来一套rule。

3、它是一个closed word。它要selmu，我们把这个word都了解了。所以，我可以把这个rule给come ples，但是这是一个非常大的工程，实际我们的大千世界是很难做这样的工程的。

3、为何深度学习和神经网络发生了一次井喷式的成长和革命呢？

50年代Rosenbatt ，提出了PERCEPTRON这个概念。60年代初，一个重要的神经生物学的发现，推动了这个思路。70年代末，一个重要的日本计算机科学家，叫Fukushima，做出了第一个Neocognnitron的神经网络，可以识别数字和字母。90年代末，通过Geoffrey Hinton、Yan LeCun进一步的把学习的rules更优化了以后，就出现了今天大家比较熟悉的卷积神经网络。最近，给我们带来最大的一次神经网络，或者叫深度学习冲击的work，是2012年Alex Krizhevsky和他的导师Geoffrey Hinton，一块写的 AlexNet。

为什么在2012年这个大致的历史时期，深度学习和神经网络发生了一次井喷式的成长和革命呢？是因为3个重要的因素：

1、这些算法的不断优化和成长。

2、互联网给我们带来的海量数据，这也是我和我的学生们，在9年前做的一项工作ImageNet。

3、硬件的发展。

李飞飞实验室的研究方向

在计算机视觉里面它是物体分类、场景分类、物体切割这些。这个领域，也是在这几年有蓬勃的发展。下一步要结合的是Syntax、Semantics在计算机视觉里面它就是场景结构和语义，或者物体含义，一块的融合。我们再往下推进一步，可以看出，我们现在在尽量完善这个图片。我们现在把 Language加进来，结合Vision。

下面这个工作，主要结合的是Syntax和 Inference，它结合了Semantics，这是我的实验室最近和Facebook的一次合作。我们联合发现了一个Benchmark（标杆），它的意义是什么呢？我们跟ImageNet比较一下，ImageNet主要在测试机器对Semantics的认知能力，就是物体分类。

这项工作，我们把它取名叫CLEVR，它测试的是机器对Language Vision在Syntax和Inference方面能达到多好，它跟ImageNet基本上是反的。

具体是怎么做呢？具体我们用了一个图像引擎，去模仿很多很多的场景，又回到了更像积木一样的世界。

在这些场景里面，我们又自动生成了很多问题。比如说，这张图里有没有和半球一样大的积木？这些问题是在挑战这个计算机系统对场景结构的理解，这个结构里面包括物体的大小，或者物体的材料，包括数字计算，也包括比较的能力，也包括空间的关系，最后包括逻辑运算。所以，这在测试计算机好几层的能力。

这个数据库，组成了很多很多不同的场景，提出了很多不同的问题。然后，我们就可以通过用最好的深度学习模型，来测试计算机做的怎么样。其中最好的，比如用CNN和LSTM,。然后我们就会发现，计算机现在远远达不到人类的，比如数数能力，或者现在对材料的分析还不够好。而且，我们也远远达不到比较的能力，人是很容易比较出一个东西比另外一个东西大，计算机现在还远远没有达到。

最后一点，我们怎么把language、Syntax 和 Semantics一块融合进来？这是最近我们做的一系列关于看图说话的工作。看图说话就是，一个图片进来，我希望这个计算机讲出一个故事，比如一句话“两个男人在玩飞盘”。这个模型，我们是用了一个图片的模型，再加上一个语言的模型。

图片的模型用的是卷机神经网络，语言的模型用的是一个LSTM。

刚开始，这个计算机在还没有足够学习能力的时候，给出的语句是非常傻的，慢慢的它就开始学习这个图片的内容了。到了最后，它可以说出其中的内容。

最近，我们把这个工作推动了，看图说话不光是说一句话，可以说很多句话，因为每一幅图里面有很多很多内容。所以，这幅图我们可以让计算机说出好几句不同的，关于这幅图片的话。这是另外一个例子。

看图说话，不光可以说几句话，可以说一段话，这是还没有被发表的，最近最新的工作，这是我们实验室的两位学生，可以给计算机看一幅图，说出整个一段跟这个场景有关的话。

计算机视觉和人工智能的未来愿景

泰瑞和图灵，给我们指出了这个结合Syntaxt，Inference和Semantics的路径，我们远远还没有完成这个愿景。比如说这幅图，现在计算机视觉可以告诉我们，这个图里有一些人，甚至这幅图的三维结构是什么，或者给我们一句话或者给我们几句话、N句话，就像刚才我们看的。

但是，我们人看到的远远不止这些，我们人看到的是一个非常有意思的故事，我们知道这里面的人是谁，我们知道他们的关系是什么，我们知道他们的情绪是什么，这是计算机现在远远没有达到的。

以上内容为不完全整理，李飞飞演讲完整视频：

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。