李飞飞最新演讲斯坦福AI实验室图像与视觉理解技术进展（191PPT）

C新智元推荐

人类视觉系统演化用了500万多年的时间，而人工智能计算机视觉发展只用了15年左右。

在以下演讲中，斯坦福副教授李飞飞将介绍计算机视觉的发展历程，尤其是她实验室用端到端的学习方法进行稠密图像描述的最新进展。

本文摘选主要部分翻译。具体演讲内容请关注新智元后续报道。

在新智元后台回复“0626”下载PPT全文（191页），超过50M

计算机视觉发展与挑战

演化大爆炸：5.4亿年前生物演化出了视觉

目标：全景理解

要点一：学习是通往机器视觉之路

2000年，得到机器学习相关结果推动，计算机视觉取得巨大进展

子目标一：物体识别

20世纪90年代到21世纪初，计算机视觉逐步取得成果

要点二：学习需要大量数据

1990 年到2010年互联网数据增长趋势

ImageNet大规模视觉识别竞赛：1000个物体类型，143万多张图片

1998年和2012年ImageNet竞赛冠军对比

计算机很难识别体积小、没有纹理的物体

子目标二：场景GIST特征理解

用语言描述图片

难点在哪里

模型建立

图像处理

卷积神经网络

句子处理：如何编码成为大小固定的向量？

匹配图像和句子

描述图像句子数据库

图像与描述句子评测

量化结果分析

尚存缺点：

数据有限：只能用训练数据库中存在的句子描述图片
处理效率有待提高
计算机描述相对人类不够简练

子目标三：稠密图像描述

训练图像文字描述模型单独描述每个区域

存在问题

1. 缺乏上下文语境

2. 描述效率有待提高

3. 不是一种端到端的方法

斯坦福人工智能实验室最新技术

端到端的学习：从输入到输出创建一个单一的可微函数

进展

以上3大问题分别得到解决

查找给定区域

要点三：对图像深度理解需要知识和结构

目标：图像及视频场景全面理解

计算机图像识别方法与模型发展历程

新智元 616 有奖征稿令

自5月31日起，新智元开辟【名家专栏】，刊登人工智能专家提供给新智元的原创稿件。

新智元致力于促进人工智能产业的发展，技术研发与进步，在人工智能产业界、学术界有强大的影响力，为了进一步繁荣人工智能业界思想与技术的交流与分享，特向业界领袖和名家征稿：

1. 凡产业、学术界领袖、名家向新智元公众平台投稿，新智元标识名家专栏的原创稿件，采用为公众号头条的，稿费标准3000元以上；

2. 凡产业、学术界领袖、名家向新智元公众平台投稿，新智元标识名家专栏的原创稿件，采用为公众号2-3条的，稿费标准千字300元以上；

3. 凡产业、学术界精英、骨干向新智元公众平台投稿，新智元标识业界、学术的深度稿件，采用为公众号头条的，稿费标准千字300元以上。

4. 凡在其他媒体或个人博客已经发布的稿件、投稿的专家或研发机构稿件获新智元采纳转载的，不付稿费，但可以附上个人简历、照片或者所在公司、实验室简短介绍或者原文链接。

【新智元诚聘人工智能领域特约编辑】凡产业、学术界精英、骨干（一般要求为博士）向新智元公众平台投稿，获聘担任栏目或产业、学术大会特约编辑的，稿费标准为千字300元以上。

新智元专家投稿微信号：X1239828904

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。