11月17日 芥末堆 阿新报道
11月16日上午,GET2017教育科技大会人工智能论坛上,艾耕科技创始人韦啸结合实际案例,讲述了他眼中人工智能和大数据到底是什么。韦啸相信,教育领域在未来也会出现最好的人工智能和大数据场景。
以下是韦啸的现场演讲实录(芥末堆略有删减):
非常高兴今天有机会到GET大会上来分享,艾耕科技是一家人工智能初创公司,所以我们可能是GET大会教育上唯一一家跟教育毫无关系的公司。但是,我认为,这两个行业应该更好地融合,所以我在这里跟大家分享一下我们所认识的人工智能、大数据,希望能成为一块敲门砖,让两个行业更有机地融合。
人工智能的三个环节:观察、理解、决策
首先我们来阐述一下什么是人工智能,你在国内听到的大量人工智能创业公司99%都在做一件事,就是基于学习的智能研究,研究方法大量源于统计的机器学习,如果我们把深度学习认为是机器学习的一个分支,那人工智能就是在用机器学习的方法做基于学习的智能。什么是基于学习的智能?什么是学习?我们把它划为三个环节:观察、理解、决策。
01
观察
在数据时代或者互联网时代,我们认为从技术的角度来说,观察就是我们对数据的采集,有多少渠道可以有效地获取有用的数据。从PC时代开始,到移动互联网,再到未来物联网,其实数据的采集会是一个非常海量的状态,大量的数据采集完以后,我们会用结构化和非结构化来划分数据的种类。
简单地说,结构化的数据就是可以放到数据库、表格里,有行和列这样定义的数据。上世纪五六十年代到2000年是结构化数据黄金的半个世纪,催生了例如甲骨文、IBM这样的做数据库为主的公司。
我们还有大量的数据没办法直接把它放到表格里。或者当你把它非常生硬地放到表格里的时候,数据的使用效率是非常低的,这些就是非结构化数据。非结构化数据在互联网时代主要分为语音、图象、视频和文本。像语音相关的产品有语音识别、情感分析、聊天机器人,图象方面有图象分类、目标检测、人脸识别等。我们现在也看到文本方面使用深度学习有非常大的机会。
02
理解
一般而言,理解就是我们如何用最先进的技术把非结构化的数据变为结构化或者半结构化的数据。不管从语音、图象、视频还是文本来讲,我们今天都看到了深度学习在中间巨大的价值。所以可以说,深度学习是未来人工智能一个最核心的技术。
03
决策
过去20年,我们主要用两个方法来做所有的决策,人的决策是很复杂的,但人工智能主要使用两种方法做决策:分类和排序。
虽然决策方法相对单调,但是20年里决策的力度的效率得到了几何级数的提升。1996年谷歌只用来分析100万个网页,就号称我是全球最高效的搜索引擎,而今天我们每天都可以处理大概1000亿的网页,还没有用到谷歌这种主流搜索引擎那么大量的计算资源。而随着云计算、新的计算框架诞生,决策的效率和计算规模进一步得到了海量提升。
作为人工智能最核心的技术,机器学习、深度学习的三个要素“观察、理解和决策”分别对应了AI技术爆发的三个核心环节:有没有数据、计算能力和计算规模怎么样、算法怎么样。现在每天我们都会碰到大量“人工智能系统改变生活”的案例,例如打车软件就是一个简单的人工智能系统。
判断大数据的三要素
每个人对大数据的定义不一样,我的判断依据有两个。1、利用智能技术辅助人力运营,让商业系统变得更为高效。我认为教育也存在这样的商业系统。2、智能技术是不是“数据越大,我就越强”,是否具备这一点在数学上成立的表达方式。
如果各位要判断一家公司提供的技术是不是大数据技术,我们梳理了三个要素:
第一,它是不是定义了所谓的数据罗盘,我们叫测量测绘体系。
测量测绘体系大家会稍微有点陌生,我们发现国内对大数据的定义里缺失了这个环节。我认为,决策者必须要跟数据科学家合作建立一个坐标轴,用来描述你的商业本质在时间上的状态。有了坐标以后就有了目标,做算法的人只知道去优化这个目标,所以决策者必须把你的商业逻辑翻译成数据体系,这样才能够有效地建立一个大数据的运营系统。另外,还要有办法来测量产品在坐标系的的位置(Measurements)。这就像建立一个GPS导航一样,有了GPS才能确定地知道任何一个时刻你到底在什么位置。
举个例子,以前石油公司有大量的油管埋在地下,需要挖出地下发生泄漏的油管,如果挖出来没发生泄漏的油管,那还需要埋回去,就会很麻烦。这时你找到了A公司和B公司来做这件事,A公司挖出了100根油管,有4根是好的,B公司挖出了100根油管,有24根是好的,你肯定会觉得B公司做的东西要远远差于公司A,根据测量结果,你会选择A公司。
但实际上你会发现,还有别的方式判断这两个公司的好坏。比如说A公司发现你的判断标准是“挖出的油管是好是坏”,当它探测到某根油管可能好、可能坏的时候,它就说这个油管没坏。结果A公司挖出了24根坏油管,还有76根坏油管埋在地下没被探测出来,这就是很恶劣的情况了。
我举这个例子是想说,大数据是一件很复杂的事情,如果你只有非常单调的测量体系,你的商业目标是很难被这个测量体系高效规划的。哪怕是挖油管这么一个听起来很简单的案例,你也必须考虑挖出坏油管的召回率和探测泄漏油管的准确度,同时为你的测量定义,这样才能更有效地完成目标。
第二,采用AB测试平台,即它有没有一个方式让你可以尝试不同的路径规划。
当你的商业目标建立起来之后,就会有算法一步步向商业目标去做优化,但是实际上很多时候算法科学家不知道用什么方式可以最快走到那个目标,所以我们必须要做AB测试。算法往往不会一步到位,而AI是黑盒子,具备很强的不确定性,所以我们经常需要做AB测试,而AB测试必须非常科学、诚实。
举例来说,以前一个非常大的电商公司有很多算法团队,他们会说:“我们要做一个AB测试,没有给B任何新的算法,但是给A加一些流量扶持,即把本来可能不属于A的流量给到A。过了半年我们来看,A这个盘子里店铺的总流量减去B这个盘子里店铺的总流量,是否可以等于X倍,这就是我们来给A做流量扶持的流量。”
X就是我们所定义的杠杆效应,如果X远大于1,我认为这个扶持是非常合理的。但它的问题是,给A的流量不是免费的,这些流量是来自于C这个盘子里的店铺,用户在这个电商平台上做了搜索,这个搜索本来是要到C的,由于做了流量扶持,这些流量才给到了A。
我举个这个实际的例子是想告诉大家,做AB测试必须要科学和诚实,当你的系统建建设不是特别完善的时候,数据科学家也会变得很狡猾。
第三,它是不是建立了数据闭环。
最后我跟大家分享一个活数据和死数据的例子。雅虎最开始也是做搜索引擎起家,大概在1997年它把搜索引擎交给了Google,重心放在了门户网站上。雅虎认为搜索引擎的算法设计并没有太高的门槛,但实际上搜索引擎是一个问答系统:给它一个问题,它会提供很多的答案,当用户选择了第N个答案的时候,实际上是用户在教搜索引擎怎么排序。所以搜索引擎需要的是数据产生智能价值,并做大量的加法。于是Google做了有史以来最大的人的智能的加法器,当雅虎反应过来的时候已经晚了。所以,数据本身必须要打成一个闭环。
我们得出结论:在弱AI时代,即我们现在所处的这个时代,最好的人工智能和大数据的场景就是一个闭环,在这个闭环中间流通了最大量的、带着人的智能的数据。这样就是最好的人工智能和大数据场景。我相信在教育里会出现大量的这种场景,只是我现在还没有看到一个答案,谢谢!
联系客服