打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
周志华CAIS大会现场演讲:人工智能的探讨 | CAIS 2017

导语:南京大学计算机系教授、欧洲科学院外籍院士周志华回顾了人工智能的发展以及机器学习兴起的由来,并对列举了目前大数据时代的机器学习的技术局限和"学件"的解决思路。

9月12日上午,南京金秋洽谈会"2017中国人工智能峰会(CAIS 2017)"在南京国际博览会议中心盛大开幕。本次峰会以"创新、变革、突破"为主题,并设两大主题论坛,共吸引了30余位人工智能领域著名的科学家、企业领袖亲临现场,1500余名专业观众报名参会,雷锋网作为受邀媒体参加了本次峰会并进行了报道。

在大会上,南京大学计算机系教授、欧洲科学院外籍院士周志华回顾了人工智能的发展以及机器学习兴起的由来,并介绍了"学件"的思路。周志华教授称,经过人工智能发展的第一个阶段即上世纪六十年代,机器所具有的推理能力就已经达到了人类的巅峰水平,之后人工智能相继进入知识工程和机器学习阶段。在大数据时代,机器学习得到了长足的发展,直接导致了今天的人工智能热潮。但技术上仍存在诸多局限,为此,周志华教授提出了"学件"(Learnware)的概念,期望经过10到15年的探索以后进入一个新局面。

周志华教授在现场还列举了一组数据,在今年的IJCAI大会上,中国本土相关研究论文数录用数量首次超过了美国,占到了差不多全世界三分之一,其中北京占约30%,江苏省占14%,居全国前两位。周志华教授认为,江苏有国内前列的人工智能研究实力,同时有国内前列的人工智能产业基础。"在国内的各个省份里面,同时具有这两个条件的地方并不是很多。"

以下是雷锋网根据周志华教授演讲现场记录稿整理的主要内容,已获得大会授权:

我本人是从事人工智能方面研究的。经常有人问,"比人类更聪明的人工智能什么时候能够出现?",这样的问题对我们来说非常难回答,这是为什么呢?因为谈到人工智能,其实可以说有两种完全不同的观点,或者说差别非常大的观点。

第一种我们把它叫做"强人工智能"。目的是希望研制出和人一样聪明、甚至比人更聪明的机器;另外一种是"弱人工智能",主要目的是觉得我们人做事的时候很聪明,那么能不能向人借鉴一下,让机器做事的时候更聪明。实际上在人工智能科学界,大家探索的主要是在第二个方面。

有一个或许更容易理解的类比:一百多年前,人们看到天上鸟在飞,然后大家就想那我们能不能做一个东西飞起来。后来经过空气动力学研究,现在我们有了很好的飞机。但是如果现在问:这个飞机到底有没有比鸟飞得更好?这个问题可能就很难说了,因为飞机虽然飞得比鸟更远更高,但是未必有鸟飞得灵活。但不管怎么样,我们原来的目的已经达到了,我们已经有能够帮我们飞起来的工具。

人工智能做的事情和这件事情非常的相似,就是我们看到有很多智能行为,希望借鉴这些东西做出一些工具,能够帮助我们做更强大的事情,实际上这就是我们真正在研究人工智能的时候所主要考虑的内容。所以人工智能研究的主要目的并不是"人造智能",而是"intelligence-inspired computing",智能启发的计算。

人工智能的三个发展阶段

搞人工智能的人到底在做什么呢?今天我们一般说人工智能作为一门学科诞生在1956年,那时候计算机的能力还非常弱,但已经有很多的学者在想,那么这样计算能力发展下去,我们是不是可以做一些更复杂的事情,那么这些事情到底是什么呢?在那年夏天在达特茅斯学院开了这么一个会议,在这个会议上后来被称为人工智能之父的约翰·麦卡锡,为这个学科就起了一个名字叫做人工智能。

经过了60多年历史,如果从主流研究内容来看,人工智能的发展大概经历这么三个阶段:

第一个阶段大概是在50年代中期到60年代,这个阶段主要是在做逻辑推理。这是为什么呢?大概因为我们理工科的都对数学家有一种自然的崇拜,觉得数学家非常聪明,能够证明一些非常复杂的定理,那这个背后的能力就是逻辑推理能力。所以在那个时候大家就想,如果我们能够把逻辑推理能力赋予计算机系统,那么这个机器做事情就会聪明起来,所以那个时候有很多很重要的研究结果,例如图灵奖得主西蒙和纽厄尔研制出来的"逻辑理论家"程序就是一个典型代表。

那么这样的研究成果达到了什么样的水平呢?在上个世纪有两位伟大的逻辑学家罗素和怀特海,他们写了一本书叫做《数学原理》,用逻辑把整个数学系统建构起来。为了证明这本书里面的定理,他们花了十年时间,而这个程序证明这所有的定理只用了不到两个月的时间,而且其中有一条定理的证明比这两位伟大的逻辑学家证明出来的还要巧妙,更加简短、更加容易读懂。所以我们可以看到,在上个世纪60年代,机器所具有的推理能力就已经达到了人类的巅峰水平。

但那个时候机器做事情并没有真的变得很聪明,所以大家慢慢地就意识到其实光有逻辑推理能力是不够的,即便是数学家,为了证明数学定理除了要有逻辑推理能力,还要有数学知识。所以人工智能的研究很自然的就进入了第二个阶段,在这个阶段大家就想的是我们能不能把知识总结出来教给计算机系统,所以这就进入了我们所谓的一个"知识工程"时期,这里面的代表人物例如后来的图灵奖得主,被称为知识工程之父的爱德华·费根鲍姆。在这个阶段大家主要做的事情就是希望把人类专家解决问题的知识总结出来,比如说,"如果看到岩石里面渗出红色,那么这个里面很可能是铁矿",把这样的知识总结出来,然后编程放到计算机系统里面,由此就产生出很多"专家系统",确实解决了很多应用问题。

但是后来慢慢的大家就发现,要把知识总结出来再交给系统非常的困难。一方面有时候我们人类专家能够解决一些问题,但是这个知识是什么可能说不清楚。有的人类专家可能还不太愿意分享他的知识。然后大家就想那么这时候我们该怎么办?因为我们的人的知识其实主要是靠学来的,所以先驱们很自然地就想到那么我们能不能让机器自动的去学知识,所以从20世纪90年代开始,人工智能的主流研究就进入到第三个阶段,这个阶段一直持续到今天,就是我们的机器学习阶段。

大数据时代的机器学习

所以我们可以看到机器学习最早诞生出来,它是为了解决知识获取这么一个瓶颈而出现的。机器学习的经典定义是"利用经验改善系统自身的能力"。不论什么样的经验,一旦放在计算机系统中,它必然是以数据的形式存在的,所以机器学习要研究怎么去利用经验,他就必须要对数据进行分析,所以这个领域发展到今天,实际上主要研究的是怎么样利用计算机来对数据进行分析的理论和方法。

我们可以看到,其实机器学习走上历史舞台是因为要解决知识获取的瓶颈,但恰恰在20世纪末,我们人类发现自己淹没在一个数据的海洋里面,我们需要对数据分析,我们需要这样的技术,而机器学习恰恰在这个时候走上舞台了,所以给我们提供了这个机会,我们对他的需求就迫切的高涨。

今天我们都说是在"大数据时代",但其实光有大数据并不意味着得到了价值。大数据就好比是一个矿山,我们拥有了矿山,如果要得到里面的价值,必须要有很强大的数据分析技术,而这个数据分析技术是什么呢?今天我们主要就是要靠机器学习。所以在大数据时代要让数据发挥作用,就离不开机器学习技术。所以可以看到,机器学习已经可以说是无处不在了,不管是互联网搜索还是人脸识别,还是汽车自动驾驶,还是火星机器人包括美国总统大选甚至军队的战场数据情况分析,任何地方只要你有数据只要你希望用计算机来帮助你做数据的分析,你就可能使用机器学习技术。可以说今天我们在这里有这个论坛,是因为人工智能现在很热,而人工智能有这个热潮,其实恰恰就是因为机器学习,尤其是里面的深度学习技术在过去十来年里面取得了巨大的发展,在大数据时代发挥了巨大的作用。

我们现在有很多的问题,有很多的企业是基于深度学习技术来做的,它可以解决很多问题,但是大家要注意到深度学习、机器学习、人工智能这三者之间的关系:深度学习是机器学习的一个分支,而机器学习又是人工智能的核心领域,但它并非人工智能技术的全部。深度学习虽然取得了巨大成功,但并不能够包打天下,还有很多其他的机器学习技术在很多方面在发挥作用。

机器学习的技术局限与下一步发展

关于机器学习下一步发展的看法,下面谈谈我个人的一些粗浅的思考,这些看法很可能是错的,仅供大家批评参考。

我们今天谈到机器学习的时候,很多对机器学习熟悉的人会想到什么呢?可能有些人想到的是算法,有些人想到的是数据。我们可以说,今天的机器学习就是以"算法加数据"这么一种形态存在的。在这种形态下,我们的技术上存在哪些技术局限?我来列举一些。

数据需求大

首先,我们可能需要大量的训练样本。大家可能说今天我们是大数据时代,那么大量的训练样本这件事情可能已经不再是问题,其实这里面有几个典型的情况能够告诉我们,这其实还是一个很大的问题。

首先在有些应用里边,可能我们的样本总量很少,比如说我们在做油田定位的时候,那这个数据必须通过人工诱发地震才能获得,所以你要获得这样的数据成本是非常高的,不可能有大量的数据去用;

第二种情况是数据可能很多,但是我们真正关心的很少,比如说我们在做银行的这种欺诈检测的时候,每天一个银行的信用卡交易数据可能有几百万上千万,但是其中真正的信用卡欺诈的数据可能很少;

还有一种情况,我们数据的总量很多,但是我们已经标注了结果的东西很少,比如说我们要做软件的缺陷检测,我们有大量的程序代码,但是程序代码里面真正把缺陷标记出来的,这样的数据是非常少的;

环境适应弱

第二,我们今天训练好了一个机器学习模型,之后环境如果稍微发生变化,就可能导致这个模型失效,至少是大幅度降低它的性能。比如说在我们一个传感器的世界里面,我们放出去一百个传感器,一个月之后有60个传感器失效了,这时候我新部署60个传感器,那你说我还是一百个,那我原来的模型能不能用呢?很抱歉,这时候模型的性能会大幅度衰减,因为你很难把新的传感器放到原来的位置,它发出来的信号质量和强度和原来也会有很大的变化,这时候我们的模型可能就已经很难适应了,所以这又是一个很重要的问题。

可解释性差

第三个问题很多人都知道,今天的机器学习系统绝大多数都是黑箱,我们能做出预测,甚至是非常精确的预测,但是我们很难解释为什么做出这样的预测,这就会导致这样的系统在一些高风险应用里面很难使用,比如说我们要做地震预报,我们说明天要地震,请大家撤离。领导肯定会问那你凭什么做出这样的决策?如果这个模型是黑箱,他只能告诉你,我就告诉你肯定是这样,具体什么理由我也不知道,如果是这样的话,谁也不知道是不是瞎蒙的,那这件事情肯定不太容易采纳这个建议。

性能差异大

这其实还有很多别的问题,比如说今天我们在使用机器学习技术的时候,即使对同样的数据,普通用户所能得到的结果和专家所能得到的结果,这中间的差别可能非常的大,怎么样使用这个数据怎么样使用这个模型,大家的知识和经验的差别会导致结果模型巨大的差异。

数据分享难

此外还有一个问题可能提到的人比较少,我举一个例子,比如说我们现在有大医院,他有很多的病例数据,如果我们现在要做智慧医疗,那他基于这些数据可能做出非常好的诊断系统。而我们的社区医院的病例数据可能比较少,直接基于它的数据很难做出这样好的模型,现在社区医院说你这个大医院能不能帮帮我?大医院说我很愿意帮你,但是这件事情就算它愿意帮这个忙,可能也很难帮得上,因为一旦它要分享他的病例数据,马上就会涉及到数据隐私、数据所有权、数据保护等等的问题,所以这里面有一个数据分享的墙。

学件

还有很多其他问题。对于几个每个方面,今天我们都有研究者在做相关的探索,但是如果把所有这些方面割裂的一个一个的去解决,可能就很难摆脱头疼医头、脚疼医脚这样的一种现状。所以我们就想,有没有可能在一个整体性的框架之下全面的去考虑这些问题。最近我们提出了一个想法,我们它叫做学件(Learnware)。这是个什么样的想法呢?很多人可能在自己的机器学习的应用中已经建立了很好的模型,他们也很愿意把这些模型分享出去。那假设我们有一个市场让大家来分享这些模型,以后一个新用户想要做他自己的机器学习应用时,就不用自己从头去建模型,而是可以先到"学件"市场上找一找有没有合适的,可以拿来用做基础。

比如说,用户要找一把切肉刀,那他肯定不会自己从采矿打铁开始重新造一把刀,而是先看看市场上有没有这样的刀,如果有合适的更好,即便没有合适的,比如说找到一把西瓜刀,那他就可以拿回去然后用自己的数据重新"打磨"一下,可能这就成为很适用的工具了。所以,这个想法的关键是希望能够部分重用他人的结果,而不必"从头开始"。

为了达到这个目的,我们设想的学件是由两部分组成,一部分是模型(Model),另一部分是用于描述这个模型的规约(Specification)。模型需要有满足三个重要的要求:可重用性、可演进性、可了解性,规约要能够给模型提供足够的描述。这些在技术上现在大概都有一些初步的想法和探索,今天就不展开了。如果学件真能成为现实的话,可能我们刚才提到的这些问题都可以得到全面的解决。我们期望也许经过10到15年的探索以后,也许我们机器学习可以从"算法加数据"这种形态过渡到未来的这么一种学件的形态。

最后,因为我今天是代表江苏省人工智能学会,用两分钟谈谈我们江苏省的人工智能事业。我们可以做两个判断,江苏省有国内前列的人工智能研究实力,还有国内前列的人工智能产业基础。在国内的各个省市里面,同时具备这两个条件的地方并不多。

下面给大家看几个数据,是关于人工智能研究力方面的一点反映。在2017年的国际人工智能领域的顶级会议IJCAI上,我们中国本土单位的录用论文数首次超过了美国,这个里面各个省区的分布,北京大概占30%。江苏省14%,居第一和第二位。我们再看看过去这几年发展增长的速度,中国计算机学会人工智能大会在2013年的时候,北京录用论文是江苏省的两倍多,2017年江苏是北京的两倍,这在一定程度上反映出过去这么几年的时间里面,江苏的人工智能基础人才发展可能有一个快速的增长。江苏省人工智能学会8月28号在省科协指导下成立,得到了省科技厅、经信委、民政厅等很多单位以及高校科研院所和企业的支持,也反映出各方面对人工智能事业的发展非常重视。

在人工智能时代什么东西最贵?什么最缺?答案大家都很清楚,那就是人工智能人才。可以说,有多好的"智能人工",才可能有多好的"人工智能"。江苏省在这方面有很好的基础,所以我相信江苏的人工智能事业前途应该一片光明。谢谢大家。

继互联网引发第三次工业革命之后,以大数据驱动的人工智能技术正在推动第四次工业革命。以下为杨强教授对于人工智能与大数据的一些答问与思考:

一问:人工智能与大数据融合是如何兴起的?

杨强:人工智能与大数据崛起于21世纪初,当时新兴的搜索引擎Google和百度把人工智能驱动的推荐系统用在广告上,结果发现效果非常好,远远超过预期,而且数据越多,效果越好。但当时没有人意识到在其他领域也是如此。

真正的转折点是ImageNet的兴起。ImageNet是世界上最大的图像识别数据库,其设计初衷是用予视觉对象识别研究。该数据库由美国斯坦福大学和普林斯顿大学的计算机科学家建立,被公认为是深度学习革命的开始。ImageNet大量的图像数据把错识率降低了10%。由此表明,深度学习和大数据的融合可以帮助掌握极其复杂的计算。

二问:您如何定义深度学习与大数据的关系?

杨强:如果人工智能系统设计得好,产品就会更加便于使用、更加精准,因此也更加有用,这样就会带来更多用户。随着用户量的增加,数据也会随之增加,这反过来又会改进人工智能系统。二者是一种互相强化的关系。

大数据和人工智能可以融合成为一种新的人工智能,称作「数据智能」

三问:您能定义一下什么是大数据思维吗?公司如何才能适应这种思维方式,需要做出哪些改变?

杨强:大数据思维,第一点就是有意识地去收集数据。也就是在开展业务之前,先要想好如何收集数据。

第二,数据收集和核心算法密切相关。要从算法当中了解自己缺少什么,然后有的放矢地去收集数据,包括收集不同来源的数据等。

第三,要形成一个闭环。软件系统提供的服务要能刺激来源产生更多的数据,而这些数据又能够回到系统当中,从而形成闭环。这就使系统能够实现持续的自我改进和自我完善。闭环需要采用特殊设计,它与以往商业所用的设计大不相同。

图:《反思·二》(Reflection #2),巴西艺术家拉克尔·科根(Raquel Kogan)的装置艺术作品,计算机生成的数字投射在漆黑的房间,使观众成为了作品的重要组成部分。

四问:您能否进一步说明什么是人工智能与大数据的闭环设计?

杨强:首先要考虑的是数据提供方,比如用户。所有的用户行为都要以数据的形式记录下来。其次是服务提供方,比如像中国的移动钱包微信支付和中国电商网站淘宝。根据数据生成智能反馈,目的是了解用户的需求。用户将反馈数据提供给服务方,服务方又将服务数据提供给用户,这样就形成了闭环。

要想迅速发展,第一,闭环要足够短,最好不要有人的参与,因为有了人的参与,闭环就无法彻底实现自动化。第二,要经常更新环路,最好一天进行多次更新,因为这样才能确保系统不断得到更新。第三,必须持续进行更新,这样才能促使用户不断提供反馈。所以,这个过程总结下来就是三个字:短、频、快。

「人工智能的第二阶段将重塑人类社会,赋予其新的形式。」

五问:在您看来,这个闭环实际形成需要多长时间?

杨强:我认为,人工智能发展会分为两个阶段。第一个阶段是所有行业都会去尝试使用人工智能。例如,安保服务会用人脸识别技术,银行部门会用人工智能技术进行风控,等等。这些都是为现有产业服务的独特技术和解决方案。

第二阶段将会出现以人工智能为核心的全新产业。例如,将人工智能作为核心技术的银行,它在投资、服务、信贷等方面可以完全采用人工智能,只有在进行微调时才需要职员。此外,银行也有可能建立全新类型的客服系统。

我认为,第二阶段才是人工智能真正带给人类社会的未来形式。就像互联网刚刚兴起的时候,在第一阶段,传统书店做了一个网页,就认为自己是网上书店了,但事实并非如此。到了第二阶段,亚马逊之类的网站出现了,它们与传统书店完全不同。

六问:大数据和人工智能的结合也可能给信息流通和社会公平带来威胁。如何保障大规模的数据正常流动,而又不侵害个人隐私呢?

杨强:利用大数据和人工智能技术创造出的产品,会带来极佳的新商业模式。但其大规模应用的前提是要确保用户隐私。这里有三点考虑:

首先,我们要有一套法律和社会规则来保护数据的所有权,明确数据在何处可用、在何处不可用。我认为,用户数据应当分门别类。比方说,红区数据不能动,黄区数据只让某些人接触,绿区数据则人人可用。当然,目前对数据的划分还莫衷一是。另外,也没有法律明确阐述责任人的定义,以及违反这些法律会受何处罚。

其次是从技术方面保护数据隐私。比如,第四范式公司(一家总部设在北京的人工智能技术服务提供商)目前正在研究用“迁移学习”来保护隐私,这是一个比较新的领域。它可以协助不同企业彼此交换数据,比如说,A做了一个模型,然后把这个模型迁移到B场景,数据不是在A和B之间直接交换,而是被载入了模型之中。这样就可以更好地保护用户隐私。

第三,我们需要深入研究用户隐私和数据定价。比如说,用户通过人工智能推荐系统在网上点击了一个广告,这个推荐系统是不是也应该从中得到一些好处呢?如果搜索引擎有收入,是不是应该分给用户一些?这些问题都值得探讨。

未来几年,人人都会认识到人工智能“落地”的重要性,我们需要更多地关注人工智能如何“落地”,以找到适合应用人工智能的领域。目前来看,金融、互联网和无人车都是比较适合人工智能“落地”的领域。

七问:从全球角度来看,大数据和人工智能相结合会对发展中国家产生什么影响?

杨强:我认为大数据与人工智能技术可以使一些新兴国家赶上、甚至超过传统发达国家。因为在未来,经济竞争不仅仅是比拼金融和经济的规模,更重要的是比拼数据的规模,比拼拥抱数据经济的速度。比如说,中国互联网和移动互联网的迅速发展,使我们得以收集大量数据。这也将加速中国人工智能产业的发展,世界格局可能会因此而改变。

另一方面,一个国家如果已经拥有良好的基础设备和高质量的教育,就可以利用人工智能提高生产效率,就像当年的工业革命一样,蒸汽机的使用让一些国家得到了快速发展。

图:《地下实验室之歌》(Songs of Angura)是一个互动展览项目,旨在介绍关于收集、处理和使用地点和人类行为数据的专门研究领域。

作者介绍:

杨强(中国):人工智能和数据挖掘领域的国际领军人物,国际人工智能联合会(IJCAI)首位华人主席、国际人工智能协会(AAAI)院士、香港科技大学计算机科学及工程学系主任、第四范式联合创始人兼首席科学家。

王超(中国):网易新闻智能工作室记者兼主管,负责报道人工智能领域的重大事件。


2020年疫情使得人们需要更加“非接触式”交互,而VR/AR正是一项打破原本时空界限的技术。除了VROOM,上个月被引入VR Zoom会议的Space,上周HTC推出的Vive Sync应用都是探索。技术的“魔力”可能迟到但不会缺席。在疫情的“社交隔离”前期,许多人疑惑为什么AR/VR技术没有发挥营造“虚拟在场感”的优势,产生让人眼前一亮的应用。现在来看,一切都在进行当中。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
宋继强:机器智能的“感知-认知-执行”人机交互闭环
机器学习和人工智能这么火,初创企业在哪些领域会有机会?
人工智能领域,面对大公司的竞争,创业公司的机会在哪里?
零基础学AI:开启机器学习项目的 3 个步骤
喂养一个机器人
网络经营原理
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服