科大讯飞轮值总裁吴晓如：人工智能如何颠覆高考？

6月7日-8日两天，对于中国绝大多数考生来说，是将要改变他们人生的日子。

不过，今年的考生有些不同。除了人类以外，还有新的一类考生：AI，今年日本人工智能 Torobo-kun参加东京大学入学考试，已经有学霸君及四川的准星云学两家公司宣布将要以自己制作的 AI 挑战数学高考。未来，还有更多的 AI 公司准备跃跃欲试，准备做高考界的 “ Alphago ”

不过，在这个 AI 挑战高考的热潮中，有一些问题仍然值得人们思考：为什么要让 AI 参加高考？AI 能够考到多少分？AI 会如何参与高考阅卷 , 尤其是主观题和作文？AI 会如何颠覆和改变现有的教育？

昨日，科大讯飞轮值总裁吴晓如与硅谷前沿技术教育平台 Udacity 中国区的负责人 Robert，昨天通过斗鱼直播平台进行 “人工智能颠覆高考” 的尖峰对谈。以下是其中部分的摘录。

Robert：到现在人工智能的技术有什么样的一些变化？现在高考机器人已经可以做出来了吗？

吴晓如：应该说就是在过去的一段时间里，大家可能是在做学科领域的知识图谱的构建。第一就是要让机器懂数学。什么叫懂数学？因为机器不是人，它要有一种它的表征的方式，所以我们要为这个机器构建各种知识的知识图谱。第二个实际上要在自然语言的理解上下功夫，这其实不是一件很容易的事情，要做很多工作。

现在在数学这个学科上，机器已经能够做对很多的数学题目。但高考不是我们的核心，我们真正的目的是在这个过程中，能够实现一系列技术的突破。这些技术突破要在应用界形成一些反弹应用，叫“沿途下蛋”。比如，现在在电话客服里面，可以作为一个机器接线员可以帮助人工接很多的电话，可能虚拟的机器人可以走到老师的身边，可以变成老师的一个AI的助手，帮助老师处理很多教学中的事件。

我们中间有一些研究成果，实际上已经进入到社会里面，成为大众应用。在今年全国人大的时候，我们庆峰董事长给我们总理演示了一段我们的机器翻译系统，就是口语对口语的翻译系统，其实这个也是我们整个项目中间的一个（应用）因为在英语考试的时候本身就要做各种翻译。再比如我们现在在高考的阅卷上，可以帮助老师去更有效率的或者越更准确的去阅卷。

Robert：那你觉得现在我们这个讯飞的高考机器人就是在我们高考能考多少分？我们还有多远要走？

吴晓如：实际上这是比较复杂的一个话题。第一，现在我们这个机器人能考多少分？我还真不能说，因为第一个高考是一个比较严谨的事情。第二个我大概先要讲一下讯飞在整个863这个项目里面我们的定位和角色，其实这个项目聚集了国内大概是七八家国内当时最优秀的一些单位，包含我们中科院、北京大学、清华大学，我的印象中可能还有南京大学、成都电子科技大学，包含了最优秀的一些研究机构，讯飞是这个研究机构里面的牵头单位，我们叫牵头项目源单位，我们执行总裁胡郁是这个项目里面的首席科学家。讯飞还有一个角色，就是我们是这个项目的测试单位，测试单位就是比如说做语文的、做数学的，我们提供一些底层的平台技术给大家分享，但是比如说有专门去做语文的、做数学的，他们做的最后的这个结果怎么样？要测试。

其实这个测试不是一件很容易的事情，举个例子，我现在拿一套题目，这套题目已经已经在网上能找到了，那我通过简单的搜索手段，我也能把这些题目很好地解答出来，那这个算不算机器能够解答这些问题？肯定不算是。所以我们在测试的时候还要提出一系列的测试的方法，要保障机器是通过真正的后台知识的本体积累和推理分析，能够就像人一样把一个题目进行解答，所以讯飞做的测试机构，现在因为还没有对我们各个试卷在公开公正的情况下进行一个全面的测试，所以你讲多少分？可能在大家在场的情况下还不能说这件事。

从另外一个方面来说，现在我为什么说这个事情比较复杂呢？就是说第一个技术在不断的进步，但是高考本身命题也在不断的进步，我们经常在学习的时候，我们讲的高考是为国家选拔人才，我们在学习的过程中讲各种知识要活学活用，其实现在高考的题目越来越灵活，越来越综合性，所以这些题目的处理对机器来说越来越困难，所以假定我们当时是在2013年和2014年，我们在这个课题的时候，把2014年作为一个静态的点来看，我觉得我们到2019年的时候通过2013年的高考绝对没有问题，但是我们现在也和有一些考试机构的专家在一起沟通，发现他们在出这个题目的过程中，很多的题目就必须包含你人都有很多的一些理解，你要做很多中间一些逻辑性的转换，才把一个题目能做得好。所以我觉得从这两个动态的变化，技术在动态的变化，考试的题目也在动态的变化，机器要到2019年或2020年的时候机器人通过那个时候的考试，实际上我觉得还是有一定的挑战，这个就是要我们这个项目组里面大家要做更多的努力。

还有从一方面来说，就从整个未来高考为社会选拔人才的角度。我们讲社会进入到了一个人工智能的时代，因为人工智能在高速发展，现在讲人工智能都会下围棋了，他还可以干很多事情。我今天举了例子，还可以做翻译，以后可以做那种速记，可以做电话接线员。从一般逻辑来说，以后通过高考的大学生们，他应该不只是会做机器会做的事情。

当时我们做高考机器人时候，其实美国也有一个高考机器人，华盛顿大学的图灵研究中心，他们希望他们的机器要通过美国的生物考试。据说日本也有一个同样的计划，希望他们的这个机器是能够通过东京大学的考试。东京大学（在日本）是最好的学校，尽管他的机器已经能够相当于日本国内的排名前百分之30的水平，但是讲它要通过东京大学（的标准）我也觉得（目前）基本不可能，因为东京大学是比较顶尖的学校。当然就是从技术的发展的角度来说，我们觉得达到前 20% 还是比较有信心的。高考的压力还是不仅在孩子身上，还要在这个机器人身上。

Robert：这个机器人我看到他还能阅卷，包括识别大家写的主观题，作文，对吧？吴总能不能介绍一下，就是这个开发作文阅卷的机器人难点是在哪里？技术上来看。

吴晓如：实际上我们今天看到这个阅卷，是对作文的阅卷，实际上作文的阅卷它是一种主观的，整个我们在考试中，它实际上是有客观题和主观题客观题，比如说ABCD，你选了以后他是不会评分，是不会有差异的，但是作文题你即使安排两个水平比较高的老师，第一组学生的作文进行评阅的话，肯定还是有差异的，所以在这个评阅过程中，需要在从很多不同的一些维度，对这篇作文的水平进行评判。

整个主观题的自动评阅技术，实际上讯飞一条线走过来，走了很长的时间。我们在最早切入这个技术的时候是从口语开始，我不知道你有没有参加过中国的普通话考试，在中国你要当老师的话，或者记者、公务员有些窗口型的行业要通过普通话考试，最早的时候普通话考试它也是一种主观性的，需要你朗读一些句子，说一些话题。

我们当时第一次因为最早讯飞是做语音识别，我们是通过这个评分来逐步的进入到了教育相关的行业里面，讲起来比较有意思。有一次，一个我们教育领域的一个主管的领导到讯飞来，我们给他介绍了相关一些技术语音识别的技术。他看了以后，当时就产生了一个联想，因为他是那时候是主管普通话考试的。所以当时就是说这个技术我们很需要在中国考普通话的应用上。

（考普通话的应用）实际上以前是一件很麻烦的事，大部分需要测普通话的都是大学生。我给你举个例子，比如说像北京的首都师范大学，大概有六七千学生以上，那你这六七千学生要都要考普通话，每个考普通话的考生需要2到3个，那时候叫测试员，测试员2到3个老师花10到15分钟给一个人测，那你就可以想象到要把六七千学生测完是一个多浩大的工作量，所以那时候他跟我说了：你们能不能去解决这个问题？

（我们）后来到一些师范大学去调研，就发现几件事情，第一件事情是发现整个考试组织难度非常大，就是把一栋非常大的楼封起来，要考好几天才能把这些学生考完，我就觉得这个事情技术是有用武之地。第二个就是测试，（我们）当时就问，一个学生或一个老师给（学生）测就行了吗？为什么要两个老师给他测，三个老师给它测？他讲因为这是主观评分，一个老师经常测试的时候可能是会有不准的地方。那我就在想，机器该怎么去测？最后是采用机器学习的方式去测的。

我们当时是怎么做的呢？第一个，我们要选定一个学习的对象，但是请国内各个方面的语言专家给我们推荐哪些人是在语言测试上比较牛的。最后找了一组最权威的专家，我们请这组专家给我们留下了很多的测试样本，以这些测试样本作为我们机器学习的对象。（相当于用）机器建立一个模型，用这个模型来测试。在测试普通话的时候，我们在这个技术上花了很长时间。我们当时研究团队里面有一个同事有天跟我讲，他做了几次试验都觉得应该差不多了。但我们怎么来评估他讲差不多？我们怎么表明我这个技术可用了？当时，我们就在现场考试，我们就把机器当成是一个测试员，当时现场考试是有两百个考生在考，同样我们也是一样的，请了一组高水平的专家对这两百个考生进行了评分，评分完了以后把这一组专家评分的平均分作为标准，当时现场是有20个老师在给这200个学生在测，机器当成第21个人来测，后来测试成绩出来以后，我们讲两个指标，第一个21个人和机器结果都和专家的平均分去比，丝毫不差。第二个比我们叫相关度，就是对一组学生排序，专家有一组排序，我们机器有一种排序，结果（专家的）第一名，（机器）排序最高。

当然，对整个普通话测试来说相对来讲，因为它是有一个规范的，所以难度比这个作文稍微小一些。但其实沿用的是同样的思路。

Robert：普通话有两三个老师去做这个评判，这些老师可能有些是北方的，有些南方的，有西方的，但他们都会有自己的评判标准。机器人改卷如何应对这些主观性的因素？

吴总：机器学习，如果让他学的是一个水平很差的（样本），他肯定最后就是有问题。为什么呢？机器学习要有一个学习的对象和标准。我们希望人工智能学习顶级专家，学习结果能达到一流专家的水平，能超过大部分的一般人，这个事就是对很多领域里面我们机器学习提出的一个方法论，所以对于刚才你讲的这个问题也是这样的。

人说普通话不标准，可能因为是南方人不标准，带南方口音，也有可能是我们西北人，带西北的口音，但是实际上这个测试专家来说要达到一定的水准才能测试。他受过很多的训练，然后才能对这个人进行普通话的打分，所以机器要去学习这些训练有素的顶级专家。

我们在高考评阅作文的时候，我们看到这个评卷的过程也是比较严谨的，一般的来说，首先要一些比较厉害的，就是专家对一组样本进行打分，打完分以后，所有要参加打分的老师对这组也要去打分，打完分以后他们要在一起讨论打分的一些原则，有哪些原则，然后每个老师打分的尺度，如果和这一组专家的打分尺度存在一些偏差的话要调整，它有点像最后测试的专家，要有个校准的过程，就是机器学习。其实学的就是这些训练有素的专家评分的过程，应该说是学习的对象，有保障性。

当然我们今天在讲高考，我们讲也要大家相信这些高考的评分老师，他们的评分应该还是受很严格训练的，我们说一下作文的阅卷，技术方面是什么差别？实际上作文评分还是离不开学习的问题，我们一篇作文题目，写了作文以后了，机器给他评分之前，一般的来说我们需要同样的这一篇作文就随机的去抽取有高分的、低分的，不同代表性的，大概要抽取出来500份，这个500份也是高水平的专家去打分。打完分以后机器去学习，学习比如说篇章结构、里面的词汇、词句之间的逻辑性，然后不同的段落时间和语义的关联度，他要学习这些维度和最终给的分数之间的关系，当然我说的只是维度中的一小部分，它能有非常多的维度机器要去学习，通过这些维度和分数的关系，建立一个模型，从中间把这些维度抽取出来，输入到模型里面去用，通过这个模型得到一个最终的分数，这就是机器学习。

但实际上在作文评分里面，机器里面是有一些文章是不能评的，大概是什么呢？就是我刚才讲500篇作文，他不是在学习吗？这500篇作文它其实是代表了很多类别作文的范式。（处于这种范式的文章）机器就能够去打分，不是处于这些范式的文章，机器它其实是有一种技术指标，它会把它抽取出来，抽取出来的部分会交给我们专家去打分。所以这个地方其实大概百分之七八十的工作量交给机器了，机器也很清楚地知道，比如说有一些特别有创意的500篇，里面的范式不能覆盖的，比如说还有一些可能写得非常离奇，乱七八糟的，这些东西机器能够把它找出来，找出来的部分要让人去把关。所以就现在整个在作文评分上的应用来说，一个是机器可以处理一部分，和人形成一个补充，可以降低人的工作量，然后把人的优势和机器的优势很好地发挥出来。

Robert：那你觉得在教育行业里面，AI会对教育这个行业会有什么影响？

吴晓如：实际上我觉得从现在我们整个实际的一些应用情况来看，整个人工智能在教育里面会发挥非常大的作用。其中最重要的作用，尤其是在中国，因为中国的教育资源尤其是高端的教育资源其实是比较缺乏的，中国在很多中学、小学教育里面，它是大班子，一个班有40个、50个学生，这么多学生的情况下，老师很难能够去关注每个学生的学习的情况。但实际上我们未来的人才的培养，其实一定意义上我们又希望去培养具备有个性化的人才。这就有矛盾了，中国的教育行业尤其是中小学的老师非常辛苦的，他的工作量已经非常大了，这时候怎么办？这时候人工智能技术就正好可以发挥作用了。

比如说针对一个孩子上课和老师互动的情况，做作业的一些情况，所有这些东西都可以被转换成数据。有了数据之后，人工智能他可以对学生进行分析和画像。你一个学生，你的知识点问题是在一些什么地方，对你有问题的地方机器就能描述出来，你在这些地方应该去加强训练，然后对于你没有问题的地方，可能你就不用在这个上面去花很多时间。

由这个我们就可以引导到什么呢？举个例子，老师们创造了一种办法，把课堂分成三截，45分钟的这个课分成三个环节，这三个环节结合人工智能的一些应用，把它课堂的效率整个提高了大概30%左右。45分钟的课，他现在差不多30分钟左右就可以讲完，它是怎么提升的？

可能我们记得以前在上课的过程当中，老师讲完一个知识点，然后会问一个问题，然后会请一两个学生来回答，回答完了以后老师再去讲下一个环节。实际上在现在，我们用数字化构建了一种人工智能的课堂的过程中，老师讲完一个知识点以后，每一个学生可以和老师都进行互动，通过这种互动的过程中，后台就在分析这个知识点是不是大部分的学生都已经掌握了。如果绝大部分的学生都已经掌握了，老师迅速的就跳过了，这个热点已经讲清楚了，我讲下一个。所以老师就可以把课堂的时间集中在一些难点或者需要他花比较多的时间讲解的一些问题上。原来我们实际上在教学环节中，我们可以看到老师的教学的节奏是比较均匀的，各个知识点的环节可能放的时间都差不多，所以就通过这种，我们讲可以让老师调整自身的教学，这是我们觉得非常重要的一个好处。

除了老师的教课过程外，学生学习的过程也可以个性化。在很多以前的教学方法中，课后老师会给学生布置一些作业，去了解一下学生是不是掌握了当前所学的东西。那大部分以前布置的这些测试题是一样的，所有的学生都一样，这个结果就是什么呢？好学生就是成绩好的学生觉得这样太简单了，跟不上的学生觉得做起来又特别的吃力。而人工智能在后台，它能及时的对每个学生所作课堂表现和测试题的一些评价，可以绘制出学生掌握的知识结构图。根据这个结构图对学生的出现的一些有缺陷的地方、不足的地方提供一些参考的知识点的视频让学生去看。然后同时给学生布置的一些题目，就是学生就在这个上面，特别需要训练的，实际上他是通过后台对每个学生的分析，给每个学生画了个像，他这样的话让学生更多地把时间花在自己叫知识的黑洞上。这样的话，让学生提高他的效率，不用把时间花在一些重复的，已经会的事情上，同时他可以把时间更多的解放出来，可以出去搞搞体育活动。

Robert：有一个网友就是写了一个问题进来，因为它看到美国IBM研发的机器人参加了美国智力问答，我的了解，这个机器人每次看到一个问题会到一些知识库搜索一些相关的内容，综合出来一个最可能对的答案？那么讯飞的技术跟这个是类似吗？

吴晓如：应该说这里面这个技术有类似的地方也有区别的地方。有类似的地方，肯定它后台要有一个它的知识库。第二个就是对所提问的问题，应该能够去理解这个问题，然后理解问题以后，它才能到知识库里面把这个可能它认为追求的正确的答案调出来，这个从理解、从逻辑分析和决策来说，我觉得这个应该是有很多类似的地方。但是从我们要完成的高考任务来说，比那个任务要难很多，原因是第一个，如果你看过去的话，你会看到它每个题的问题不会很长，大概我看一般的来说就是一行字的一个句子。但是你看现在高考中的很多题目，这很讨厌，可不是一句话的问题，它经常是10句话，20句话。所以它一个题目的字变越多，实际上它这个题目内部的逻辑关系就越复杂，一个题目里面绕来绕去的转折点就会越来越多。比如数学，数学它里面的东西如果是一个很容易就用定理能够把它实现的东西，如果它要把这个定理绕来绕去，就很难，所以题面的理解上会很困难。

第二个，这个里面大部分是一些偏常识性的理解，就理解完了以后根据常识，在后台能抓一个答案过来的。但是高考里面比如说数学，比如说像一些题目，这些题目是需要看计算机是怎么去表证一个数学定理的，数学定理之间的逻辑关系到底是什么样？那人工智能这个技术要怎么去？把这种知识要转换成计算机可以理解的知识。我们经常讲一些叫知识的发现或者要构建一个计算，对数学、对语文这些知识理解的图谱，所以就从这个意义上来说，应该比那个要难。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。