深度学习登台语音识别，AI赶超人类

本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第五回。通过该专栏，陈宗周先生将带领我们回顾AI在过去60年走过的风风雨雨，也前瞻AI将如何塑造人类社会的未来。

对专栏有任何建议和意见、对AI的历史和发展有任何问题，欢迎在评论区留言，陈宗周先生会亲自回复一些重要的问题，并有可能通过直播的方式，与读者朋友一起讨论AI的历史与未来。

陈宗周是《环球科学》杂志社社长，《电脑报》创始人。

《圣经》中记载着这样的传说，远古人类都讲一种语言，他们希望建造一座通往天堂的高塔，这就是通天塔，也叫巴别塔（Tower of Babel）。为了阻止人类的计划，上帝让人类说不同的语言，分成不同的民族，在语言上无法自由沟通，巴别塔计划由此告终。

传说有点悲凉，却反映人类一直存在的美好梦想。重建巴别塔，也成了人类语言沟通和共识达成的象征和代名词。现在，AI让人类的梦想一步步走向实现。

让人类拆掉语言的樊篱，实现无障碍沟通，这项伟大的AI工程有三块重要基石：语音识别、自然语言理解、语音合成。三块基石是三大类技术，分别解决人类语言交流中三个问题：听清楚别人说什么、理解别人说什么、根据听到和理解的去回答别人。

语音识别，主要解决“听清楚别人说什么” 这个难题，这是AI中的重要技术领域。近年来，由于深度学习技术的应用，语音识别取得了长足进步。

贾里尼克与统计语言学

就像AI领域中其他分支学科一样，语音识别历史同样悠久。1952年，贝尔实验室的K·H·戴维斯（K.H.Davis）等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年，英国人彼得·迪恩斯（Peter Denes）等研制了第一个计算机语音识别系统。但是，从上世纪50年代到70年代，语音识别研究走了一个很大的弯路，那就是想简单地用电脑模拟人脑，局限于人类学习语言的方式，认为必须先让机器理解自然语言。在当时计算机能力受限的情况下，这样的研究鲜有进展。

直到1970年后，统计语言学的出现打破了沉寂。而领军人物，就是IBM沃森实验室的弗雷德里克·贾里尼克（Frederick Jelinek）。

弗雷德里克·贾里尼克

贾里尼克是出生于捷克的犹太人。父亲死于纳粹集中营，他和母亲移民到美国。他是靠为东欧移民特设的全额奖学金进了麻省理工学院学电机工程，在那里遇到信息论创立者香农、语言学家罗曼·雅各布森（Roman Jakobson），以及邻近的哈佛大学语言学家诺姆·乔姆斯基（Noam Chomsky）等。这三位大师在研究境界上比同龄人高出一筹，他们对贾里尼克后来用信息论解决语言问题产生了重要影响。

1972年，贾里尼克到IBM沃森实验室做学术休假访问时，无意中领导了语音识别实验室，两年后他选择留在IBM。

贾里尼克等提出了统计语音识别的理论框架。语音识别之前被认为应该用模式匹配来解决，而贾里尼克用统计思路来解决，简洁地用两个隐马尔可夫模型（Hidden Markov Model）——声学模型和语言模型来清楚概括语音识别。这个框架至今仍对语音和语言处理有着深远影响。

1999年，国际声学、语音与信号处理国际会议（ICASSP）在凤凰城召开，早已当选美国工程院院士的贾里尼克在大会上做了一个报告，题目是《从水门事件到莫尼卡·莱温斯基》。这倒不是哗众取宠，而是两件事都和语音有联系，而且两件事时间跨度和语音识别同样很漫长。

导致尼克松、克林顿下台的水门事件和莱温斯基事件，都与语音处理相关联，这两件事从发生水门事件的1972年，到因莱温斯基事件弹劾克林顿的1998年，时间跨度26年。隐马尔可夫模型处理语音，也是从1972年开始，一直持续到贾里尼克作报告时还在进行，而且还将延续下去。

隐马尔可夫模型最初是由L·E·鲍姆（L.E.Baum）和其他一些学者发表在一系列的统计学论文中，随后在语音识别、自然语言处理以及生物信息等领域体现了很大的价值。这个模型源于20世纪初的苏联数学家马尔可夫，20世纪70年代后美国的一些大学和研究所开始把这个模型用于语音识别，技术上集大成者是英国的剑桥大学。

对隐马尔可夫模型的研究，不但鼓舞了语音识别研究者们，甚至也带动了政府的关注。从1971年开始，DARPA (国防先进研究计划署) 投入 1500万美元，组织麻省理工学院、加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、斯坦福研究所（Stanford Research Institute，SRI）等著名等高校研究机构，计划用三年时间建立计算机连续语音识别系统。这是当时规模最大的语音识别项目，美国把语音信息研究作为战略基础研究。

剑桥语音的黄金十年

1984年，NIST（美国国家标准及技术研究所）和DARPA做了一件类似于后来图像识别领域ImageNet的大事，它们决定出资开展语音识别评测标准的研究，希望能科学评估各种语音识别系统的性能。这件事影响了语音识别的历史。

德州仪器公司（TI）、麻省理工学院和SRI合作构建了第一个声学-音素连续语音语料库，并制定了数据采集标准，成为世界第一个语音评测平台。这一被称为TIMIT的数据库应用至今，语音识别研究者们有了评测算法的标准数据集。NIST举办的语音识别评测全球竞赛由此开始。

NIST举办的语音识别评测全球竞赛见证了剑桥语音的腾飞

语音识别所研究的数据类型历经几次升级，由最早的孤立词语音发展到自然连续语音。然后，选取朗读“华尔街杂志”（Wall Street Journal）的语音录成标准数据库。这个数据集的词汇量大约为5000到20 000，“大词汇连续语音识别”就始于此。上世纪90年代中期以后，广播新闻这样自发产生的连续语音、电话对话语音、丰富的语音文本、多语种语音等等也不断加入评测，NIST大赛越来越具有挑战性。

大赛1988年开始，1992年扩大到美国之外，成为全球大赛，剑桥大学等非美国机构，在那一年加入。1993年，系统升级，测试难度陡然增加，剑桥大学却夺取冠军。一战成名，剑桥语音成为全球语音识别界关注的焦点。

成功的秘密在于，从1989年起，剑桥大学工程系机器智能实验室研究组就在史蒂夫·杨（Steve Young）教授的主持下开发 “隐马尔可夫模型工具包”（Hidden markov model Tool Kit, HTK）。HTK软件包不是简单的语音识别系统，而是完整的研究平台。在这个平台上，研究者可以方便地试验各种新式算法，搭建不同的语音识别系统。这样，HTK很快就成为了语音识别研究事实上的标准。而拥有平台的剑桥语音研究人员，可谓近水楼台先得月。

于是，剑桥大学语音识别研究在大赛中连续十年取得优异成绩，许多影响深远的语音识别技术陆续在剑桥产生，并成为后来的主流经典算法，这些成就轰动了全世界，被称为剑桥语音的黄金十年。

商业化与Naunce垄断

语音识别也逐渐开始商业化。1995年，IBM开发出离散词汇听写软件，也就是后来的语音识别软件Via Voice的前身。IBM当时将语音识别率从70%提升到90%，同时识别词库的规模从几百单词上升到几万个，语音识别从实验室走向实际应用。1997年，IBM推出了世界上第一个中文连续语音识别产品——Via Voice 4.0。该软件成功突破连续语音、大词汇量、非特定人的难关，据称解决了汉语同音字多、有声调、口音复杂等问题，可以帮助人们从键盘输入中解脱出来，IBM认为这是汉字输入的重要里程碑。

不过，中文版的Via Voice4.0刚推出，我就满怀希望地试用了这个软件，但感到很失望，远没有达到解放双手的愿望，使人感到实用的语音识别系统还在路上。当时，我并不知道，语音识别的大师们在此几年前已经纷纷离开了IBM。

剑桥大学的HTK语音开发平台也开始商业化，由一家公司拥有，后来曾经被微软收购。但幸运的是微软重新把HTK核心技术的使用权送还给剑桥大学，全球语音识别开发者仍然可以自由使用。可是，再优秀的技术也有时间局限性，直到进入21世纪的头十年，统治语音识别技术几十年的，仍然是混合高斯-隐马尔科夫模型（GMM-HMM），在数据量受限的大环境下，研究者们花费大量的时间优化GMM-HMM模型结构的细节，可能只是为了一到两个百分点的性能提高。

语音识别专家、数据魔方智慧科技CEO张晴晴博士这样描述当时的情况：“深度学习之前，做语音识别是门槛很高的事情。语音识别涉及到的技术模块很多。信号处理、语音/语言建模、发音字典、解码、后处理等等，每个模块都足够一个博士研究好几年。这个领域的研究者，没有十年八年的技术深耕，很难做出有价值的成果。”

在这样的研究环境下，掌握核心算法的公司很容易形成技术垄断。美国语音巨头Nuance就是这样的典型案例。1992年创立，2005年在纳斯达克上市的这家技术型公司，一直深耕统计方法的语音技术，拥有大量的核心算法和数千件专利。苹果Siri采用了他们的语音技术后，Nuance公司迅速走红，语音识别方面的技术实力也浮出水面。这家名不见经传、闷声钻研技术的公司瞬间被各大媒体相继曝光。手机、家电、汽车等人机语音交互产品中，大量嵌入他们的语音识别系统，客户都是苹果、三星这样的知名厂商。

Nuance擅长于利用自己在语音处理方面的知识产权打击竞争对手，用诉讼手段削弱具有创新力的对手，然后低价并购或让其破产，是Nuance的惯用手段。很长时间内，Nuance拥有绝对话语权，整个语音行业生态是——这棵大树下寸草不生。

深度学习带来历史性突破

学术界寻求理论突破，产业界希望打破垄断，这样期待的氛围中，深刻影响语音识别的重要角色在2006年出现了。没错，我说的是深度学习，或者说深度神经网络。

2006 年的一天，时任西雅图微软研究院研究员的邓力看到欣顿的一篇关于深度学习的论文《关于深度置信网络的一种快速学习算法》（A fast learning algorithm for deep belief nets），眼前一亮，感到自己绞尽脑汁没有突破的问题，欣顿轻而易举就解决了。

邓力推动了语音识别研究向深度学习的转变

邓力在中国科技大学本科毕业后，到美国念完博士，当时在微软研究院领导一个小组研究语音识别。深度学习出现之前，他做了很多研究，包括计算人工神经网络、上世纪90 年代中后期开始流行的贝叶斯统计模型等等，但始终不理想，现在深度学习让他看到希望。

邓力很早就认识欣顿，上世纪90年代初，在加拿大滑铁卢大学当教授时，他为博士生论文答辩聘请的外校评审教授，正是欣顿。

2009 年，邓力邀请欣顿到西雅图微软研究院一起讨论，从此微软语音识别研究转入了深度学习方向。邓力与俞栋合著的《解析深度学习——语音识别实践》也成了全球很多地方大学本科或研究生语音处理课程的经典教科书或参考书。

谷歌稍晚了一点，但追赶得很快。出门问问公司CTO雷欣回忆，当年他在谷歌语音识别组担任研究科学家时，2011年夏天，欣顿的博士生纳瓦迪普·杰特列(Navdeep Jaitly)来语音识别组实习，建议用深度神经网络来替代高斯混合模型做声学模型。短短的夏季实习时间里，纳瓦迪普在实验中获得了显著超出谷歌产原系统的识别结果。之后，谷歌工程师们很快在几个月里将实验工程化产品化，2012年初发布在谷歌Voice Search主产品中。这是业界首次将深度学习用于大词汇量语音识别产品中。2012年下半年，雷欣负责将深度神经网络发布至Android JellyBean版本中，这也是业界首次将深度学习用于嵌入式语音识别产品。

微软语音识别研究取得惊人突破。2016年10月18日，由微软首席语音科学家黄学东博士带领的语音团队在权威的产业标准 Switchboard 语音识别基准测试中，实现了对话语音识别词错率5.9%，首次达到与专业速记员持平而优于绝大多数人的表现。这被认为是AI领域历史性的突破。黄学东博士自豪地表示：在对话语音识别中，我们有史以来第一次让计算机有了和人类同等的水平。

百度也不示弱，事任首席科学家的吴恩达立即发推特祝贺微软的语音识别突破，同时话中有话地介绍一年前百度在中文语音识别上就达到的成绩。百度的Deep Speech2的短语识别的词错率已经降到了3.7%，也达到或超过人类水平。微软也很快作出回应，认为短语识别与对话识别，场景不同，后者难度要大很多，不可同日而语。双方暗藏机锋。

未来：语音应用场景创新的沃土

这样的交锋，说明巨头们都高度重视用深度学习解决语音识别问题，这带来了产业格局的变化。美国一下子出现了几十家应用深度学习的语音识别技术公司，识别率不断提升并且趋于同一水平。同时，专利和算法作用越来越小，场景应用能力和客户数据资源在竞争中变得越来越重要。于是，曾挟核心技术在语音领域呼风唤雨的Nuance，垄断地位迅速被瓦解，业绩不断下滑，江河日下，沦落到不时传出被收购消息的尴尬境地。

在语音识别应用场景创新方面，亚马逊的Alexa语音交互平台非常成功。用Echo交互式蓝牙音箱，语音通过内置接口，进入 Alexa平台进行语音交互。2014年Echo推出后，两年多时间内应用场景爆炸性增长，从同步语音数据、播放音乐发展到几十种家电的智能家居设备控制，再发展到语音购物、语音支付、语音叫外卖、语音打车等多场景应用，还可以和家人分享音乐库、电子商城购物车、工作计划表、日程等。语音购物品种已经扩大到百万种，而且还可以语音切换账户、语音追踪商品物流情况。亚马逊利用自己的优势，让语音识别软硬件在互联网环境下融合，并进入物联网的广阔天地。亚马逊的Alexa人机语音交互玩得出神入化，以至于有人惊呼：“这就像是试图成为语音方面的谷歌或者语音方面的Windows操作系统，亚马逊是要拿走整个市场。”

Echo用蓝牙音箱进行语音交互，涉及到语音识别的远场识别。与贴近话筒近距离说话不同，Echo的语音识别属于远场识别，由于远处声源声波的多次反射产生的回声混响，好像由独唱变成了多人多声部合唱。同时，远场识别噪声增大。这些，都大大提升识别难度，语音处理自然复杂很多。

这些特殊应用场景，成为语音识别的新方向，也成为创业者的新机会。

张晴晴博士这样分析语音识别的创业环境：“语音识别的门槛正快速降低。在大数据和云计算的推动下，深度神经网络开始体现出强大的数据记忆能力，由此大大降低了语音建模难度。深度学习在数学原理上并不复杂并拥有大量开源工具，让初学者能够很快上手。语音行业从核心算法的垄断，转向对数据的垄断和对应用场景的理解和把握。语音识别的战场从科研界转向企业界，这给新来者提供难得的弯道超车机会。语音识别行业创业的春天已经到来。”

非常可喜的是，中文语音处理行业也迎来新机遇。一个很有趣的现象是，今天全球AI领域华人专家众多，尤其在语音领域更为密集，名人就能够数出来一大批。为什么这么多华人科学家从事语音科学？一个原因是，长期以来语音识别等领域研究工作十分艰苦，华人勤奋好学钻研、吃苦耐劳工作的精神，让他们坚守在这里。另外一个原因是，中文语音处理市场非常广阔。

2017年刚入选微软院士的黄学东博士说：从语音识别角度讲，中文识别更容易，中文只有约四百个音节（不考虑声调因素）。微软分别评测过中英文，中文识别率要高一些。在所有语言里面，意大利文、西班牙文、中文，这三种语言，语音识别率比法文、英文之类要高，其中法文最难。当然，语义理解对任何语言都很难。

这是最有挑战的课题。这也是中国人面临的机遇与挑战。

依托中文市场，伴随中文语音技术的迅猛发展，云知声、出门问问等新企业应运而生，一大批中国AI企业崛起。更可喜的是，除了知名中国互联网科技公司在语音方面的进取外，以语音为特色的AI公司如科大讯飞等，也已经具备挑战国际巨头的能力。

在普及层面上，采用云识别的中文语音输入系统，已经渐渐成为手机和各种应用设备人机交互界面标配，语音技术不但已经解放了双手，还正在更广泛地进入、改变我们的生活。

重建巴别塔的第一块基石已经深深埋下。机器已经在聆听，它听得越来越清楚。

AI传奇专栏回顾：

第四回 | 助飞的双翼

第三回 | “深度学习之父”杰夫·欣顿

第二回 | AI的酷暑与寒冬

第一回 | 2016，AI春暖花开

转载请联系 newmedia@huanqiukexue.com

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。