每日科技名词|语音识别

语音识别

voice recognition，speech recognition

定义：让机器通过识别和理解，将人的语音信号转换为相应的文本或命令的过程。

学科：计算机科学技术_人工智能_模式识别

相关名词：人工智能自然语言处理人机对话

【延伸阅读】

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言的技术。语音识别是一门多学科交叉技术，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，它的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别的本质是基于语音特征参数的模式识别，即通过学习，系统能够把输入的语音按一定模式进行分类，进而依据判定规则找出最佳匹配结果。其实就是通过分析一段语音的特征，诸如发声、音量、断句等，发现这段语音和数据库中最为相似的标准语音的匹配程度，进而识别出这段语音到底是什么含义。目前，模式匹配原理已经被应用于大多数语音识别系统中。

这个过程在真正的算法处理过程中十分复杂，包含了大量的数据训练和算法参数确认。一个模式识别过程包括预处理、特征提取、模式匹配等基本模块。

在语音识别领域，第一步就是对输入语音进行预处理，包括降噪、分帧、加窗、预加权等。

第二步是对处理后的语音进行特征提取，常用的特征参数包括：基音周期、共振峰、短时平均能量或幅度、线性预测系数、感知加权预测系数等等。这些特征最初均需要声学专家分析和确认，后来随着深度学习的出现，各种神经网络模型可以自主提取特征，使得语音识别的发展和应用提高了一个层次。

第三步是根据这些参数特征，在“数据库”中匹配最佳的答案。“数据库”中包含声学模型和语言模型两种模型。声学模型主要用于生成音素（在中文中，音素指拼音的声母韵母），将提取的特征参数与声学模型进行匹配，给出对应音素的概率，从而判断哪个音素最合适。在声学模型匹配后，需要进行语言模型匹配，语言模型则是给出汉字或者词语的概率，最终确定语音对应的文字序列。

语音识别技术发展到今天，中小词汇量非特定人语音识别系统识别精度已经大于90％，对特定人语音识别系统的识别精度就更高了。这些技术已经能够满足通常应用的要求，例如微信等程序的“语音转文字”功能，已经深深植入我们的生活。

（延伸阅读作者：大连理工大学计算机科学与技术学院教授杨鑫）

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。