打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
每日科技名词|语音识别
userphoto

2022.05.10 山东省

关注

语音识别

voice recognition,speech recognition

定义:让机器通过识别和理解,将人的语音信号转换为相应的文本或命令的过程。

学科:计算机科学技术_人工智能_模式识别

相关名词:人工智能 自然语言处理 人机对话

【延伸阅读】

语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言的技术。语音识别是一门多学科交叉技术,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,它的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别的本质是基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定规则找出最佳匹配结果。其实就是通过分析一段语音的特征,诸如发声、音量、断句等,发现这段语音和数据库中最为相似的标准语音的匹配程度,进而识别出这段语音到底是什么含义。目前,模式匹配原理已经被应用于大多数语音识别系统中。

这个过程在真正的算法处理过程中十分复杂,包含了大量的数据训练和算法参数确认。一个模式识别过程包括预处理、特征提取、模式匹配等基本模块。

在语音识别领域,第一步就是对输入语音进行预处理,包括降噪、分帧、加窗、预加权等。

第二步是对处理后的语音进行特征提取,常用的特征参数包括:基音周期、共振峰、短时平均能量或幅度、线性预测系数、感知加权预测系数等等。这些特征最初均需要声学专家分析和确认,后来随着深度学习的出现,各种神经网络模型可以自主提取特征,使得语音识别的发展和应用提高了一个层次。

第三步是根据这些参数特征,在“数据库”中匹配最佳的答案。“数据库”中包含声学模型和语言模型两种模型。声学模型主要用于生成音素(在中文中,音素指拼音的声母韵母),将提取的特征参数与声学模型进行匹配,给出对应音素的概率,从而判断哪个音素最合适。在声学模型匹配后,需要进行语言模型匹配,语言模型则是给出汉字或者词语的概率,最终确定语音对应的文字序列。

语音识别技术发展到今天,中小词汇量非特定人语音识别系统识别精度已经大于90%,对特定人语音识别系统的识别精度就更高了。这些技术已经能够满足通常应用的要求,例如微信等程序的“语音转文字”功能,已经深深植入我们的生活。

(延伸阅读作者:大连理工大学计算机科学与技术学院教授 杨鑫)

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
语音识别技术
【语音识别基础】总有一天你会用到,嗯,没有公式~
国内智能语音行业分析报告
讯飞开放平台技术大牛详解硬件产品语音交互能力构建的关键与难点
车载智能语音:语音识别的核心技术
语音识别技术概述
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服