【大百科词条（稿）】声纹识别

声纹识别

英文条头：Voiceprint Recognition （VPR）

学科主编：刘丹青

分支学科：语音学

分支主编：石锋、李爱军

也称说话人识别，是生物识别技术的一种。声纹是对语音中所蕴含的能表征和标识说话人的语音特征，以及基于这些特征（参数）所建立的语音模型的总称。声纹识别是根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。

从实际应用的范畴，声纹识别可分为声纹确认、声纹辨认、声纹检出与声纹追踪。声纹确认（Voiceprint verification）或者说话人确认（Speaker verification），指给定一段只含一名说话人的语音和一个说话人的声纹模型，判断该段语音是否是该说话人所说的声纹识别方式。声纹辨认（Voiceprint identification）或说话人辨认（Speaker identification），指给定一段语音和一组候选说话人的声纹模型，判断该段语音是哪个说话人所说的声纹识别方式。声纹检出（Voiceprint detection）或者说话人检出（Speaker detection），指给定一个说话人（目标说话人，Target Speaker）的声纹模型和一段（或多段）语音，判断目标说话人是否在给定的语音中出现的声纹识别方式。声纹追踪（Voiceprint tracking）或者说话人追踪（Speaker tracking），指给定一个说话人（目标说话人，Target Speaker）的声纹模型和一段（或多段）语音，判断目标说话人是否在给定的语音中出现，且如果目标说话人在语音中出现则标示出语音中目标说话人所说的语音段的位置的声纹识别方式。

从发音文本的范畴，声纹识别可以分为文本相关、文本无关和文本提示三类。文本无关是指声纹识别系统对于语音文本内容无任何要求，说话人的发音内容将不受任何限制，只要语音达到一定时长即可；文本相关则是要求用户需按照预先指定的固定文本内容进行发音。文本提示是指声纹识别系统从说话人的训练文本库中随机地抽取组合若干词汇，作为用户的发音提示。

声纹识别技术

声纹识别技术又称说话人识别技术，就是基于声纹信息来探索人类身份的一种生物特征识别技术。这种技术基于语音中所包含的说话人特有的个性信息，利用计算机以及现在的信息识别技术，自动地鉴别当前语音对应的说话人身份。

下图给出了一个基本的声纹识别系统框架，包含说话人模型训练和测试语音识别两个阶段。训练阶段，对使用系统的说话人预留充足的语音，并对不同说话人的语音提取声学特征，然后根据每个说话人的语音特征，训练得到对应的说话人模型，最终将全体说话人模型集合在一起组成系统的说话人模型库。识别阶段，说话人进行识别认证时，系统对识别语音进行相同的特征提取，并将语音特征与说话人模型库进行比对，得到对应说话人模型的相似性打分，最终根据识别打分判别得到识别语音的说话人身份。

图1 一个基本的声纹识别系统框架

声纹识别的发展历史

以语音作为身份认证的手段，最早可追溯到17世纪60年代英国查尔斯一世之死的案件审判中。在二战后的几十年中，声纹技术快速发展。1945年，Bell 实验室的L. G. 克斯坦（Lawrence G. Kersta，美国人，1902~1995）等人借助肉眼观察，完成语谱图匹配，并首次提出了“声纹”的概念；他们在1962年第一次介绍了采用此方法进行声纹识别的可能性。1966年，美国法院第一次采用“声纹”进行了取证。Bell 实验室的S.普鲁赞斯基（Sandra Pruzansky，美国，1939-02-04～2018-02-18）提出的基于模版匹配（Template matching）和统计方差分析的声纹识别方法，引起了信号处理领域许多学者的注意，兴起了声纹识别研究的高潮。1969年J.E.勒克（James E. Luck, 美国）首先将倒谱技术用于声纹识别，得到了较好的效果；B. S. 阿塔尔（Bishnu S. Atal，印度，1933～）等人将线性预测倒谱系数（Linear predictive cepstrum coefficient, LPCC）用于声纹识别，提高了识别系数的精度；G. R. 多丁顿（George Rowland Doddington, 美国）等人提出了利用共振峰进行声纹确认；1972年Atal等人采用提出的基频轮廓进行声纹识别。

从20世纪70年代末至80年代末，有效的声学特征参数和模式匹配方法成为声纹识别的研究重点。研究者相继提出了线性预测编码（Linear predictive coding, LPC）、线谱对（Linear spectrum pair, LSP）、感知线性预测系数（Perceptual linear predictive, PLP），梅尔倒谱系数（Mel frequency cepstrum coefficient, MFCC）等一系列声学特征参数。与此同时，动态时间规整法（Dynamic time warping, DTW）、矢量量化法（Vector quantization, VQ）、隐马尔科夫模型（Hidden Markov model, HMM），人工神经网络法（Artificial neural network, ANN）等已在语音识别领域得到了广泛运用的技术，也逐渐成为声纹识别的重要技术。

20世纪90年代以来，尤其是 D. 雷诺兹（Douglas. A. Reynolds, 美国）对高斯混合模型（Gaussian mixture model, GMM）做了详细介绍后，基于最大似然的概率统计模型 GMM，以其优异的识别性能、简单灵活的模型结构和出众的鲁棒性，迅速成为了文本无关声纹识别中的主流技术，将声纹识别研究带入了一个新的阶段。2000年，雷诺兹在声纹确认任务中提出了高斯混合模型-通用背景模型（Gaussian mixture model - Universal background model, GMM-UBM）结构，为声纹识别技术从实验室走向实用做出了重要贡献。

进入21世纪，声纹识别技术取得了巨大的进步，以声纹识别技术为载体的应用范围不断拓展，复杂应用环境对声纹识别系统的鲁棒性提出了巨大的挑战：如背景噪声、跨信道、说话人自身的声音变化等等。在传统GMM-UBM 的基础上，P. 肯尼（Patrick J Kenny, 加拿大）、N. 德哈克（Najim Dehak, 加拿大/美国）等人先后提出了联合因子分析（Joint factor analysis，JFA）与i-vector 模型，将说话人模型映射到低维子空间中，得到了一个低维的说话人向量表示。这些模型克服了GMM-UBM中高斯分量互相独立的局限性，提高了系统性能。为了进一步去除与说话人无关的会话信息、提高了 i-vector 对说话人的区分能力，研究者们提出了在i-vector 模型的后端加入类内协方差归一化（Within class covariance normalization, WCCN）、扰动属性投影（Nuisance attribute projection, NAP）、线性判别分析（Linear discriminant analysis, LDA）、概率线性判别分析（Probabilistic linear discriminant analysis, PLDA）等方法。

近年来，基于深度学习的声纹识别方法研究越来越受到关注。这些方法所用的模型结构各不相同、学习目标也有所差异，但其基本思路是一致的：利用深度神经网络强大的学习能力，将语音片段映射到一个说话人空间中，得到具有更强不变性的说话人表征。例如，Zhang 和D. 斯奈德（David Snyder, 美国）等提出了“端到端”的学习策略，将前端的说话人特征学习和后端的打分判决整合在一起（可视为一个“黑盒子”），并联合优化整个系统。E. 瓦里安尼（Ehsan Variani, 伊朗/美国）和 Lei（Xin Lei, 中国/美国）等人提出了基于深度神经网络的说话人特征学习方法（d-vector），通过深度神经网络的逐层学习，从语音信号中抽取出用于描述说话人特性的有效特征。Snyder 等人在 d-vector 模型结构中增加了统计量提取层和池化层，将帧级别的说话人特征映射成段级别的说话人向量（x-vector），而后实现对不同说话人的区分性训练；该模型利用了说话人特征中的高阶统计信息，得到了更为稳定的说话人表征。此外，M. 拉瓦内利（Mirco Ravanelli, 加拿大）等人尝试从原始语音信号出发，自动地学习出说话人特征在不同频带上的表征规律，提出了 SincNet 的模型结构。总而言之，基于深度学习的相关方法取得了不俗的成效，并逐渐成为声纹识别技术的主流。

声纹识别技术的应用

2008年，国家信息产业部正式颁布实施《自动声纹识别（说话人识别）技术规范》，这是我国第一个关于“声纹识别（说话人识别）”的行业标准。2010年12月2日，中华人民共和国公安部颁布实施《安防声纹确认应用算法技术要求和测试方法》，并于2014年10月1日发布实施《安防生物特征识别应用术语》。2018年10月9日，中国人民银行正式对外发布《移动金融基于声纹识别的安全应用技术规范》金融行业标准，这是第一个被金融监管部门认可的生物识别标准，为声纹识别技术进入移动金融领域解决了标准难题。

声纹识别技术因其良好的准确性、经济性和可扩展性，拥有着广阔的发展空间。尽管当前声纹识别技术对现有所面临问题的解决方法并未完全成熟、与实际应用场景还存在一定的距离，但声纹识别技术在未来的潜在应用能力是有目共睹的。声纹识别技术将有望大规模应用于金融安全、公共安全、社保生存认证、社区矫正系统、移动互联网安全、车联网安全等各个领域。

银行证券：2014年中国互联网支付用户调研报告显示，网上支付、手机支付、第三方支付已成为人们购物付款的主流方式。为了保障电子支付的安全性，将声纹确认技术应用其中，通过动态密码口令等形式进行个人身份认证，有效地提高了个人资金和交易支付的安全性。

军队国防：在环境瞬息万变的军事战场，声纹识别技术可以直接帮助监听人员从通讯监听中识别出是否有关键人员出现，继而完善对该段通讯的侦听。

公安司法：对于电话勒索、绑架等严重的刑事犯罪案件，公安司法人员可以利用声纹辨认技术，从通话的语音中锁定嫌疑犯或者缩小侦查范围。在火车、飞机等安检过程中嵌入声纹辨认的系统，可以有效地对危险人物进行识别和提示，降低因持有假身份证件或乔装等带来的肉眼识别错误，提高检查的安全性和识别效率。

社保：为了防止养老金被冒领，社保局可通过预装声纹确认系统，再结合人工辅助手段，对养老金领取者进行现场身份认证，或者当本人无法亲临现场时通过电话进行远程身份确认，有效地制止了国家社保养老金的流失，提高了社保服务机构的工作效率。

声纹识别技术在其他领域中也有许多典型的应用，比如手机声纹锁控、声纹考勤等。在互联网广泛普及的当今社会，安全问题越来越受到人们的重视，声纹识别技术的应用也随之变得越来越重要。

参考文献：

[1] SJ/T 11380-2008《自动声纹识别（说话人识别）技术规范》

[2] GA/T 893-2010《安防生物特征识别应用术语》

[3] GA/T 1179-2014《安防声纹确认应用算法技术要求和测试方法》

[4] JR/T 0164-2018《移动金融基于声纹识别的安全应用技术规范》

[5] 吴朝晖 《说话人识别模型与方法》，清华大学出版社 2009

[6] 郑方、李蓝天、张慧、艾斯卡尔·肉孜 声纹识别技术及其应用现状，《信息安全研究》2016年2（1）: 44—57

[7] BEIGI H. Fundamentals of Speaker Recognition. New York: Springer,2007.

[8] KINNUNEN T., LI H. An overview of text-independent speaker recognition: From features to supervectors. Speech Communication. 2010,52（1）: 12-40.

（编写者：郑方、李蓝天、李爱军）

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。