如何让AI语音的表现力更加可控?
近日,全球语音领域顶级会议INTERSPEECH 2023公布论文入选名单,出门问问与西北工业大学谢磊教授ASLP实验室合作撰写的论文《PromptStyle: Controllable Style Transfer for Text-to-Speech with Natural Language Descriptions》入选,并将在会议上进行展示。
INTERSPEECH在国际上享有极高盛誉并具有广泛的学术影响力,是由国际语音通讯协会(ISCA)创办的旗舰级国际会议,也是全球最大的综合性语音领域的科技盛会,对参会企业和单位有着严苛的准入门槛,历届INTERSPEECH会议都倍受全球各地语音研究领域人士的广泛关注。此次论文入选,代表出门问问在语音合成领域的科研实力和技术创新能力获得国际学术界的认可。
INTERSPEECH 2023
论文贡献
实现基于自然语言描述的跨说话人风格迁移
以更灵活多样的方式控制AI语音的表现力。
出门问问在题为《PromptStyle: Controllable Style Transfer for Text-to-Speech with Natural Language Descriptions》的论文中作以阐述。
语音合成技术是指从文本生成接近真人语音的技术,近些年,这项技术在深度学习的推动下发展迅速,已经可以合成高自然度高质量的语音,表现力TTS受到越来越多的关注。
然而在实际应用中,考虑到录制数据的成本,通常只有少量的发音人具有高质量的表现力数据。为了为任意说话人来生成表现力数据,需要把给定的说话风格迁移到不包含该风格的目标说话人中。
发音人不同音色风格
目前主流的风格迁移方式有两类。一类是以有监督的方式使用显示风格分类索引来控制风格,但合成语音的多样性不够丰富,也不够可控,只能合成预先定义的几种风格。另一类是从参考音频提取风格表征用来指导语音的生成,这种方法虽然能够合成表现力丰富多样的音频,但是提取的风格信息不够直观和可解释,每次合成都需要挑选一个参考音频,在实际应用中很不方便。
为此,出门问问探索了用自然语言描述进行可控风格迁移的可能性,提出了一个基于自然语言描述引导的跨说话人风格迁移系统PromptStyle。
PromptStyle基于VITS的结构进行构建,并引入跨模态风格编码器实现风格迁移。跨模态风格编码器构建了一个声学特征和语义的共享空间,在保持较高的发音稳定性和说话人相似度的同时,实现了基于自然语言描述引导的风格迁移。
联系客服