你是否会被人工智能哭泣的声音所打动?| Mixlab 技术前沿
#音频工程#、#AI语音技术#、#AI Deepfake#
语音识别技术是指机器自动将人的语音,转成文字的技术,即ASR技术:Automatic Speech Recognition。语音合成是计算机将机器内部的文字信息转变为,可听懂且流利的语言输出的技术:Text-To-Speech。Sonantic(英国)实际研发的产品是一个音频编辑器,该编辑器内含有不同的语音模型,基于实际的配音演员声音开发。该语音技术,能够根据性别、个性、口音、音调和情绪状态,快度、准确地塑造角色类型。Sonantic 的联合创始人弗林说:“以前的技术并没有捕捉到声音的高低,我通过寻找声音的高位和低谷改变了它,并试图让算法更多地关注音调起伏。我们延伸了这些自然的点、细微差别和变化。我们知道讽刺和真诚之间的区别,以及声音中细微的线索。”“去年我们的人工智能哭泣时就被赋予了真实情感,真正的关键是关注语言上的细微差别,悲伤时声音的颤抖,愤怒时的用力。我们尝试了深入建模,添加了细节并将它们叠加起来,声音就开始获得能量听起来非常现实。”在于帮助游戏公司缩短制作时间、减少生产成本,更重要的是,增强了在游戏中讲好故事的能力。
训练机器人去人声的标准机器声音,与听起来极像人声的机器人声音。通过 API 和一个用户界面工具,Sonantic 可以让机器合成语音,像人类一样发声,完成从文本到语音,并且可以把声音进行编辑、修饰和导演。如同 “抠脸” 电视剧一般,Sonantic 还可以模拟某位演员的声音,用机器来帮助演员配音,还可以突出演员们极具个人特色的表演技巧,捕捉 “全谱的深层情感” ,从微妙到夸张的情感都可以从语音表现出来,而这通常只有资深演员才能做到。这能为演员们提供一项新的工作方式,将演员们的声音变成一项和他们外在形象一样的资产形式,以增加收入。团队联合创始人之一,库雷希说,这么做的目的并不是要让配音演员失业,相反它在创作早期就为创作者提供了一个可读、可审查的脚本。这有助于从一开始就在游戏中加入高度现实的声音,帮助制作人感受故事的弧线、填补节奏、理解真正需要改变的地方。这样他们的迭代周期才能继续快速发展。
业界人士看法:对于任何想要用 AI 重新塑造配音演员的声音的制作人来说,这都是一个法律雷区。—— 宾夕法尼亚大学法学教授詹妮弗·罗斯曼 Jennifer Rothmanhttps://www.wired.co.uk/article/simpsons-deepfake-voice-actors-ai
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报。