你是否会被人工智能哭泣的声音所打动？| Mixlab 技术前沿

#音频工程#、#AI语音技术#、#AI Deepfake#

AI 语音

—— 语音识别技术，与语音合成

语音识别技术是指机器自动将人的语音，转成文字的技术，即ASR技术：Automatic Speech Recognition。

语音合成是计算机将机器内部的文字信息转变为，可听懂且流利的语言输出的技术：Text-To-Speech。

简单来说，

语音识别技术是：人对机器的输入；

而语音合成则是：机器的输出过程。

先来感受下AI赋予情感的声音

AI 语音初创Sonantic AI

—— 将文本转化成拟人化的声音：AI 配音

Sonantic（英国）实际研发的产品是一个音频编辑器，该编辑器内含有不同的语音模型，基于实际的配音演员声音开发。

该语音技术，能够根据性别、个性、口音、音调和情绪状态，快度、准确地塑造角色类型。

Sonantic 核心

“ 捕捉人类声音的细微差距 ”

—— 创始人库雷希 Zeena Qureshi

Zeena Qureshi

Sonantic 的联合创始人弗林说：“以前的技术并没有捕捉到声音的高低，我通过寻找声音的高位和低谷改变了它，并试图让算法更多地关注音调起伏。我们延伸了这些自然的点、细微差别和变化。我们知道讽刺和真诚之间的区别，以及声音中细微的线索。”

“去年我们的人工智能哭泣时就被赋予了真实情感，真正的关键是关注语言上的细微差别，悲伤时声音的颤抖，愤怒时的用力。我们尝试了深入建模，添加了细节并将它们叠加起来，声音就开始获得能量听起来非常现实。”

图自百度

商业化机会

在于帮助游戏公司缩短制作时间、减少生产成本，更重要的是，增强了在游戏中讲好故事的能力。

开发方式

训练机器人去人声的标准机器声音，与听起来极像人声的机器人声音。

通过 API 和一个用户界面工具，Sonantic 可以让机器合成语音，像人类一样发声，完成从文本到语音，并且可以把声音进行编辑、修饰和导演。

声音资产

如同 “抠脸” 电视剧一般，Sonantic 还可以模拟某位演员的声音，用机器来帮助演员配音，还可以突出演员们极具个人特色的表演技巧，捕捉 “全谱的深层情感” ，从微妙到夸张的情感都可以从语音表现出来，而这通常只有资深演员才能做到。

这能为演员们提供一项新的工作方式，将演员们的声音变成一项和他们外在形象一样的资产形式，以增加收入。

与专业的演员 / 配音工作者合作

团队联合创始人之一，库雷希说，这么做的目的并不是要让配音演员失业，相反它在创作早期就为创作者提供了一个可读、可审查的脚本。

这有助于从一开始就在游戏中加入高度现实的声音，帮助制作人感受故事的弧线、填补节奏、理解真正需要改变的地方。这样他们的迭代周期才能继续快速发展。

业界人士看法：对于任何想要用 AI 重新塑造配音演员的声音的制作人来说，这都是一个法律雷区。

—— 宾夕法尼亚大学法学教授詹妮弗·罗斯曼 Jennifer Rothman

参考素材：

https://www.wired.co.uk/article/simpsons-deepfake-voice-actors-ai

Sonantic 官网：

https://www.sonantic.io/

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。