AI降噪是什么意思？AI降噪在音视频通讯场景的应用

AI降噪是指利用人工智能技术对音频、视频等信号进行降噪处理。通过对信号进行分析和处理，去除噪音，提高信号的质量和清晰度。AI降噪广泛应用于语音识别、音频处理、视频处理等领域。

噪声在我们日常生活中十分常见，例如，鼠标点击声、键盘声、空调声、厨房碗碟碰撞声。所以音频质量往往决定了在音视频通讯场景中的通话体验，而噪声又是决定了音频质量是否良好的关键因素，如何对音频进行噪声处理，是工程师们绕不开的问题。

针对以上日常生活中经常会遇到的噪音场景，ZEGO 即构科技在业内推出场景化 AI 降噪解决方案。ZEGO 即构科技场景化 AI 降噪方案可以自动识别不同场景，可进行无感知切换，智能调整 AI 降噪策略提供给用户最佳的降噪效果。

通讯场景，消除人声以外的全部噪声

针对一般通讯场景，ZEGO 提出轻量级的神经网络降噪方法 —— ZegoAIDenoise。ZegoAIDenoise 采用传统算法和深度学习相结合的 Hybrid 方法，为了降低性能开销，采用频域分成子带方案，并无限缩小深度学习网络模型，用尽量小的网络模型达到更好的降噪效果。

在实时处理的性能测试方面，默认采样率 32kHz，帧长 10ms，在 1.4G Hz主频的 iPhone 6上，CPU 性能开销为 1% 左右，与 WebRTC 的通用降噪相当。所以，ZegoAIDenoise 无论在降噪效果、泛化能力，还是性能开销上，都取得了长足的进步。

ZegoAIDenoise 对于平稳和非平稳噪声都有很好的降噪效果，保证了语音的质量和语言清晰度，同时将性能开销控制在一个很低的量级，与传统降噪算法相当，成功覆盖大部分中低端机型，保留纯净语音，提升用户的通话体验。

处理声音类型：主要处理包括鼠标，键盘声，敲击，空调，厨房碗碟、嘈杂餐厅、环境风声，咳嗽、吹气等非人声噪声以及去除小房间的人声混响。

音乐场景，还原高保真音质

在音乐场景中，AI 降噪容易将音乐识别成噪声，并对其进行降噪处理，这样会对音乐造成极大的损伤，严重影响音乐场景中的用户体验，因此，即构在本次场景化 AI 降噪方案中也包含了针对音乐场景的降噪处理。

首先，即构为了提高对于音乐场景的识别准确率，对数十种歌曲风格（如轻音乐、古典音乐以及流行音乐等）、乐器（如吉他、钢琴、小提琴等）采集了上万条音频数据，并对现有数据进行数据增广以增加模型的泛化性并进行特征提取和训练。

同时，为了减少非音乐的误判问题，即构采集了丰富的噪声和人声数据进行对比训练，同时区分不同信噪比下的音乐加以识别以保证最优音质，最终完成 99% 的识别率。并且，在极高识别率的情况下可达到音频处理 0 延时，无额外性能消耗。

为了全面覆盖音乐场景，提升全程体验，我们采用多帧平滑后处理技术，使识别速度达到 400ms，保证音乐能够从伴奏的“第一个旋律”起，就能被快速识别。

最终，即构场景化 AI 降噪利用自研音乐检测算法对 mic 输入进行音乐识别，在声卡、近场弹唱或其他外放设备播放音乐的场景下自动调整降噪等级，保证音乐的高保真音质，降低对音乐的音质损伤。

处理声音类型：支持识别音乐元素丰富的场景，如伴奏/乐器等。

关于 ZEGO 即构科技本次发布的场景化 AI 降噪解决方案的使用场景可以归纳为：

编辑

ZEGO 即构科技场景化 AI 降噪，无论是在稳态还是非稳态的噪声环境、一般通讯场景或者音乐场景，都能取得飞跃般的降噪效果，旨在用高质量的音频降噪有效提升用户的实时互动体验。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。