打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
动态 | Facebook 开源首个全卷积语音识别工具包 wav2letter

AI 科技评论按:近日,Facebook 人工智能研究院 ( FAIR ) 宣布开源首个全卷积语音识别工具包 wav2letter++。系统基于全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的 2 倍多。他们在博客中对此次开源进行了详细介绍。

由于端到端语音识别技术能够轻易扩展至多种语言,同时能在多变的环境下保证识别质量,因此被普遍认为是一种高效且稳定的语音识别技术。虽说递归卷积神经网络在处理具有远程依赖性的建模任务上很占优势,如语言建模、机器翻译和语音合成等,然而在端到端语音识别任务上,循环架构才是业内的主流。

有鉴于此,Facebook 人工智能研究院 (FAIR) 的语音小组上周推出首个全卷积语音识别系统,该系统完全由卷积层组成,取消了特征提取步骤,仅凭端到端训练对音频波形中的转录文字进行预测,再通过外部卷积语言模型对文字进行解码。随后 Facebook 宣布开源 wav2letter ++——这种高性能框架的出现,让端到端语音识别技术得以实现快速迭代,为技术将来的优化工作和模型调优打下夯实的基础。

与 wav2letter++ 一同宣布开源的,还有机器学习库 Flashlight。Flashlight 是建立在 C++基础之上的机器学习库,使用了 ArrayFire 张量库,并以 C++进行实时编译,目标是最大化 CPU 与 GPU 后端的效率和规模,而 wave2letter ++工具包建立在 Flashlight 基础上,同样使用 C++进行编写,以 ArrayFire 作为张量库。

这里着重介绍一下 ArrayFire,它可以在 CUDA GPU 和 CPU 支持的多种后端上被执行,支持多种音频文件格式(如 wav、flac 等),此外还支持多种功能类型,其中包括原始音频、线性缩放功率谱、log 梅尔谱 (MFSC) 和 MFCCs 等。

Github 开源地址:

https://github.com/facebookresearch/wav2letter/

在 Facebook 对外发布论文中,wav2letter++被拿来与其他主流开源语音识别系统进行对比,发现 wav2letter++训练语音识别端到端神经网络速度是其他框架的 2 倍还多。其使用了 1 亿个参数的模型测试,使用从 1~64 个 GPU,且训练时间是线性变化的。

图片来源:Facebook

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Facebook开源CNN语音识别算法:C 编写,词错率5%,训练超快
【开源】微软发布认知工具包:让机器学习更快、更大、更强
NVIDIA秀语音助手速成妙招:开发速度提升10倍,延时不到300毫秒
深度学习史上最全总结(文末有福利)
Facebook 开源语音识别工具包wav2letter(附实现教程)
译言精选
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服