打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
带你读论文 | 端到端语音识别模型

本文将通过六篇论文,从建模方法、响应时间优化、数据增强等不同方面讲解端到端语音模型的发展,并探讨不同端到端语音识别模型的优缺点。


Seq2Seq

参考论文:Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition. ICASSP 2016(William Chan, Navdeep Jaitly, Quoc V. Le, Oriol Vinyals)

CTC

参考论文:Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks. ICML 2006(AlexGraves, SantiagoFernández,FaustinoGomez)

这里 A 是一条合法的 x 和 y 的对应路径,a_t 代表 t 时刻 X 所对应的输出。

了解更多的推导细节: https://distill.pub/2017/ctc/ 

Transducer

参考论文:Sequence Transduction with Recurrent Neural Networks. arXiv 2012(Alex Graves)

数据增强

参考论文:SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition. INTERSPEECH 2019(Daniel S. Park, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D. Cubuk, Quoc V. Le)

延迟优化

参考论文:Towards Fast and Accurate Streaming End-to-End ASR. ICCASP 2019(Bo Li, Shuo-yiin Chang, Tara N. Sainath, Ruoming Pang, Yanzhang He, Trevor Strohman, Yonghui Wu)

参考论文:On the Comparison of Popular End-to-End Models for Large Scale Speech Recognition. InterSpeech 2020(Jinyu Li, Yu Wu, Yashesh Gaur, Chengyi Wang, Rui Zhao, Shujie Liu)

最后感谢作者-吴俣的分享
本文转自-微软研究院AI头条
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
个人阅读的Deep Learning方向的paper整理
学界 | 2010
口音与方言语音识别研究进展
资源 | 如何开启深度学习之旅?这三大类125篇论文为你导航
【每周CV论文推荐】 掌握残差网络必读的10多篇文章
趋势分析|清华大学AMiner大数据带你进入深度神经网络的未来
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服