硬核升级，讯飞输入法，各种语音识别免切换

自2010年讯飞输入法发布业界首个中文语音输入，完成智能语音从概念技术到产品落地的华美转身以来，通过九年的深入探索和技术研发，讯飞输入法通用语音识别率提升至98%，升级支持英、日、韩、俄4门外语及23种方言等语音输入功能，让“增进人机沟通无障碍”的初衷得以实现，并通过不断地技术创新，向着更自然、更便捷、更智能的应用方向实践。

这次，经过创新和沉淀，讯飞输入法语音输入又有了新突破！最新版本新增语音输入『随心说』功能，不仅支持中英混合语音输入免切换，同时还优化了七大方言与普通话的混合输入效果，大大提升了输入体验。

语音输入『随心说』是什么硬核操作？

这样的升级能给大家带来哪些不一样的体验呢？

简单来说，下载使用讯飞输入法最新版，不仅能够准确识别用户所说的普通话，而且支持中英混合语音输入

中英混合语音输入

同时也优化了普通话与七种方言口音（东北话、天津话、河南话、皖北话、山东话、河北话、四川话）的混合语音输入效果，进一步增强语音用户的输入体验

普通话夹东北口音混合语音输入

在复杂对话场景下，有了语音输入『随心说』，就能大大减少手动切换识别模式的操作，畅快使用普通话、英文、方言任意一种或中英混合、普通话与方言混合输入，有效提高语音用户日常的便捷性。

解读：语音输入『随心说』是怎么实现的？

众所周知，科大讯飞首家推出全新的语音识别框架，即深度全序列卷积神经网络（DFCNN，Deep Fully Convolutional NeuralNetwork），使用大量卷积层直接对整句语音信号进行建模，获得出色的表达语音的长时相关性，相比循环神经网络（Recurrent Neural Network, RNN）结构在稳定性上更加出色，同时可以实现短延时的准在线解码。

快速迭代是颠覆式创新的灵魂，科大讯飞携高屋建瓴的行业之势，基于Attention模型的核心思想，通过机器学习（ML，Machine Learning）的方法，构建了Hybrid CNN即混合的Attention CNN模型，从而在语音界保持在进化链的最前端。

前沿的Hybrid CNN模型用于构建语音识别声学模型的全局优化，仿照人类视觉机制，同时也借鉴人类大脑处理的一些优势，可谓效果更好、资源占用更小、模型更灵活的新一代语音识别系统。

具体来说，在DFCNN基础上，将传统卷积使用扩张卷积（Dilated conv）代替，让每个卷积输出都包含更大范围的信息，使得模型不使用池化层（pooling）也可以看到很长的语音段信息，从而实现对语音长时相关性的更精确的表达。

与此同时，还引入了基于长短期记忆网络（Long Short-Term Memory，LSTM）的门控机制（Gated Mechanism，GM），使得Hybrid CNN在长时相关性建模的过程中，能快速地过滤噪声等干扰信息，并加强语境等长时信息，进一步提升模型的抗干扰能力，从而在实际应用中能够保障高噪声等复杂场景的语音识别效果。

另一个比较重要的地方在于，本次Hybrid CNN模型真正实现了端到端的建模。此前的端到端建模方案，如CTC等，在输出端已经可以做到直接输出中文汉字，取得了一定的效果提升，但是在输入端仍然采用人工设计的特征，这些特征在语速很快等特殊场景下就会损失信息。科大讯飞这次以原始音频波形（Raw-wave）直接建模，避免了由于人工设计的特征提取过程带来的信息损失，真正实现了端到端建模，进一步提升了识别效果。

也正因为上述创新，使得Hybrid CNN这种前沿的语音识别框架克服了DFCNN模型参数量和计算复杂度大的问题。在保证识别效果不损失的情况下，系统资源占用规模和运算量同比下降了60%以上，使得Hybrid CNN可以在智能手机等移动设备上流畅运行，这也使得本地化语音的识别效果更加接近云端识别效果。

现在，许多人都过着“抬头电脑、低头手机”的日子，A.I.持续赋能讯飞输入法，不仅提高手机输入效率和准确率，甚至免去语音识别的切换操作，让大家享受到A.I.带来的全新便捷生活！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。