自2010年讯飞输入法发布业界首个中文语音输入,完成智能语音从概念技术到产品落地的华美转身以来,通过九年的深入探索和技术研发,讯飞输入法通用语音识别率提升至98%,升级支持英、日、韩、俄4门外语及23种方言等语音输入功能,让“增进人机沟通无障碍”的初衷得以实现,并通过不断地技术创新,向着更自然、更便捷、更智能的应用方向实践。
这次,经过创新和沉淀,讯飞输入法语音输入又有了新突破!最新版本新增语音输入『随心说』功能,不仅支持中英混合语音输入免切换,同时还优化了七大方言与普通话的混合输入效果,大大提升了输入体验。
语音输入『随心说』是什么硬核操作?
这样的升级能给大家带来哪些不一样的体验呢?
简单来说,下载使用讯飞输入法最新版,不仅能够准确识别用户所说的普通话,而且支持中英混合语音输入
中英混合语音输入
同时也优化了普通话与七种方言口音(东北话、天津话、河南话、皖北话、山东话、河北话、四川话)的混合语音输入效果,进一步增强语音用户的输入体验
普通话夹东北口音混合语音输入
在复杂对话场景下,有了语音输入『随心说』,就能大大减少手动切换识别模式的操作,畅快使用普通话、英文、方言任意一种或中英混合、普通话与方言混合输入,有效提高语音用户日常的便捷性。
解读:语音输入『随心说』是怎么实现的?
众所周知,科大讯飞首家推出全新的语音识别框架,即深度全序列卷积神经网络(DFCNN,Deep Fully Convolutional NeuralNetwork),使用大量卷积层直接对整句语音信号进行建模,获得出色的表达语音的长时相关性,相比循环神经网络(Recurrent Neural Network, RNN)结构在稳定性上更加出色,同时可以实现短延时的准在线解码。
快速迭代是颠覆式创新的灵魂,科大讯飞携高屋建瓴的行业之势,基于Attention模型的核心思想,通过机器学习(ML,Machine Learning)的方法,构建了Hybrid CNN即混合的Attention CNN模型,从而在语音界保持在进化链的最前端。
前沿的Hybrid CNN模型用于构建语音识别声学模型的全局优化,仿照人类视觉机制,同时也借鉴人类大脑处理的一些优势,可谓效果更好、资源占用更小、模型更灵活的新一代语音识别系统。
具体来说,在DFCNN基础上,将传统卷积使用扩张卷积(Dilated conv)代替,让每个卷积输出都包含更大范围的信息,使得模型不使用池化层(pooling)也可以看到很长的语音段信息,从而实现对语音长时相关性的更精确的表达。
与此同时,还引入了基于长短期记忆网络(Long Short-Term Memory,LSTM)的门控机制(Gated Mechanism,GM),使得Hybrid CNN在长时相关性建模的过程中,能快速地过滤噪声等干扰信息,并加强语境等长时信息,进一步提升模型的抗干扰能力,从而在实际应用中能够保障高噪声等复杂场景的语音识别效果。
另一个比较重要的地方在于,本次Hybrid CNN模型真正实现了端到端的建模。此前的端到端建模方案,如CTC等,在输出端已经可以做到直接输出中文汉字,取得了一定的效果提升,但是在输入端仍然采用人工设计的特征,这些特征在语速很快等特殊场景下就会损失信息。科大讯飞这次以原始音频波形(Raw-wave)直接建模,避免了由于人工设计的特征提取过程带来的信息损失,真正实现了端到端建模,进一步提升了识别效果。
也正因为上述创新,使得Hybrid CNN这种前沿的语音识别框架克服了DFCNN模型参数量和计算复杂度大的问题。在保证识别效果不损失的情况下,系统资源占用规模和运算量同比下降了60%以上,使得Hybrid CNN可以在智能手机等移动设备上流畅运行,这也使得本地化语音的识别效果更加接近云端识别效果。
现在,许多人都过着“抬头电脑、低头手机”的日子,A.I.持续赋能讯飞输入法,不仅提高手机输入效率和准确率,甚至免去语音识别的切换操作,让大家享受到A.I.带来的全新便捷生活!
联系客服