【据大众科学网2016年10月20日报道】语音识别软件虽然还不完美,但其准确率已经人类相差无几了。本周微软人工智能研究团队研发的语音识别系统达到了一个新的里程碑:该系统的文字差错率(WER)仅为5.9%,与人类记录员转述同样一段话的文字差错率相当,这意味着,该系统已经可以清晰准确地识别两个对话者所说的单词。
微软公司官方发布的博客显示,通过坚持不懈的努力,并结合微软公司的开源“计算网络工具包”,该研究团队利用数月时间就实现了语音识别准确率与人类相当,而原本预计实现这一目标需要数年时间。
微软首席语音系统专家黄学东表示:“我们的语音识别系统已经达到了人类水平,这将是一个历史性的突破。”这一语音识别技术的进步也将使微软Cortana语音助手、Xbox游戏平台和Windows操作系统从中受益。
准确识别是人机语音交互的基础。为了提高语音识别的准确性,研究人员采用深层神经网络来存储大量的数据,帮助系统识别人类语音。研究人员利用声音和图像对深层神经网络进行训练,使其能更有效地利用其存储的数据。
尽管该系统已经很准确,但还远非完美,一些微妙的信号很容易被误解。研究人员在论文中表示,该系统和人类速记员所犯的错误大体类似,但有一个较大的例外,在对简短反馈和迟疑的理解有区别。例如,反馈说“嗯”(uh-huh)表示确认,表明说话人应该继续谈论这一话题,而犹豫的“啊”(uh)表明期待说话人能够把话题转回来。
下一步,研究团队希望实现更高的准确性,让其在一些实际生活场景中如一些嘈杂的餐馆、拥挤的街道、强风天气中也能有很好的语音识别效果。按照团队的设想,未来的语音识别系统,不仅仅只是认识别出人类语音,还要真正理解它们。
大柳树防务|dlswinds
联系客服