全文约3000字,阅读时间预计5分钟。
3月3日,李开复老师出席了在海南三亚万豪酒店举行的“2017年投资界百人论坛”。会上,作为创新工场董事长兼执行官的开复老师发表了“我不是李开复,我是人工智能”的主题演讲。演讲中,开复老师说:
语音识别是所有技术里面最不成熟的,当我看到一个一个的计划非常担忧,99%会死掉。
你们不要看科大迅飞的演讲说懂得语音了,他一点不懂。
为什么李开复会说科大讯飞不懂语音,99%的语音识别真的要死掉呢?
那么,语音识别的未来出入到底在哪里?
开复老师在报告中已经给出了回答。
--图片来源于:《我不是李开复,我是人工智能》报告
一直以来,许多语音公司都在吹捧:“我们的语音识别率已经达到95%以上”。然而,市面上语音交互产品的体验仍然是弱爆了,到了真实语音交互场景下,复杂的声场环境,各种噪音的影响,语音识别率直线下降,很多产品的语音交互功能都直接歇菜。其实,大家所提到高识别率,还停留在“近场语音识别”的阶段,根本不是自然的人机交互模式,即“远场语音识别”的阶段。
不仅如此,目前的语音识别还没有做到语音理解。正如李开复老师所说:“其实,我听懂讲的每个字不代表听懂了意思,甚至把英文翻译成中文,中文翻译成英文还是没有搞懂。你们不要看科大迅飞的演讲说懂得语音了,他一点不懂,他只能把音变成字,字变成音。你问他讲什么,一个字不懂。所以,语音识别还是要做的更好。”
那么,我们该如何把语音识别做到更好?
1
先把噪音问题解决
其实,我们所说的语音交互涉及了非常复杂的技术链条,包括了声学处理、语音识别、语义理解和语音合成等核心技术。以Siri为代表的近场语音识别已经发展了60多年,特别是在2009年以后借助深度学习有了实质性提高,但是正如扎克伯格所说的,当真正产品落地的时候,我们发现用户真正需要的却是类似Echo所倡导的远场语音识别。
以Siri为代表的近场语音识别要求必须是低噪声、无混响、距离声源很近的场景,比如用户总是要对着手机讲话才能获得符合近场语音识别要求的声音信号,同时还要求用户满足标准发音,其识别率才有可能达到95%以上。
联系客服