机器人何时能明明白白我们的心？

新晋好莱坞大片里《美国队长3》里最后的三人大战，面对美队的猛烈攻击，钢铁侠灵机一动，就召唤来他的智能系统“分析对方战术”，并成功反击。

这似乎是钢铁侠装甲的新功能，也是人类对于语音交互的美好想象。发出一个指令，机器不但能听懂，还能理解，满足自己的需求。

从“听话”到“懂话”，是智能语音交互的进化。进入到智能操作系统时代，手机、平板、可穿戴、智能家居、智能汽车等不断出现，各种软件、应用也迅速普及。语音交互是实现人工智能的关键。

随着人工算法实现功能上的智能化，现在语音识别已经不仅仅是“听”这个层面上，更多的是听完之后朝“理解”的方向发展。

在不远的一天，我们每个人或许就是《美队3》里的钢铁侠，可以自由地和机器人交谈，让智能系统完成我们或大或小的愿望。

为此，造就连线采访了科大讯飞的技术专家，让我们对语音交互、人工智能有更多了解。

造就：什么样的技术可以支持人与机器的沟通？

第一，语音合成技术：语音合成，就是将任意的文字信息转化为自然流畅的语音。

第二，语音识别技术：是把内容，说话人，语种识别出来。虽然我们可以识别人脸，其实你说话也能知道是谁。

第三，自然语言理解：现在我们做的东西更多是自然语言处理，而不是自然语言理解。需要我们的自然语言进行一部分的理解，同时给一些合适的指令集合。相当于给机器赋予人工的大脑。

语音的这几项技术，其实是人工智能的一部分。在今后很短一段时间内，人类会进入到这样的时代：也许你看不到，但是你背后所拥有的、享受的服务，做的各种各样的东西，背后都有智能的技术在支撑。

造就：语音交互对人工智能的进一步发展会有哪些推动？

首先从交互方式上来看，逐渐代替了键盘+鼠标的交互模式。比如家里的机器人和智能硬件设备，不可能接入键盘或鼠标来控制，就算是按键的交互方式也不够友好。

语音交互的出现，使机器人和智能硬件有了一种全新的交互模式，降低了用户使用门槛。

其次是促进了用户体验效果，让计算机决策更佳智能。语音交互里面包含了很多信息，比如用户的情感、用户年龄、用户性别、用户身份等信息，通过这些信息的提取和分析，再经过人工智能判断用户需求，可以为用户提供更合适的响应内容，使用户体验更佳。

第三是语音交互促使了其他交互技术的诞生。每种交互技术都有其适用场景，所以没有那种技术能够做到万能。比如语音交互促进了图像识别的进步，利用图像识别去解决那些没有声音或噪音太大的场景。

而图像识别里面的人脸识别，也是人工智能中的一个重要交互手段。语音+人脸这种生物认证方式，能够确保机器人能够更智能的判断每个人的身份，从而为每个人提供个性化的差异服务。

造就：机器人可以通过声音来进行“情感识别”吗？机器可以理解人类的“喜怒哀乐”吗？

目前这项技术尚处于实验室阶段。判断情感，不仅仅靠语音的语气，还要结合语音的文本来一起做判断，这样会更加准确。

机器人可以通过声音来进行情感识别，比如科大讯飞当前已经做到了能够识别兴奋、悲伤、生气、难过。

只要人说一句话，我们通过后台算法和模型的处理，就知道当前用户的情感。这些是基于海量的用户数据标注，再经过大数据的归纳总结后得到的一个情感判断模型。目前我们实验室内情感判断准确率达到80%。

同人相比，机器人判断情感更多是结合各项数据来做判断。如果机器人仅仅靠声音来判断，那么肯定会有误判的情况出现。而人不同，人会观察对方的表情、姿态、手势，能听到对方的声音信息，再结合自己对对方的了解程度来做综合判定。

所以说人去判断情感，是多模态综合的方式去判断。目前机器人还做不到这点。

造就：语音交互方面，还有哪些科研的障碍需要克服？需要哪些技术的同时发展，才可以促进语音交互更好地前进？

语音交互目前只做到了通用领域的好用，但在一些特定领域、特定的语种、特定的人方面仍然有问题需要解决。

以方言为例，中国地域广阔，同一个省份就有很多种方言，而要对方言进行识别，需要有大量的数据积累才能把方言识别做到很好。

此外，一个人在说普通话的时候，可能会夹杂着自己的方言，这就需要用识别算法去适配这个用户的声学模型。在解决人机交互方面，语音交互只是一种手段，还有很多其他的交互手段和方式。

第一是图像识别。语音+图像可以解决很大一部分交互问题。比如在一些嘈杂或要求绝对安静的环境下，语音无法促成人机交互，这个时候就需要图像识别。但是图像识别目前还不能做到非常高的可用性，需要进一步发展。

第二是语义。交互的最终目的，还是要理解用户的意图，给出正确的响应。而对用户意图的理解需要结合各个方面的内容。

包括用户自身的历史信息、用户的教育程度、用户当前的状态信息、用户的标签、心理学社会学等等，只有这些所有的信息输入人工智能系统中，才能获得最好的响应。而这个过程是需要不断优化和迭代的。

第三是原始数据的获取。这里原始数据获取包含很多方面，比如获取用户说的声音，获取用户的体温、心率，获取用户的手势和姿态等等。只有能够精确获取到这些原始数据，才能让后续的计算处理更加可靠。

以获取用户说的声音为例，传统的麦克风（单麦）无法很好的解决多人拾音问题，而讯飞研发的五麦甚至是球形麦克风，则能很好的解决拾音问题。

造就：人工智能和机器人是什么关系？什么区别？

机器人和人工智能，人工智能做的是虚拟世界，做语音其实是一个虚拟服务，但是机器人是一个真实的物理世界，机器人的后台服务的载体，更多需要人工智能这种技术。

造就：人工智能会不会威胁人类？

对于人工智能的理解有两派，一派就是威胁论，包括霍金在内，他们觉得人工智能会对人类产生巨大的威胁。但更多人属于理智派，比如我处在人工智能的行业领域，大部分从业者觉得人工智能在目前来说还远远没有到威胁人类的地步。　　

文 / 姜小舟

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。