首先从交互方式上来看,逐渐代替了键盘+鼠标的交互模式。比如家里的机器人和智能硬件设备,不可能接入键盘或鼠标来控制,就算是按键的交互方式也不够友好。
语音交互的出现,使机器人和智能硬件有了一种全新的交互模式,降低了用户使用门槛。
目前这项技术尚处于实验室阶段。判断情感,不仅仅靠语音的语气,还要结合语音的文本来一起做判断,这样会更加准确。
机器人可以通过声音来进行情感识别,比如科大讯飞当前已经做到了能够识别兴奋、悲伤、生气、难过。
只要人说一句话,我们通过后台算法和模型的处理,就知道当前用户的情感。这些是基于海量的用户数据标注,再经过大数据的归纳总结后得到的一个情感判断模型。目前我们实验室内情感判断准确率达到80%。
同人相比,机器人判断情感更多是结合各项数据来做判断。如果机器人仅仅靠声音来判断,那么肯定会有误判的情况出现。而人不同,人会观察对方的表情、姿态、手势,能听到对方的声音信息,再结合自己对对方的了解程度来做综合判定。
所以说人去判断情感,是多模态综合的方式去判断。目前机器人还做不到这点。
以方言为例,中国地域广阔,同一个省份就有很多种方言,而要对方言进行识别,需要有大量的数据积累才能把方言识别做到很好。
此外,一个人在说普通话的时候,可能会夹杂着自己的方言,这就需要用识别算法去适配这个用户的声学模型。在解决人机交互方面,语音交互只是一种手段,还有很多其他的交互手段和方式。
第一是图像识别。语音+图像可以解决很大一部分交互问题。比如在一些嘈杂或要求绝对安静的环境下,语音无法促成人机交互,这个时候就需要图像识别。但是图像识别目前还不能做到非常高的可用性,需要进一步发展。
第二是语义。交互的最终目的,还是要理解用户的意图,给出正确的响应。而对用户意图的理解需要结合各个方面的内容。
包括用户自身的历史信息、用户的教育程度、用户当前的状态信息、用户的标签、心理学社会学等等,只有这些所有的信息输入人工智能系统中,才能获得最好的响应。而这个过程是需要不断优化和迭代的。
第三是原始数据的获取。这里原始数据获取包含很多方面,比如获取用户说的声音,获取用户的体温、心率,获取用户的手势和姿态等等。只有能够精确获取到这些原始数据,才能让后续的计算处理更加可靠。
以获取用户说的声音为例,传统的麦克风(单麦)无法很好的解决多人拾音问题,而讯飞研发的五麦甚至是球形麦克风,则能很好的解决拾音问题。
文 / 姜小舟
联系客服