语音机器人的基础能力有多强？一文带你了解语音识别技术

要回答这个问题，我们需要从语音机器人的基础能力介绍起

1、语音机器人简介及挑战

语音机器人（电话机器人），主要包括两种形态：呼入，即由机器人来承接用户电话咨询业务；外呼，即由机器人主动发起电话，触达用户，从而完成语音对话。

不论呼入，还是外呼，核心都包括电话通信技术、语音识别技术、对话技术，从当前行业来说，由于电话通信技术比较成熟，语音机器人效果瓶颈主要在：语音识别技术、对话技术。要优化语音与对话的体验，核心主要包括两方面：一方面对用户的理解越来越准确，另一方面提供尽量顺畅的交互能力，最终达成好的交互体验和业务效果。

由于实际语音交互中，口语化表达、噪音干扰、短词短句等情况广泛存在，实际业务中对于用户声音转写为文本、很难达到一个比较好的效果。

2、语音机器人与用户交互模式

沃丰科技的语音机器人与用户交互，在用户声音输入后，通常包括几个处理流程：

ASR：Automatic Speech Recognition，自动语音识别技术，即将用户输入的声音信息转写成对应的文本

NLU：Natural Language Understanding，自然语言理解，可以简单理解为，解析文本中包含的意图/目的

DM：Dialog Management，对话管理，即基于NLU返回结果进行决策，确定机器人下一步行动，可能是回复某个答案、也可能是表示对用户问题的不理解，也可能需要对用户进行反问意图确认。

NLG：Natural Language Generation，自然语言生成，可以理解为，生成回复给用户的答案，需要注意的是，此时的答案还是文本形式。

TTS：Text To Speech，从文本到语音，即语音合成，把NLG生成的文本答案合成为语音答案，从而播放给用户。

由于整个对话的核心模块（NLU、DM、NLG）是完全基于文本操作的，所以丢失了一些语音模态的信息，如用户情绪化的语气就无法传递给模型，同时ASR也会给下游带来误差传播。

3、语音语义驱动让语音机器人更聪明

基于以上问题，阿里对于ASR和NLU，提出了语音特色的文本驱动对话。语音特色的文本驱动对话，本质是一个具有容错能力的模型，用户声音信息的理解，不在割裂为ASR和NLU两段，机器人可同时基于发音信息和语义信息来解决用户意思，在某些字有错误的情况下，由于模型同时包含了语音、语义信息，因而具有更高的容错能力。

基于语音语义驱动技术，阿里的机器人能更准确地理解用户的意思，成为更聪明的机器人。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。