打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
语音机器人的基础能力有多强?一文带你了解语音识别技术

要回答这个问题,我们需要从语音机器人的基础能力介绍起

1、语音机器人简介及挑战

语音机器人(电话机器人),主要包括两种形态:呼入,即由机器人来承接用户电话咨询业务;外呼,即由机器人主动发起电话,触达用户,从而完成语音对话。

不论呼入,还是外呼,核心都包括电话通信技术、语音识别技术、对话技术,从当前行业来说,由于电话通信技术比较成熟,语音机器人效果瓶颈主要在:语音识别技术、对话技术。要优化语音与对话的体验,核心主要包括两方面:一方面对用户的理解越来越准确,另一方面提供尽量顺畅的交互能力,最终达成好的交互体验和业务效果。

由于实际语音交互中,口语化表达、噪音干扰、短词短句等情况广泛存在,实际业务中对于用户声音转写为文本、很难达到一个比较好的效果。

2、语音机器人与用户交互模式

沃丰科技的语音机器人与用户交互,在用户声音输入后,通常包括几个处理流程:

ASR:Automatic Speech Recognition,自动语音识别技术,即将用户输入的声音信息转写成对应的文本

NLU:Natural Language Understanding,自然语言理解,可以简单理解为,解析文本中包含的意图/目的

DM:Dialog Management,对话管理,即基于NLU返回结果进行决策,确定机器人下一步行动,可能是回复某个答案、也可能是表示对用户问题的不理解,也可能需要对用户进行反问意图确认。

NLG:Natural Language Generation,自然语言生成,可以理解为,生成回复给用户的答案,需要注意的是,此时的答案还是文本形式。

TTS:Text To Speech,从文本到语音,即语音合成,把NLG生成的文本答案合成为语音答案,从而播放给用户。

由于整个对话的核心模块(NLU、DM、NLG)是完全基于文本操作的,所以丢失了一些语音模态的信息,如用户情绪化的语气就无法传递给模型,同时ASR也会给下游带来误差传播。

3、语音语义驱动让语音机器人更聪明

基于以上问题,阿里对于ASR和NLU,提出了语音特色的文本驱动对话。语音特色的文本驱动对话,本质是一个具有容错能力的模型,用户声音信息的理解,不在割裂为ASR和NLU两段,机器人可同时基于发音信息和语义信息来解决用户意思,在某些字有错误的情况下,由于模型同时包含了语音、语义信息,因而具有更高的容错能力。

基于语音语义驱动技术,阿里的机器人能更准确地理解用户的意思,成为更聪明的机器人。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
AI测试|天猫精灵智能音箱测试策略与方法
要跟机器说上话,总共分几步?
58同城智能语音质检系统架构实践
国内最值得关注的10家人工智能语音识别公司
【NLP-ChatBot】能干活的聊天机器人-对话系统概述
崔世起:小米小爱同学无效Query识别
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服