AI语音对话何时摆脱智障？

超越机器学习的新工具

对话AI是人工智能的一个子领域，专注于在人与计算机之间产生自然而无缝的对话。近年来，在自动语音识别（ASR），文本到语音（TTS）和意图识别等方面都产生了重大改进，但是，我们距离科幻小说中所承诺的流畅的人机对话还有很长的路要走。机器学习在过去几年推动了面部识别，语音识别和对象识别等领域取得重大进步，使许多人相信它将解决会话AI存在的问题。

机器学习特别适合于涉及在大型数据库中查找的问题，例如有关会话AI中语音识别、语音合成的问题就能通过机器学习提供很好的解决方案。近几年，计算机对话的研究主要关注自然语言理解，人工智能理解人类意图的能力也有了很大进步。但是在自热语言生成方面还有很大的挑战，自然语言对语境十分敏感，往往是一种含糊不清的状态，通过机器学习收集分析大量的数据很难生成合适的回答，能够维持持续可靠的对话状态将是接下来对话管理要关注的主要问题，我们需要超越机器学习的新工具来有效管理人机对话的所有方面。

追求更高保真度的对话

现在大多数的会话体验要么是广泛但是很浅，（例如，“时间是什么时候？”=>“时间是早上9点45分”）要么是深入但是狭窄（例如，在测验游戏中多场景的人物对话）。我们需要超越这些会话限制，进入到一个广泛而深入的对话世界。会话AI需要更好地理解用户输入的上下文，能够做出适当地响应，强有力地跟踪对话的状态。

在人类彼此之间的自然对话中，每个人都会根据谈话对象之前的经历，作出为他们量身定制的回答。但机械的AI对话往往缺少个性令人感到厌烦。要解决这个问题或需让机器对谈话人进行身份识别，以便让AI知道你是谁，同时跟踪先前对话的状态，学习特定用户的偏好或风格，并且对不同的用户做出个性化的回应。

一直以来，会话AI专注于理解口头输入和产生口头反应。但是，应该允许用户以多种不同的方式提供输入，并且输出也能以不同的形式生成。例如，通过情绪分析让AI对情绪级输入做出反应，并能考虑同时进行多个输入或输出会带来的一系列复杂性问题。

将人类置于初始对话生成的循环中

目前已经可以发现，尝试生成完全自动化的自然语言生成可能不是最佳前进方式，因为最自然的人类对话不是重组大量先前对话数据的结果，而是通过联系当前上下文，考虑到双方独特的会话历史，以及一系列的会话习惯和技巧所形成的。

所以在当前技术条件下，自然语言生成的解决方案无法消除人类在机器学习循环中的介入，将人类置于初始对话生成的循环中，能够控制合成角色的语气，风格和个性。让人类进行创造性输入，帮助系统识别每个上下文做个性化的回应，并定义对话应该如何流入下一个问题或主题。训练出灵活的创作工具，带给我们一个愉快、流畅的对话体验。

一鸣网文章同步平台

艾瑞丨百度百家丨蓝鲸TMT

微博丨界面丨UC丨品途网|性看点

网易媒体开放平台丨搜狐公众平台|艾瑞网|

百家号|新浪看点|凤凰号|一点资讯

今日头条|科技头条|知乎

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。