【AI讲坛】京东何晓冬 | 多模态智能：语言和视觉的感知、推理及表达

科技行者原创报道

近日，AITech（2018 国际智能科技峰会）于深圳召开。该峰会由深圳市人民政府指导，深圳市龙岗区人民政府、中关村视听产业技术创新联盟、新一代人工智能产业技术创新战略联盟主办，深圳龙岗智能视听研究院承办。会上，京东 AI 平台与研究部 AI 研究院常务副院长何晓冬博士带来了主题为《多模态智能：语言和视觉的感知、推理及表达》的主题演讲。
何晓冬表示，多模态智能包括文本、图像、结构化知识等。谈到为什么要做多模态智能，他简单回顾了视觉感知方面的进步：由于深度学习技术的进步，计算机很早就在一些测试上达到人类水平，但是，计算机对真实世界的理解仍然是一个巨大挑战。（其中，语义理解与认知是难点。）
“首先要建立语义空间，联结图像与文字；然后要加入结构化知识来帮助深度认知，识别人名、地点等信息。最后，可以深入模型内部，用语言来表达对图片内容的理解。”
他认为，AI 会持续关注场景中的各个局部，并生成对应的语言描述。进一步，他们从生成一个句子发展到生成一篇短文。而再往后，他们试图在语言表达中加入情感和风格。接下来有趣的工作是，从感知到推理，例如让计算机回答关于一幅图片的问题。
何晓冬重点提到推理的难点：“为了回答问题，需要识别和理解物体间微妙的关系，还要能结合问题进行分析和推理等等。”为了模拟推理，他们做了一个基于多重关注神经网络的系统，主要涵盖四个模型，语言模型、图像模型、多重关注模型、答案预测模型，他也进一步讲解了这些模型具体的功能以及整体推理过程。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。