科技行者原创报道
近日,AITech(2018 国际智能科技峰会)于深圳召开。该峰会由深圳市人民政府指导,深圳市龙岗区人民政府、中关村视听产业技术创新联盟、新一代人工智能产业技术创新战略联盟主办,深圳龙岗智能视听研究院承办。会上,京东 AI 平台与研究部 AI 研究院常务副院长何晓冬博士带来了主题为《多模态智能:语言和视觉的感知、推理及表达》的主题演讲。
何晓冬表示,多模态智能包括文本、图像、结构化知识等。谈到为什么要做多模态智能,他简单回顾了视觉感知方面的进步:由于深度学习技术的进步,计算机很早就在一些测试上达到人类水平,但是,计算机对真实世界的理解仍然是一个巨大挑战。(其中,语义理解与认知是难点。)
“首先要建立语义空间,联结图像与文字;然后要加入结构化知识来帮助深度认知,识别人名、地点等信息。最后,可以深入模型内部,用语言来表达对图片内容的理解。”
他认为,AI 会持续关注场景中的各个局部,并生成对应的语言描述。进一步,他们从生成一个句子发展到生成一篇短文。而再往后,他们试图在语言表达中加入情感和风格。接下来有趣的工作是,从感知到推理,例如让计算机回答关于一幅图片的问题。
何晓冬重点提到推理的难点:“为了回答问题,需要识别和理解物体间微妙的关系,还要能结合问题进行分析和推理等等。”为了模拟推理,他们做了一个基于多重关注神经网络的系统,主要涵盖四个模型,语言模型、图像模型、多重关注模型、答案预测模型,他也进一步讲解了这些模型具体的功能以及整体推理过程。
联系客服