打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【AI讲坛】京东何晓冬 | 多模态智能:语言和视觉的感知、推理及表达

科技行者原创报道

近日,AITech(2018 国际智能科技峰会)于深圳召开。该峰会由深圳市人民政府指导,深圳市龙岗区人民政府、中关村视听产业技术创新联盟、新一代人工智能产业技术创新战略联盟主办,深圳龙岗智能视听研究院承办。会上,京东 AI 平台与研究部 AI 研究院常务副院长何晓冬博士带来了主题为《多模态智能:语言和视觉的感知、推理及表达》的主题演讲。

何晓冬表示,多模态智能包括文本、图像、结构化知识等。谈到为什么要做多模态智能,他简单回顾了视觉感知方面的进步:由于深度学习技术的进步,计算机很早就在一些测试上达到人类水平,但是,计算机对真实世界的理解仍然是一个巨大挑战。(其中,语义理解与认知是难点。)

“首先要建立语义空间,联结图像与文字;然后要加入结构化知识来帮助深度认知,识别人名、地点等信息。最后,可以深入模型内部,用语言来表达对图片内容的理解。”

他认为,AI 会持续关注场景中的各个局部,并生成对应的语言描述。进一步,他们从生成一个句子发展到生成一篇短文。而再往后,他们试图在语言表达中加入情感和风格。接下来有趣的工作是,从感知到推理,例如让计算机回答关于一幅图片的问题。

何晓冬重点提到推理的难点:“为了回答问题,需要识别和理解物体间微妙的关系,还要能结合问题进行分析和推理等等。”为了模拟推理,他们做了一个基于多重关注神经网络的系统,主要涵盖四个模型,语言模型、图像模型、多重关注模型、答案预测模型,他也进一步讲解了这些模型具体的功能以及整体推理过程。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
商汤版类ChatGPT来了!“日日新”大模型体系发布,现场演示AI写代码、线上问诊、秒做视频
戴着苹果Vision Pro打麻将!NTU微软华人团队联手打造Otter-E,专为AR头显设计
一个会幻想的AI
史上最大“通才”AI模型现身!多模态输入不再难以理解 参数量高达GPT
对手来了!亚马逊生成式 AI 比 GPT-3.5 更好
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服