打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
CVPR2019|基于场景图的可解释显示视觉推理

计算机视觉三大顶会之一CVPR2019在美国洛杉矶举办,此前接收结果已经公布,一共有1300篇论文被接收,接收率为25.2%

今天分享给大家的是其中一篇被接收的论文《Explainable and Explicit Visual Reasoning over Scene Graphs》。

论文链接:https://arxiv.org/pdf/1812.01855.pdf

研究背景
视觉问答(Visual Question Answering)是近年来很受关注的一个跨模态任务,它的输入是一张图片和一个与图片有关的自然语言问题(如“桌上放着什么东西”),目标是让模型自动回答该问题。

视觉推理(Visual Reasoning)与视觉问答的形式类似,但输入的问题更难,且会涉及到物体之间的多跳关系(如“桌子旁边的椅子上的盘子是什么颜色”),这就要求模型具有推理能力。视觉推理任务最早由李飞飞等人在2017 年提出,他们提出的 CLEVR [1]数据集是目前使用最多的。


神经模块网络(Neural Module Networks,NMN)[2]是解决视觉推理任务的一类有效方法。

它定义了很多小的神经模块,每个模块负责特定的功能(如定位物体,转移注意力等),然后将输入的问题解析为模块的组合从而得到一个由模块组成的程序,执行程序即可得到问题的答案。它充分利用了语言的可组合性,并且大大增加了模型的透明度。已有的 NMN 方法都是直接对图片本身的像素级特征进行操作,该论文认为人脑的推理过程是建立在符号、概念等基础上的,仅利用像素级信息很难进行精确的推理。另外已有的 NMN 方法需要仔细设计每个模块的内部实现细节,这是很需要技巧的,不容易扩展到新的领域。

论文方法


论文提出了基于场景图(Scene Graph)来实现 NMN进行视觉推理。

Scene Graph 是对图片进行解析后得到的结果,它的节点(node)对应图片中的物体,它的边(edge)对应物体之间的关系。作者认为物体检测和场景推理任务应该分离开来,推理任务直接建立在检测出来的物体上,而不是像以往的方法那样建立在像素级别上。基于 Scene Graph,作者设计了以下四种基本操作,作为元模块(Meta Modules):


AttendNode 输出一个在所有节点上的注意力向量,用来找到特定的物体节点;AttendEdge 输出一个在所有边上的注意力矩阵,用来找到特定的关系;Transfer 用来将注意力从一个节点转移到其他节点上,转移的路径由边上的注意力权重决定;Logic 用来对注意力向量进行逻辑操作,即与或非。

只需要对这四种元模块进行组合,即可得到更加复杂的模块,以在 CLEVR 等数据集上使用,这大大简化了模块内部实现的设计。另外,所有的元模块都完全基于注意力机制,意味着在执行由模块组成的程序时,所有中间过程都可以进行可视化,这大大增强了模型的可解释性。


下面是论文方法的流程图。对于输入的图片和问题,使用外部解析器,将图片解析成 Scene Graph,将问题解析成模块组成的程序,然后在 Scene Graph 上执行程序,从而得到预测的答案。




实验结果

论文在三个数据集上做了实验,分别是 CLEVR、CLEVR-CoGenT 和 VQA2.0。其中CLEVR 和 CLEVR-CoGenT 是合成数据集,VQA2.0 是真实数据集。

下表给出了在 CLEVR 上的结果,其中 XNM-GT 表示使用的是标注好的 Scene Graph,XNM-Det 表示使用的是检测出来的 Scene Graph,可以看到当Scene Graph 完全正确时,论文方法可以达到100%的准确率。由于论文提出的模块设计非常简单,模型只需要非常小的参数量,只是其他模型的几十分之一甚至几百分之一。




下表给出了在 CLEVR-CoGenT 上的结果,该数据集有两种设定,分别是 Condition A 和 Condition B,训练集全部都是 Condition A,而测试集则既有 A 也有 B。可以看到当 Scene Graph 完全正确时,在两种条件下论文方法均可以达到100%的准确率。


在 VQA2.0 上的结果,论文提出方法的效果要远远好于使用像素级特征的 StackNMN,同时也表明了方法在真实数据集上同样适用。

AI Time是一群关注人工智能发展,并有思想情怀的青年人创办的圈子。AI Time旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造成为北京乃至全国人工智能知识分享的策源地和聚集地。

AI Time:论道自动机器学习与可解释机器学习

时间:6月19日15:00-17:00

地点:海淀区中关村东路搜狐大厦二楼1911(清华科技园)

本次活动我们邀请了四位大牛:美国伊利诺伊大学芝加哥分校(UIC)特聘教授Philip Yu(ACM/IEEE Fellow,原ACM TKDD主编)、美国密歇根大学Qiaozhu Mei教授(绝对的青年才俊,刚拿了WWW 最佳论文,之前还拿过ICML、WSDM最佳论文)、北京大学的王立威教授(无敌的青年才俊,ML理论方面难逢对手)、百度高级研究员李兴建。

赶快戳下方小程序进入AI Time报名通道!

学术头条

发掘科技创新的原动力


您的转发就是我们最大的动力

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
DeepMind AI 关系推理超越人类:深度神经网络模块即插即用
做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点
动态 | HCP Lab 12篇论文入选世界顶级计算机视觉会议CVPR 2019
【ECCV 2020】GINet:Graph Interaction Network for Scene Parsing
CVPR 2021 论文大盘点-文本图像篇
CVPR 2019 | 重磅!34篇 CVPR2019 论文实现代码
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服