https://dl.acm.org/doi/abs/10.1145/3372278.3390671
主要贡献
作为场景理解的核心问题之一,人物交互检测(human object interaction detection, HOID)的目标是识别细粒度的特定对象的人体动作,这要求具有视觉感知和推理能力。
现有的基于卷积神经网络(convolutional neural network, CNN)的HOID方法利用了不同的视觉特征,无法满足复杂的人物交互理解。为了提高CNN的推理能力,本文提出了一种新的多层次条件网络(MLCNet),融合了额外的空间语义知识和视觉特征。
具体来说,本文构建了一个多分支CNN作为多级视觉表示的主干。然后将人体结构和目标上下文等额外知识编码为条件,通过仿射变换和注意机制动态影响CNN的特征提取。最后,融合调制的多模态特征来区分相互作用。
本文提出的方法在两个最常用的基准,HICO-DET和V-COCO上进行了评估。实验结果表明,本文的方法优于现有的方法。
具体实现
,表示图像,表示应用一些现成的视觉感知模型来提取到的额外的空间语义知识,表示一起传入模型MCLNet。其中是为检测到的HOI实例,其中和为检测到的人与目标的边界框,属于HOI类别集。一个HOI类别包含一个动作和一个对象,它们分别属于相应的动作集和对象类别集。
▊ 1. 额外知识的提取
MLCNet综合利用语义信息、全局空间分布以及身体部位与目标之间的关系进行HOI推理。这些显式知识作为纯视觉特征和复杂语义之间的桥梁,有助于提高深度网络的推理能力和可解释性。
对象检测
人和对象实例作为HOI候选对象配对。对象类别是用一组在大规模语言数据集上预先训练好的高维词向量表示的。
姿态估计
人体解析
▊ 2. 多层次的视觉特征
本文构建了一个多分支CNN作为MLCNet的主干。该网络结构对全局上下文、交互阶段、实体和身体部位的综合视觉信息进行编码,并对应分支进行独立优化,能够在训练阶段有效地学习不同的外观分布。
具体方法
▊ 3. 多层次调节
本文采用了多级条件作用机制,进一步提高了前述多分支CNN的推理能力。具体来说,该方法将全局图像特征、交互阶段特征和人体部位特征与人体结构和对象上下文的空间语义信息动态交替。
全局作用
图1显示了全局条件网络的概述。它由四个连续的卷积块组成,与CNN的主干块数目相同。第一个条件块与CNN主干的BaseBlock结构相同,下面的条件块包含三个使用1×1内核的卷积层,其中存在两个LeakyReLU激活层。
值得注意的是,条件特征始终与相应的视觉特征进行空间对齐。在CNN主干的每一个块之后,通过一个特征变换块来实现全局条件化,如图1所示,它结合了相同尺度的视觉特征和条件特征。
如上图所示,FTBlock的特征变换层采用仿射变换,将输入的视觉特征和调制参数动态交替。参数由取人体状态特征的映射函数生成:
其中通过使用1×1内核和LeakyReLU激活使用双卷积层实现,表示按元素乘法。
局部作用
具体,首先将人的实例分成组,身体部分用一组具有适当边距的对应体关节组周围的边界框表示。
由于局部条件作用是在全局特征中裁剪出来的局部视觉特征上进行的,因此无法保留形状、边缘等细粒度的空间细节。本文生成一个box级人体-对象空间配置图如下,作为局部条件,编码人-物对的相对位置,所有人体部位拥有个通道。每个通道都是一个二维的二元矩阵,具有相同大小的相互作用短语。包围框内的数字设为1,否则设为0。
将配置图输入局域条件网络生成局域条件特征。局域条件网络由四个1×1内核的卷积层组成,其中存在三个LeakyReLU激活层。局部条件作用采用局部特征变换模块实现,其结构与相同:
身体部位的注意力机制
其中为LeakyReLU激活函数,为项目参数,为偏置项,。
其中,是包围框根据第i个身体部位从裁剪的特征。
其中为通道级联。
对象上下文注意可以有效地改善人体部位的视觉特征。
▊ 4. 多通道特征融合
其中ˆδ为动作的融合置信向量,δ的上标表示对应的特征类型。则为HOI类别σ的置信度值。
值得注意的是,考虑到HOI的类别空间可能相当大,要获得足够和平衡的训练数据是不现实的。我们将HOI类别分解为动作和对象,并独立地识别它们。该方法可以处理大规模类别空间和长尾数据(类别数量严重不平衡)分布。此外,交互知识可以在不同对象之间传递,这使得零命中HOID成为可能。
▊ 5. 模型训练
在这里,小批量损失是一个总和,而不是平均值。它有效地避免了罕见类别中的样本被忽略的情况,并且可以避免模型偏于频繁出现的类别。
▊ 6. 实验结果
成分分析结果
性能对比
讨论
结论
为了弥补图像的低层视觉特征与人物交互的高层语义信息之间的差距,本文提出了一种多层次条件网络,利用额外的空间语义信息作为条件来动态影响CNN的行为。
END
欢迎加入「计算机视觉」交流群👇备注:CV
联系客服