ECCV 2022 | 自支持少样本语义分割

前言针对有限的覆盖范围内的类内变化，提供的支持很少。基于简单的 Gestalt法则，论文提出了一种新的自支持匹配策略来缓解这一问题。这种策略可以有效地捕获查询对象的一致底层特征，从而适当地匹配查询特征。
此外，还提出了自适应的自支持背景原型生成模块和自支持丢失模块，以进一步促进自支持匹配过程。本文的自支持网络大大提高了原型的质量，并实现了多个数据集上的SOTA。

论文：https://arxiv.org/pdf/2207.11549.pdf

代码：https://github.com/fanq15/SSP

创新思路

语义分割在深度学习网络和大规模数据集中取得了显著的进展。然而，目前的高性能语义分割方法严重依赖繁琐的像素级标注，这加速了近年来少样本语义分割(FSS)的发展。

少样本语义分割的目的是利用少量的支持样本来分割任意的新类。少样本学习存在两个长期存在的问题：

1.支持图像是有限的和固定的，而查询图像可以是大量的和任意的。

2.由于固有的数据稀缺性和多样性，有限的少样本支持很容易无法覆盖查询图像中目标类的底层外观变化，无论支持质量如何。

因此，作者提出了一种新的自支持匹配策略来缩小匹配的外观差异。这种策略使用查询原型来匹配查询特性。由于查询原型具有自匹配属性，将其称为自支持原型。这一新的想法是由经典Gestalt法则激发的，即属于同一对象的像素比属于不同对象的像素更相似。

首先，通过直接匹配支持原型和查询特征来生成初始掩码预测。在初始查询掩码的基础上，收集高置信度区域的查询特征，生成自支持原型，用于与查询特征进行匹配。如图1所示，自支持模块(SSM)收集了猫头部的高置信度区域特征，用于对整个黑猫进行分割。模型在基类上进行优化，检索对象片段所支持的其他对象部分，即self-support prototype。

图1所示。左图说明了自我支持匹配的核心思想。右上方的图片说明了自我支持匹配的动机:相同物体的像素/区域比不同物体的像素/区域更相似。右下角的图片说明了自我支持匹配与传统的匹配方法有根本的不同。

虽然SSM直接有利于前景原型，但背景通常是混乱的，它没有所有背景像素之间共享的全局语义共性。因此，本文提出通过动态聚合查询图像中的相似背景像素，自适应生成每个查询像素的自支持背景原型，而不是通过聚合所有背景像素来生成全局背景原型。

本文的自支持匹配策略与传统的支持-查询匹配有本质上的不同。本文使用灵活的自支持原型来匹配查询特征，它可以有效地捕获查询对象的一致底层特征，从而适合地匹配查询特征。

如图1所示，查询和支持图像中的猫在颜色、部位和比例上都有很大的差异，加菲猫支持与黑猫查询存在较大的外观差异，传统的支持-查询匹配无疑会产生较差的分割效果。在我们的自助匹配中，本文的自支持原型(黑猫头)与查询(整个黑猫)更加一致。

虽然PANet和CRNet也提出了查询原型，但它们使用查询原型来匹配支持特征，作为一种仅用于辅助训练的查询-支持匹配，无法解决外观差异。本文的自支持方法通过缓解类内外观差异问题显著提高了原型质量，实验验证表明在多个数据集上的性能提升。

本文的主要贡献

1. 提出了一种新的自支持匹配，并构建了一种新的自支持网络来解决FSS中的外观差异问题。

2. 提出了自支持原型、自适应自支持背景原型和自支持损失。

3. 本文的自我支持方法受益于更强的backbone，并以许多可取的优势在多个数据集上优于以前的SOTA。

方法

自支持少样本语义分割

在给定少量支持图像的情况下，少量样本语义分割旨在利用从基类中推广的模型对新类中的对象进行分割。现有主流的少样本语义分割方案可以表述为:输入支持和查询图像{Is, Iq}通过权重共享的backbone处理，提取图像特征{f, Fq}。然后将支持特征Fs及其groundtruth掩码Ms送入掩码平均池化层，分别生成前景和背景区域的支持原型向量Ps。最后，通过对Ps和Fq的余弦相似度进行评估，生成两个距离图D ，然后通过softmax操作进行处理，作为最终预测M1 = softmax(D)。

动机

目前的FSS方法严重依赖于支持原型来分割查询对象，将每个查询像素与支持原型密集匹配。然而，这种跨对象匹配严重地受到类内外观差异的影响，其中支持和查询中的对象即使属于同一个类，看起来也可能非常不同。类内的差异，仅靠少量的支持是无法调和的，查询与支持之间的外观差距较大，会导致匹配结果不佳。

为了验证 Gestalt法则能够缩小这种外观差异，作者统计分析了Pascal VOC跨对象和对象内像素的特征余弦相似度。如表1显示，属于同一对象的像素比跨对象的像素更相似。

表1。交叉/内部物体像素的余弦相似度。

自支持原型

本文的核心思想(图2)是聚合查询特性来生成查询原型，并用它来自支持查询特性本身。

图2所示。自支持网络架构。

首先使用传统的基于支持原型的匹配网络生成初始掩码预测。然后利用初始查询掩码聚合查询特征，生成自支持原型，即自支持前景原型(SSFP)和自适应自支持背景原型(ASBP)。最后，结合支持原型和自支持原型来执行与查询特征的匹配。

作者发现，即使估计的查询掩码并不完美，但只要覆盖了一些有代表性的对象片段，就足以检索到同一对象的其他区域。为了验证部分对象或对象片段能够支持整个对象，使用基于ground truth 掩码标签随机选择特征聚合的部分原型训练和评估模型。如表2所示，本文的self-support prototype在减少用于原型生成的聚合对象区域的同时，始终保持较高的分割性能。相比之下，传统的支持原型即使使用了整个对象的完美支持特征，也始终获得较差的性能。

表2。由完整/部分对象聚合的支持/自我支持原型的1次匹配结果(mIoU)。

自适应自支持背景原型

前景像素具有语义共性，这构成了对前景对象的查询特征与支持原型之间的自支持原型生成和匹配过程的基本原理。因此，可以使用掩码平均池来生成自我支持的前景原型(图3 (a))：

图3。原型分为(a)自我支持(SS)前景原型和(b)自适应自我支持背景原型。

另一方面，背景可能是杂乱的，其中的共性将减少到不相交区域的局部语义相似性，而没有在所有背景像素之间共享全局语义共性。一个简单的解决方案是使用聚类算法直接将多个背景原型分组，然后在每个查询像素上选择最相似的原型进行背景匹配。这种显式的背景分组严重依赖于聚类算法，不稳定且耗时。

因此，作者提出了一种更灵活高效的方法，自适应生成每个查询像素的自支持背景原型(图3 (b))。其思想是为每个查询像素动态聚合相似的背景像素，以生成自适应的自支持背景原型。首先将查询特征Fq与背景掩码fMq,b进行掩码乘法，收集背景查询特征Fq,b。然后通过矩阵乘法运算MatMul，生成重构后的背景查询特征Fq、b和全查询特征Fq的像素之间的亲和力矩阵A:

通过一维softmax操作对亲和矩阵进行归一化，对每个查询像素加权集合背景查询特征，生成自适应的自支持背景原型P⋆q,b :

使用自适应自支持背景原型更新自支持原型：Pq。

自支持匹配

加权组合支持原型Ps和自支持原型Pq：

然后，计算增强支持原型P⋆s和查询特征Fq之间的余弦距离，生成最终匹配预测：

然后，对生成的距离图应用训练监督：

为了进一步促进自支持匹配过程，作者提出了一种新的查询自支持丢失。对于查询特征Fq及其原型Pq，采用以下训练监督：

对支持特征应用相同的过程引入支持自匹配损失Ls。

最后，通过联合优化所有上述损失，以端到端的方式训练模型：

实验

表3.PASCAL-5i数据集的定量比较结果。

表4.COCO-20i数据集的定量比较结果。

表5.自支持模型消融结果。

图4.自我支持匹配工作机制的可视化。

图5（a）自支持原型的掩模阈值变化结果。（b）每个星号标记位置的自适应自支持背景原型（ASBP）特征聚集的可视化。

表6.分别移除前景支持原型（FP）、背景支持原型（BP）、自我支持前景原型（SFP）和自我支持背景原型（SBP）后的自我支持模块（SSM）消融结果。

表7.与自我注意模块的比较。

表11.本文的方法应用于其他模型的结果。

结论

在本文中，通过利用查询特征生成自支持原型并与查询特征进行自支持匹配，解决了少样本分割中固有的关键类内外观差异问题。该策略有效地缩小了支持原型和查询特性之间的差距。

此外，提出了一个自适应的自支持背景原型和一个自支持损失，以便于自支持过程。本文的自支持网络具有各种理想特性，并在多个基准上实现SOTA。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。