详细信息如下：

论文链接：https://arxiv.org/abs/2110.01240
项目链接：未开源

导言：

在细粒度视觉识别（FGVR）领域中，学习物体的精细表示起着至关重要的作用。视觉Transformer（ViT）由于其强大的注意力机制，在计算机视觉领域取得了很好的效果。尽管如此，由于ViT中的patch大小固定不变，深层的class token专注于全局感受野，因此无法为FGVR生成多粒度特征。

为了在没有bounding box标注的情况下捕获区域注意力并弥补FGVR中ViT的不足，作者提出了一种新的方法——自适应注意多尺度融合Transformer（Adaptive attention multi-scale Fusion Transformer，AFTrans）。该方法中的选择性注意收集模块（Selective Attention Collection Module，SACM）利用了ViT中的注意力权重，并根据输入patch的相对重要性来自适应地过滤它们。此外，多尺度（全局和局部）pipeline由权重共享的编码器进行监督，从而可以进行端到端的训练。

实验表明，AFTrans可以在三个细粒度基准数据集（CUB-200-2011、Stanford Dog和iNat2017）上达到SOTA性能。

Motivation

与图像识别相比，细粒度视觉识别（FGVR）是一项具有挑战性的任务。FGVR方法可以分为三类：特征编码方法 、基于定位的方法和基于注意力的方法 。与特征编码方法相比，定位方法能够清晰地区分不同子类之间的细微差别，通常可以得到更好的结果，但需要区域标注信息。基于注意力的方法通过利用CNN自身特征图的attention特性来选择图像中重要的区域，从而避免手工的区域标注。

Transformer在CV领域已成为研究热点，在图像分类和图像检测中得到了广泛的应用。Vision Transformer（ViT）通过将图片进行分割为多个patch token的操作，充分利用了Transformer注意力机制的建模能力。

尽管如此，ViT无法直接在FGVR上发挥其优势。例如，ViT的感受野无法有效扩展，因为patch token的长度不会随着其编码器块的增加而改变。此外，该模型无法有效捕获patch token的区域注意。

为了解决上述问题，TransFG提出使用ViT的注意力权重来排除最终Transformer层中的不必要的输入，以选择保留有用的token。然而，如上图所示，与TransFG中的PSM相比，单个Transformer层（如L3）中的注意力可以实现更好的精度，而本文的SACM通过自适应集成实现了最好的精度。

此外，TransFG还忽略了全局损失函数的监督，并且缺少多尺度和多分支的融合。因此，为了解决上述问题，作者提出了自适应注意多尺度融合Transformer（AFTrans）来解决细粒度视觉识别的任务。

方法

2.1. Attention in Vision Transformer

Vision Transformer通过patch embedding将Transformer引入到计算机视觉任务中。首先把输入的图片分成个patch，每个patch的大小为。这些patch分别输入到卷积核大小为的卷积网络中，然后加上可学习的位置编码，得到一维的序列，表示为：

其中，就是输入到encoder之前的特征；表示patch embedding；表示可学习的位置编码；为随机初始化的class token。Transformer编码器由多头自注意（MSA）和多层感知机（MLP）模块组成。第层的输出计算如下图所示：

其中分别是Query、Key和Value向量。Vision Transformer将输出特征的第一个token，即class token，作为分类任务的特征。这是因为class token比其他patch token具有更多的全局信息。分类网络的公式如下:

其中是分类网络的输出，是网络的权重，是与class token对应的编码器的输出。

2.2. AFTrans Model

视觉Transformer可以用于细粒度分类，而不能很好地捕获FGVR所需的局部细节信息。因此，作者提出了自适应注意多尺度融合Transformer (AFTrans) 来解决上述问题，模型结构如上图所示。

2.2.1 Selective Attention Collection Module

为了捕获原始图片中具有代表性特征的局部部分，SACM收集了每一层多头自注意力的权重，并自适应地微调它们对注意图的感知贡献。首先，作者提取了Transformer层的attention权重，计算如下：

其中是embedding的维度。作者认为有效的注意力特征可以通过Hadamard积，在每一层中逐渐积累和放大，因此作者整合了每一层的注意力权重，如下所示：

然后作者将 𝐿 层的注意力权重concat起来，得到。SACM的核心是 “attention in attention”。因此，作者首先使用global average-pooling的方法来压缩注意力权重的通道维度，然后将其输入到一个网络中得到layer attention 。该网络由具有一个隐藏层的MLP组成，隐藏层大小为，其中为压缩比。最后采用了sigmod函数，来得到attention的结果：

其中，是ReLU激活函数，，。矩阵反映了图像token之间的相关性。为了选择有效的token，作者选择了和class token最相关的个token 用于分类任务。其中，为patch数量，𝜆 为阈值。接着，作者采用最大连接区域搜索算法来提取的最大连接分量，用于定位和缩放原始图像中的区域注意力。

2.2.2 Multi-scale Fusion Training Pipeline

为了提高不同尺度图像的分类能力和鲁棒性，作者采用了多粒度（局部和全局）的结构。首先，将原始图像输入到ViT并获得全局损失。然后，获取原始图像裁剪出局部图像，并通过双线性插值调整224×224的大小，并将其和新的class token进行拼接，然后输入到ViT中以获得局部丢失。全局和局部分支共享一个ViT以避免更多的参数。在训练过程中，总的损失函数是一个全局损失和局部损失组成的多任务损失函数，分别由交叉熵损失进行监督：

其中，是调节权重的因子。和分别代表全局和局部损失。在训练时，作者同时采用了两个损失函数同时进行监督；在推理时，采用全局的logits进行预测。

实验

3.1. Performance Comparison

上表展示了CUB和Stanford Dogs数据集上，本文方法和不同SOTA方法的对比，可以看出，本文方法的性能要高于其他的方法。

上表展示了在iNat2017数据集上，本文方法和不同SOTA方法的对比，可以看出本文方法具备性能上的优势。

3.2. Ablation Studies

Impact of Selective Attention Collection Module

从上表可以看出，本文提出的SACM能够带来1.1%的性能提升。

Impact of branch logits in multi-scale framework

上表展示了在推理阶段采用不同logits的结果，可以看出在推理阶段采用全局logits效果更好。

Impact of hyperparameters 𝝀

𝜆 控制了SACM基于哪些token来生成坐标。从上表可以看出，𝜆=0.4时能够达到比较好的结果。

Impact of the manner of generating local coordinate

上表展示了生成坐标的不同方法对结果的影响，可以看出，用largest connected component (LCC)的方法能够获得更好的结果。

4.3. Visualization Analysis

上图展示了AFTrans选择的局部区域的可视化结果，可以看出局部区域确实包含更丰富的细粒度信息。

总结

在本文中，作者提出了自适应注意多尺度融合Transformer (AFTrans) ，能够在没有bounding box标注的情况下学习局部区域的attention，并弥补FGVR中的ViT缺点。此外，作者提出的多尺度结构可以充分利用SACM获得的图像，从而达到更加不错的性能。实验表明，AFTrans可以在三个细粒度基准数据集（CUB-200-2011、Stanford Dog和iNat2017）上达到SOTA性能。

▊ 作者简介

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END

加入「Transformer」交流群👇备注：TFM

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。