打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
《AFTrans》来自ViT的免费午餐!北大&阿里提出用于细粒度视觉识别的自适应注意多尺度融合Transformer

详细信息如下:



  • 论文链接:https://arxiv.org/abs/2110.01240

  • 项目链接:未开源


导言:
在细粒度视觉识别(FGVR)领域中,学习物体的精细表示起着至关重要的作用。视觉Transformer(ViT)由于其强大的注意力机制,在计算机视觉领域取得了很好的效果。尽管如此,由于ViT中的patch大小固定不变,深层的class token专注于全局感受野,因此无法为FGVR生成多粒度特征。

为了在没有bounding box标注的情况下捕获区域注意力并弥补FGVR中ViT的不足,作者提出了一种新的方法——自适应注意多尺度融合Transformer(Adaptive attention multi-scale Fusion Transformer,AFTrans)。该方法中的选择性注意收集模块(Selective Attention Collection Module,SACM)利用了ViT中的注意力权重,并根据输入patch的相对重要性来自适应地过滤它们。此外,多尺度(全局和局部)pipeline由权重共享的编码器进行监督,从而可以进行端到端的训练。

实验表明,AFTrans可以在三个细粒度基准数据集(CUB-200-2011、Stanford Dog和iNat2017)上达到SOTA性能。


      01      

Motivation


与图像识别相比,细粒度视觉识别(FGVR)是一项具有挑战性的任务。FGVR方法可以分为三类:特征编码方法基于定位的方法基于注意力的方法 。与特征编码方法相比,定位方法能够清晰地区分不同子类之间的细微差别,通常可以得到更好的结果,但需要区域标注信息。基于注意力的方法通过利用CNN自身特征图的attention特性来选择图像中重要的区域,从而避免手工的区域标注。


Transformer在CV领域已成为研究热点,在图像分类和图像检测中得到了广泛的应用。Vision Transformer(ViT)通过将图片进行分割为多个patch token的操作,充分利用了Transformer注意力机制的建模能力。

尽管如此,ViT无法直接在FGVR上发挥其优势。例如,ViT的感受野无法有效扩展,因为patch token的长度不会随着其编码器块的增加而改变。此外,该模型无法有效捕获patch token的区域注意。

为了解决上述问题,TransFG提出使用ViT的注意力权重来排除最终Transformer层中的不必要的输入,以选择保留有用的token。然而,如上图所示,与TransFG中的PSM相比,单个Transformer层(如L3)中的注意力可以实现更好的精度,而本文的SACM通过自适应集成实现了最好的精度。

此外,TransFG还忽略了全局损失函数的监督,并且缺少多尺度和多分支的融合。因此,为了解决上述问题,作者提出了自适应注意多尺度融合Transformer(AFTrans)来解决细粒度视觉识别的任务。


      02      

方法


2.1. Attention in Vision Transformer

Vision Transformer通过patch embedding将Transformer引入到计算机视觉任务中。首先把输入的图片分成个patch,每个patch的大小为。这些patch分别输入到卷积核大小为的卷积网络中,然后加上可学习的位置编码,得到一维的序列,表示为:


其中,就是输入到encoder之前的特征;表示patch embedding;表示可学习的位置编码;为随机初始化的class token。Transformer编码器由多头自注意(MSA)和多层感知机(MLP)模块组成。第层的输出计算如下图所示:


其中分别是Query、Key和Value向量。Vision Transformer将输出特征的第一个token,即class token,作为分类任务的特征。这是因为class token比其他patch token具有更多的全局信息。分类网络的公式如下:


其中是分类网络的输出,是网络的权重,是与class token对应的编码器的输出。

2.2. AFTrans Model


视觉Transformer可以用于细粒度分类,而不能很好地捕获FGVR所需的局部细节信息。因此,作者提出了自适应注意多尺度融合Transformer (AFTrans) 来解决上述问题,模型结构如上图所示。

2.2.1 Selective Attention Collection Module

为了捕获原始图片中具有代表性特征的局部部分,SACM收集了每一层多头自注意力的权重,并自适应地微调它们对注意图的感知贡献。首先,作者提取了Transformer层的attention权重,计算如下:


其中是embedding的维度。作者认为有效的注意力特征可以通过Hadamard积,在每一层中逐渐积累和放大,因此作者整合了每一层的注意力权重,如下所示:


然后作者将 𝐿 层的注意力权重concat起来,得到 。SACM的核心是 “attention in attention”。因此,作者首先使用global average-pooling的方法来压缩注意力权重的通道维度,然后将其输入到一个网络中得到layer attention 。该网络由具有一个隐藏层的MLP组成,隐藏层大小为,其中为压缩比。最后采用了sigmod函数,来得到attention的结果:


其中,是ReLU激活函数,。矩阵反映了图像token之间的相关性。为了选择有效的token,作者选择了和class token最相关的个token 用于分类任务。其中,为patch数量,𝜆 为阈值。接着,作者采用最大连接区域搜索算法来提取 的最大连接分量,用于定位和缩放原始图像中的区域注意力。

2.2.2 Multi-scale Fusion Training Pipeline

为了提高不同尺度图像的分类能力和鲁棒性,作者采用了多粒度(局部和全局)的结构。首先,将原始图像输入到ViT并获得全局损失。然后,获取原始图像裁剪出局部图像,并通过双线性插值调整224×224的大小,并将其和新的class token进行拼接,然后输入到ViT中以获得局部丢失。全局和局部分支共享一个ViT以避免更多的参数。在训练过程中,总的损失函数是一个全局损失和局部损失组成的多任务损失函数,分别由交叉熵损失进行监督:


其中,是调节权重的因子。分别代表全局和局部损失。在训练时,作者同时采用了两个损失函数同时进行监督;在推理时,采用全局的logits进行预测。



      03      

实验


3.1. Performance Comparison


上表展示了CUB和Stanford Dogs数据集上,本文方法和不同SOTA方法的对比,可以看出,本文方法的性能要高于其他的方法。


上表展示了在iNat2017数据集上,本文方法和不同SOTA方法的对比,可以看出本文方法具备性能上的优势。

3.2. Ablation Studies

Impact of Selective Attention Collection Module


从上表可以看出,本文提出的SACM能够带来1.1%的性能提升。

Impact of branch logits in multi-scale framework


上表展示了在推理阶段采用不同logits的结果,可以看出在推理阶段采用全局logits效果更好。

Impact of hyperparameters 𝝀


𝜆 控制了SACM基于哪些token来生成坐标。从上表可以看出,𝜆=0.4时能够达到比较好的结果。

Impact of the manner of generating local coordinate


上表展示了生成坐标的不同方法对结果的影响,可以看出,用largest connected component (LCC)的方法能够获得更好的结果。

4.3. Visualization Analysis


上图展示了AFTrans选择的局部区域的可视化结果,可以看出局部区域确实包含更丰富的细粒度信息。


      04      

总结


在本文中,作者提出了自适应注意多尺度融合Transformer (AFTrans) ,能够在没有bounding box标注的情况下学习局部区域的attention,并弥补FGVR中的ViT缺点。此外,作者提出的多尺度结构可以充分利用SACM获得的图像,从而达到更加不错的性能。实验表明,AFTrans可以在三个细粒度基准数据集(CUB-200-2011、Stanford Dog和iNat2017)上达到SOTA性能。

▊ 作者简介
研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。
知乎/公众号:FightingCV

END




加入「Transformer交流群👇备注:TFM




本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了(六)
Vision Transformer 必读系列之图像分类综述(一): 概述
【书童的学习笔记】集智小书童建议你这么学习Transformer,全干货!!!
重大里程碑!VOLO屠榜CV任务,无需额外数据,首次在ImageNet 上达到87.1%
VIT(vision transformer)模型介绍 pytorch代码炸裂解析
统治扩散模型的U-Net要被取代了,谢赛宁等引入Transformer提出DiT
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服