SiT:自我监督的视觉transformer

点击上方“深度学习爱好者”，选择加"星标"或“置顶”

重磅干货，第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

由于最近成功地缩小了与监督学习的差距，自监督学习方法在计算机视觉领域获得了越来越多的关注。在自然语言处理(NLP)中，自监督学习和变形已经是常用的方法。最近的文献表明，变形金刚在计算机视觉中也变得越来越流行。到目前为止，视觉变形器在使用大规模监督数据[1]或某种共同监督(如教师网络)进行预训练时表现良好。这些有监督的预训练视觉变形器在[1]，[2]，[3]的最小变化下，在下游任务中取得了非常好的结果。在本研究中，作者研究了自我监督学习在图像/视觉变形预处理中的优点，然后使用它们进行下游分类任务。作者提出了自我监督视觉变形(SiT)，并讨论了几种自我监督训练机制，以获得借口模型。SiT的架构灵活性允许作者将其用作自动编码器，并无缝地处理多个自我监督任务。作者的研究表明，预训练的SiT可以在小型数据集(由几千张图像而不是几百万张图像组成)上进行微调，以完成下游分类任务。该方法在标准数据集上使用通用协议进行了评估。结果表明，变压器的强度和它们的适应性自监督学习。作者的表现大大超过了现有的自我监督学习方法。作者还观察到SiT对少数镜头学习很好，并且还表明它通过简单地在SiT学习的特征上训练线性分类器来学习有用的表示。

代码链接：https://github.com/Sara-Ahmed/SiT

论文创新点

在这项工作中，作者介绍了一个简单的自我监督学习框架，它利用了对比学习和前文本方法的优势。本研究的主要贡献和发现总结如下:

作者提出了一种新的视觉表征自监督学习方法——自监督视觉变压器(SiT)。
作者为SiT体系结构提供了一个解码器，并证明由于变压器的固有特性，它基本上可以通过使用一个线性层来实现。这种基于变压器的自动编码器避免了在基于cnn的编码器-解码器体系结构中通常存在的整个解码器块的需要。
利用自动编码转换器支持多任务学习的天然能力，作者开发了一个强大的自我监督框架，共同优化重构(图像修复)、旋转分类和压缩损失。
作者在不同的评估协议(包括线性评估、域转移和微调)之后，演示了所提议的框架在标准基准上的有效性。
在不同的数据集中，作者的性能优于并行的最先进的结果，改进幅度很大，达到了+13.53%。

框架结构

图像局部变换的例子

实验结果

从作者训练过的SiT模型中重建图像

图像随机从(a)训练数据、(b)测试数据和(c)从互联网上获取。每一行分别表示原始图像、损坏图像和重建图像。

结论

在这项工作中，作者提出了一个自我监督图像转换器，用无标记数据进行训练来执行借口任务，并使用预先训练的模型作为初始化来微调下游分类任务。作者建议使用变压器作为一个自动编码器，这是通过在输出使用一个单一的线性层(得益于变压器的架构)实现的。作者利用了变压器架构的吸引人的特性，即特别适合将不同的损耗函数与重构损耗结合起来。作者为每个损失添加一个令牌，并将旋转和对比损失以及重建损失结合起来。提议的SiT比最先进的自我监督方法表现得更好，利润空间更大。本工作将图像分类作为一项下游任务。作者相信SiT非常适合于许多其他的下游任务，如分割和检测，然而，这一猜想留给未来的研究。

论文链接：https://arxiv.org/pdf/2104.03602.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。