打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
第三届大型VOS挑战赛中排名第一!AOT将实例与Transformer相关联来同时统一匹配和解码多个实例
详细信息如下:

  • 论文链接:https://arxiv.org/abs/2106.02638



      01      

前言

本文探讨了如何在具有挑战性的多目标场景下实现更好、更高效的embedding learning,以解决半监督视频实例分割问题(Video Object Segmentation,VOS)。目前普通的方法都是对视频帧中每个单个实例进行解码,因此必须在多实例场景下分别匹配和分割每个实例,消耗多次计算资源。

为了解决这个问题,作者提出了一种将实例与Transformer(AOT)相关联的方法来同时统一匹配和解码多个实例。详细地说,AOT采用识别机制将多个实例关联到同一个高维特征空间中,因此,对于同时处理多个对象的匹配和分割解码,AOT就像处理单个对象一样高效。此外,为了充分模拟多实例的关联,AOT设计了长短期transformer来构建分层匹配和传播。

AOT模型在第三届大型VOS挑战赛中排名第一。


      02      

方法

目前最先进的视频实例分割算法在进行分割任务时,都是将视频帧中的每个实例遍历,再将结果汇总。如下图(a)所示,视频当前帧信息(current)与先验信息(reference)将被送入VOS 网络,在此期间,每个实例将被独立分别处理,最后再将每个实例的预测结果汇总,在进行多目标识别时,计算复杂度将随着实例数量增多而线性增多。在AOT端到端网络架构中,当前帧信息与先验信息将直接输入网络,并且直接输出最终的预测结果。


作者的AOT模型主要包含两个机制,分别是:多目标关联识别机制以及长短期transfroemr,以实现多目标的匹配与传播。

2.1Identification Mechanism for Multi-object Association :多目标关联的识别机制
为了实现多目标同时分割,就必须在输入端实现模型对于每个实例的识别。作者提出多目标关联的识别机制,其中,通过Identity Bank提前存储M个C维的身份向量以备选用,当输入的Mask信息中包含N个实例时(M>N),AOT通过一种随机筛选匹配机制,为N个实例随机匹配Identity Bank中的身份信息。以此来实现对每个输入Mask进行实例区分。

为了实现对身份的随机匹配,作者设计了筛选矩阵P,P ∈ {0, 1} N×M ,并且PPT是一个 M × M 的单位阵。



其中,Y ∈ {0, 1} THW×N ,为输入的Mask信息,N为实例数量。P ∈ {0, 1} N×M,为随机筛选矩阵。D ∈ RM×C为随机初始化的同一个特征空间下的身份信息,其中M为身份个数,C为每个身份的特征维度。通过上述公式,即可完成输入Mask的转变,E ∈ R THW×C ,即将原先的N个Mask信息都映射到C维特征空间中。

通过将Mask中的实例信息映射到同一特征空间中,并通过不同的特征向量进行区分,即可完成对不同实例的识别。
2.2 Long Short-Term Transformer for Hierarchical Matching and Propagation :长短期Transformer
普通的VOS方法通常只采用一层attention网络来对单个实例进行建模,作者提出了多层的长短期Transformer(LSTT)同时对多个实例进行建模。

Long-Term Attention (长期Attention网络) :用于将过去内存帧(包含参考帧和存储的预测帧)的目标信息映射到当前帧。由于当前帧和过去帧之间的时间间隔是可变的,因此很难保证时间平滑度。长期关注采用 non-local attention来实现信息的映射。


其中,Xtl表示第t帧第l个Block的输入frames,Xml表示记忆帧信息,Ym表示记忆帧的Mask信息。

Short-Term Attention(短期Attention网络):用于聚合每个当前帧位置的时空邻域中的信息。从直观感觉上,多个连续视频帧的图像变化始终是平滑和连续的,所以通过在当前帧的某个pixel上进行时(不同frames)空(不同的location)信息聚合来捕捉连续帧的领域信息。


其中p表示当前像素的位置,N(p) ∈ λ × λ 表示当前像素的领域像素。


      03      

实验

为验证AOT的有效性,作者使用了使用轻量级encoder:MobileNet-V2 以及decoder:FPN。空间邻域大小 λ 设置为 15,并且身份向量 数量M 设置为 10。
训练策略
训练分为两个阶段,先在静态图像数据集生成的视频序列中进行预训练,再在YouTube-VOS与DAVIS公开视频数据集上进行训练。
实验效果

在YouTube-VOS与DAVIS测试集与验证集上均取得SOTA性能。并且大幅提升了推理阶段的FPS。


由上分割结果可以看出,AOT在对多个相似实例进行分割时效果更好。
消融
分别对 M(ID Bank中的身份个数)、λ(短期attention领域像素尺寸)、n(短期attention时间维度帧数)、L(block number)、Positional embedding进行了消融对比实验。



      04      

结论

提出了一种新颖高效的视频实例分割方法,通过将实例与Transformer相关联,并在三个流行的 benchmarks测试上实现了卓越的性能。提出一种简单有效的识别机制,在多目标场景下对所有实例进行统一关联、匹配和解码。AOT首次通过使用识别机制证明了在VOS中处理多个对象可以有效地处理单个对象。此外,还设计了一个长短期tramsformer,用于构建VOS的实例匹配和传播。通过调整LSTT的层数,可以在精度与实时速度间进行平衡。

END




入「视频目标分割交流群👇备注:VOS




本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
一文梳理序列化推荐算法模型进展
没有点积注意力就不香了吗?Transformer中自注意力机制的反思
两篇软文带领新手小白了解Transformer的前世今生(一)
「分割一切」视频版来了:点几下鼠标,动态的人、物就圈出来了
多轴挑战赛用到的编程技巧,你会吗?
Angular入门到精通系列教程(2) - Angular基本概念
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服