第三届大型VOS挑战赛中排名第一！AOT将实例与Transformer相关联来同时统一匹配和解码多个实例

详细信息如下：

论文链接：https://arxiv.org/abs/2106.02638

前言

本文探讨了如何在具有挑战性的多目标场景下实现更好、更高效的embedding learning，以解决半监督视频实例分割问题（Video Object Segmentation，VOS）。目前普通的方法都是对视频帧中每个单个实例进行解码，因此必须在多实例场景下分别匹配和分割每个实例，消耗多次计算资源。

为了解决这个问题，作者提出了一种将实例与Transformer（AOT）相关联的方法来同时统一匹配和解码多个实例。详细地说，AOT采用识别机制将多个实例关联到同一个高维特征空间中，因此，对于同时处理多个对象的匹配和分割解码，AOT就像处理单个对象一样高效。此外，为了充分模拟多实例的关联，AOT设计了长短期transformer来构建分层匹配和传播。

AOT模型在第三届大型VOS挑战赛中排名第一。

方法

目前最先进的视频实例分割算法在进行分割任务时，都是将视频帧中的每个实例遍历，再将结果汇总。如下图（a）所示，视频当前帧信息(current)与先验信息(reference)将被送入VOS 网络，在此期间，每个实例将被独立分别处理，最后再将每个实例的预测结果汇总，在进行多目标识别时，计算复杂度将随着实例数量增多而线性增多。在AOT端到端网络架构中，当前帧信息与先验信息将直接输入网络，并且直接输出最终的预测结果。

作者的AOT模型主要包含两个机制，分别是：多目标关联识别机制以及长短期transfroemr，以实现多目标的匹配与传播。

2.1Identification Mechanism for Multi-object Association ：多目标关联的识别机制

为了实现多目标同时分割，就必须在输入端实现模型对于每个实例的识别。作者提出多目标关联的识别机制，其中，通过Identity Bank提前存储M个C维的身份向量以备选用，当输入的Mask信息中包含N个实例时（M>N），AOT通过一种随机筛选匹配机制，为N个实例随机匹配Identity Bank中的身份信息。以此来实现对每个输入Mask进行实例区分。

为了实现对身份的随机匹配，作者设计了筛选矩阵P，P ∈ {0, 1} N×M ，并且PPT是一个 M × M 的单位阵。

其中，Y ∈ {0, 1} THW×N ，为输入的Mask信息，N为实例数量。P ∈ {0, 1} N×M，为随机筛选矩阵。D ∈ RM×C为随机初始化的同一个特征空间下的身份信息，其中M为身份个数，C为每个身份的特征维度。通过上述公式，即可完成输入Mask的转变，E ∈ R THW×C ，即将原先的N个Mask信息都映射到C维特征空间中。

通过将Mask中的实例信息映射到同一特征空间中，并通过不同的特征向量进行区分，即可完成对不同实例的识别。

2.2 Long Short-Term Transformer for Hierarchical Matching and Propagation ：长短期Transformer

普通的VOS方法通常只采用一层attention网络来对单个实例进行建模，作者提出了多层的长短期Transformer（LSTT）同时对多个实例进行建模。

Long-Term Attention （长期Attention网络） ：用于将过去内存帧（包含参考帧和存储的预测帧）的目标信息映射到当前帧。由于当前帧和过去帧之间的时间间隔是可变的，因此很难保证时间平滑度。长期关注采用 non-local attention来实现信息的映射。

其中，Xtl表示第t帧第l个Block的输入frames，Xml表示记忆帧信息，Ym表示记忆帧的Mask信息。

Short-Term Attention（短期Attention网络）：用于聚合每个当前帧位置的时空邻域中的信息。从直观感觉上，多个连续视频帧的图像变化始终是平滑和连续的，所以通过在当前帧的某个pixel上进行时（不同frames）空（不同的location）信息聚合来捕捉连续帧的领域信息。

其中p表示当前像素的位置，N(p) ∈ λ × λ 表示当前像素的领域像素。

实验

为验证AOT的有效性，作者使用了使用轻量级encoder：MobileNet-V2 以及decoder：FPN。空间邻域大小 λ 设置为 15，并且身份向量数量M 设置为 10。

训练策略

训练分为两个阶段，先在静态图像数据集生成的视频序列中进行预训练，再在YouTube-VOS与DAVIS公开视频数据集上进行训练。

实验效果

在YouTube-VOS与DAVIS测试集与验证集上均取得SOTA性能。并且大幅提升了推理阶段的FPS。

由上分割结果可以看出，AOT在对多个相似实例进行分割时效果更好。

消融

分别对 M（ID Bank中的身份个数）、λ（短期attention领域像素尺寸）、n（短期attention时间维度帧数）、L（block number）、Positional embedding进行了消融对比实验。

结论

提出了一种新颖高效的视频实例分割方法，通过将实例与Transformer相关联，并在三个流行的 benchmarks测试上实现了卓越的性能。提出一种简单有效的识别机制，在多目标场景下对所有实例进行统一关联、匹配和解码。AOT首次通过使用识别机制证明了在VOS中处理多个对象可以有效地处理单个对象。此外，还设计了一个长短期tramsformer，用于构建VOS的实例匹配和传播。通过调整LSTT的层数，可以在精度与实时速度间进行平衡。

END

入「视频目标分割」交流群👇备注：VOS

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。