2.1Identification Mechanism for Multi-object Association :多目标关联的识别机制为了实现多目标同时分割,就必须在输入端实现模型对于每个实例的识别。作者提出多目标关联的识别机制,其中,通过Identity Bank提前存储M个C维的身份向量以备选用,当输入的Mask信息中包含N个实例时(M>N),AOT通过一种随机筛选匹配机制,为N个实例随机匹配Identity Bank中的身份信息。以此来实现对每个输入Mask进行实例区分。 为了实现对身份的随机匹配,作者设计了筛选矩阵P,P ∈ {0, 1} N×M ,并且PPT是一个 M × M 的单位阵。
其中,Y ∈ {0, 1} THW×N ,为输入的Mask信息,N为实例数量。P ∈ {0, 1} N×M,为随机筛选矩阵。D ∈ RM×C为随机初始化的同一个特征空间下的身份信息,其中M为身份个数,C为每个身份的特征维度。通过上述公式,即可完成输入Mask的转变,E ∈ R THW×C ,即将原先的N个Mask信息都映射到C维特征空间中。 通过将Mask中的实例信息映射到同一特征空间中,并通过不同的特征向量进行区分,即可完成对不同实例的识别。2.2 Long Short-Term Transformer for Hierarchical Matching and Propagation :长短期Transformer普通的VOS方法通常只采用一层attention网络来对单个实例进行建模,作者提出了多层的长短期Transformer(LSTT)同时对多个实例进行建模。 Long-Term Attention (长期Attention网络) :用于将过去内存帧(包含参考帧和存储的预测帧)的目标信息映射到当前帧。由于当前帧和过去帧之间的时间间隔是可变的,因此很难保证时间平滑度。长期关注采用 non-local attention来实现信息的映射。