详细信息如下：

论文链接：https://arxiv.org/abs/2205.13425

摘要

动作分类已经取得了很大进展，但从长时间的视频中分割和识别动作仍然是一个具有挑战性的问题。大多数最先进的方法侧重于设计基于时间卷积的模型，但对长期时间依赖性建模的局限性和时间卷积的灵活性限制了这些模型的潜力。

近年来，基于Transformer的模型以其灵活和强大的序列建模能力被应用于各种任务中。然而，由于缺乏inductive bias和处理长视频序列的低效性，限制了Transformer在动作分割中的应用。

在本文中，作者结合U-Net架构设计了一个无时间卷积的纯Transformer模型。U-Transformer架构降低了复杂性，同时引入了一种inductive bias，即相邻帧更可能属于同一类。作者观察到，边界帧与其相邻帧之间的相似性分布取决于边界帧是动作片段的开始还是结束。因此，作者进一步提出了一种边界感知损失函数，以增强边界识别能力。大量实验表明了该模型的有效性。

Motivation

由于上传到各种平台（如YouTube、Tiktok等）的视频和短视频数量呈指数级增长，视频内容理解在过去几年中受到了越来越多的关注。视频中的动作识别是视频内容理解中最活跃的任务之一，它可以分为两类：用单个活动对修剪过的视频进行分类和在未修剪过的视频中分割活动，后者也称为动作分割（action segmentation）。虽然已经提出了基于各种结构的方法来大大提高视频分类的准确性，但它们的性能受到未经修剪视频的动作分割任务的限制。

动作分割可以看作是一个逐帧分类问题。以前的大多数深度学习方法都将时间卷积网络（temporal convolutional networks，TCN）作为其主干，利用一维卷积来捕获不同帧之间的时间关系。然而，TCN需要很深的层来捕捉长期的依赖性，并且很难确定最佳的感受野。最流行的基于TCN的模型MS-TCN采用的策略是在1D扩张卷积中将扩张因子加倍，使感受野随层数呈指数增长，但Global2Local已证明存在比这种手工设计的模式更有效的感受野组合。但是不同的数据分布也会导致不同的最佳感受野组合。因此，需要更灵活的模型，从数据本身提取帧之间的依赖关系，而不是具有固定权重和手工设计模式的扩展卷积结构。

由于灵活的建模能力，Transformer在对各个领域的序列数据建模方面优于其他深度模型。然而，除了ASFormer之外，利用Transformer处理动作分割任务的工作很少。将Transformer应用于动作分割时存在两个问题。

一方面，Transformer对输入数据的结构归纳偏置较少，因此需要大量的数据进行训练。然而，受帧注释难度的限制，在动作分割任务中，注释良好的大多数数据集只有数千个视频样本，远远小于其他领域的数据规模。

另一方面，时间和空间复杂性随着输入长度的增加呈二次曲线增加。由数千帧组成的未修剪视频样本太长，无法由Transformer中的自注意力层直接处理。ASFormer结合了稀疏注意机制和一维卷积来解决这两个问题，但它更像是将额外的注意模块纳入MS-TCN。

因此，没有一维卷积的纯Transformer模型是否适用于动作分割以及如何使其工作仍然是一个悬而未决的问题。

为了能够处理长视频，作者首先将vanilla Transformer中的完全注意力替换为局部注意力，其中每个帧只关注同一局部窗口中的帧。但局部注意会降低感受野，因此模型仍然无法捕获长期依赖性。

为此，作者结合U-Net架构和local-attended Transformer，提出了一种无1D卷积的纯Transformer模型，即高效U-Transformer（EUT）。利用编码器中的时间下采样和解码器中的上采样来构建U-Transformer结构。U-Transformer中的时间采样不仅使感受野随层数呈指数增长，而且进一步降低了复杂性。此外，作者发现U-Transformer架构非常适合密集预测任务，因为它引入了多尺度信息和相邻帧可能属于同一类的先验信息，这弥补了动作分割方面缺乏足够的训练数据。

然而，U-Transformer架构加剧了边界的错误分类，因为粗粒度特征被馈送到解码器中。如果边界上的帧被编码为不适当的粗粒度特征，那么在解码器中从中向上采样的帧将被错误分类。为了更好地感知边界信息，作者将视频中的边界帧分为两种类型：开始帧和结束帧，它们分别表示动作片段的开始和结束。

直观地说，开始帧应该与之后的相邻帧更相似，而结束帧应该与之前的帧更相似，这对应于两种不同的相似性分布。作者将一帧与其邻居的相似性分布定义为该帧的局部注意分布，该分布可以从局部注意模块中获得。因此，作者通过最小化边界帧的局部注意分布与预定义的先验分布之间的距离来引入边界感知损失，这可以作为一种正则化来强制模型更加关注边界。

本文的贡献包括：

作者首次提出了一种无1D卷积的纯Transformer模型用于动作分割。本文的模型将局部注意力和U-Net架构结合到Transformer中，与普通Transformer相比，它降低了复杂性，并且摆脱了一维卷积的限制。
基于注意模块和边界标签的帧间相似度分布，作者提出了一种基于分布的边界感知损失，使本文的模型能够更准确地分类边界。

方法

3.1. U-Transformer Architecture

在本节中，作者将详细介绍本文的模型。EUT包含一个预测生成阶段和M个细化阶段，遵循MS-TCN中的多阶段架构。生成阶段生成初始分段预测，而每个细化阶段细化前一阶段的预测。如上图所示，每个阶段可分为四个部分：输入投影、由N个相同编码器层组成的编码器、由N个相同解码器层组成的解码器和输出分类器。输入投影和输出分类器都是全连接层，它们减少了输入维度，分别为编码器和解码器的输出提供信息。

Local Attention

在Transformer原有的自注意模块中，任何查询都需要计算所有键的相似度得分来生成注意矩阵A，这导致了二次复杂性，即复杂性为。将注意力计算限制在一个固定大小的局部窗口上，可以将操作降低到线性复杂度，称为局部注意力。此时，每个查询只需要计算与窗口中以其位置为中心的那些键的相似度，即，其中和分别表示开始和结束位置。因此，第i个位置的输出为：

局部注意力不会缩小模型的整体感受野。由于层之间的时间采样，感受野随层数呈指数增长，足以覆盖整个视频序列，以捕获全局和局部依赖性。

Scale-Shared Positional Encoding

由于Transformer中的注意力机制无法感知元素的位置，许多作品采用各种策略来引入位置信息。由于动作分割任务中未修剪视频的长度通常过长且变化剧烈，绝对位置编码将影响性能。因此，作者采用了可学习的相对位置编码，其基本思想是将所有查询-键对的相对距离嵌入为标量，并将其添加到注意力矩阵中。

考虑到局部窗口内任意两个元素之间的距离不超过窗口大小w，可以通过可学习的嵌入矩阵得到和之间的相对位置编码，其中表示位置下标，h表示head的数量。产生的位置编码R将被添加到不同头中注意力矩阵的相应位置。不同阶段具有相同层索引的图层处理具有相同时间分辨率的输入，其相对位置编码应相同。因此，作者采用了规模共享策略（scale-shared strategy），即不同阶段具有相同规模的对应层共享相同的。此外，作者只在编码器层应用相对位置编码。

Fine-to-Abstract Encoder

编码器由N个相同的编码器层组成。如上图所示，它类似于vanilla Transformer中的编码器，但有三个区别。首先，在每一层的开始处存在一个最近邻下采样过程，该过程将输入时间维度减半。第二，用尺度共享相对位置编码的局部注意力代替完全注意力。第三，作者使用 instance normalization来代替layer normalization。总之，第l个编码器层的操作集可以描述如下：

Abstract-to-Fine Decoder

如上图所示，由N个相同层组成的解码器与编码器对称。在每个解码器层中，利用时间上采样来逐渐恢复输入帧的原始时间分辨率。上采样过程也通过最近插值实现。作者没有像原来的U-Net那样将编码器层输入和前一层输入concat为解码器层输入，因为这将占用更多内存。

为了保持隐藏维度，作者修改了原始Transformer中的交叉注意力，以利用编码器中的信息。具体来说，在局部交叉注意力中，查询和键都来自前一个解码器层的输出，而值是由与键具有相同时间维度的相应编码器层的输出生成的。因此，第l个解码器层生成的表示如下所示：

3.2. Boundary-aware Loss

在训练阶段，作者结合了三种不同的损失：帧级别分类损失、平滑损失和本文提出的边界感知损失。由于每一阶段的损失函数完全相同，这里只分析了第s级的损失。

作者使用交叉熵损失作为，在第s个阶段使用逐帧对数概率的均方误差作为：

其中，是属于第类的预测概率，θ=4是预设阈值。在中，不计算的梯度。

动作边界对于视频动作分割至关重要。逐帧分类将边界帧和中间帧同等对待，这导致所学习的特征对边界不敏感。作者提出了一种新的边界感知损失算法来增强边界识别能力。边界感知损失通过对局部注意力模块中的注意力矩阵施加额外的约束来正则化特征学习。

Prior Distribution

直观地说，如果一个帧在其向后方向上与相邻帧具有较小的相似性，而在其向前方向上与相邻帧具有较大的相似性，则它很有可能成为起始帧；如果帧在其前进方向上与相邻帧相似，但在其后退方向上与相邻帧不同，则它可能是结束帧。因此，根据anchor是起始帧还是结束帧，边界帧j（anchor）与其相邻帧之间的相似性分布应呈现两种不同的模式。作者使用自适应sign函数作为与上述两种模式相对应的两个先验分布：

其中（i− j）指第i帧和第j个anchor帧之间的距离，σ=0.8表示比例系数。符号±为正或负，分别对应于开始帧和结束帧。当x大于或等于0时，Sgn（x）为1；当x小于0时，Sgn（x）为-1。此外，作者使用Rescale[·]将概率之和转换为1。

Local-Attention Distribution

局部注意力模块中的注意矩阵由查询-键对之间的所有相似性得分组成。可以从注意力矩阵A中提取anhor及其相邻帧的相似性分布，称为anchor的局部注意力分布：

如上图所示，作者引入了边界感知损失，以将边界的局部注意力分布近似为相应的先验分布，这可以通过最小化分布之间的对称KL散度来实现：

我们可以类标签中获取边界标签，并从局部注意模块中获取每个边界的相似性分布。因此，计算边界感知损失无需额外的模块和标注。考虑到时间下采样模糊了高层边界，作者只在低层进行计算。因此，第s阶段的最终损失是三个损失的加权和：

作者设置λ=0.15。β是一个可调的超参数。

训练阶段所有阶段的总体损失函数为。在测试阶段，作者使用最后细化阶段的帧分类结果作为分割结果。

实验

在上表中，作者将本文提出的模型与三个数据集上的最新方法进行了比较。为了公平比较所有模型，作者列出了在没有额外边界感知损失的情况下对模型进行训练的结果，这对应于EUT†。为了证明本文提出的边界感知损失的有效性，作者还报告了本文的模型与额外的边界感知损失（称为EUT）联合训练的结果。

为了验证EUT中相对位置编码（RPE）的有效性，作者比较了上表中的不同位置编码（PE）方法。由于视频样本的长度在很大范围内变化，作者观察到不灵活的绝对位置编码（APE）会导致性能下降。

为了探索模型架构和注意力方法的影响，作者比较了两种模型结构和三种注意力模式，共有6种组合。为了进行公平比较，作者控制所有模型配置和训练参数保持一致。

考虑到RPE引入了额外的参数，作者在这些消融实验中不使用RPE。U-Transformer结构实现了比标准体系结构更好的性能，GPU内存消耗更少。无论体系结构如何，完全注意力都会失败，这表明对小数据的训练需要更稀疏的注意力模式。由于相邻帧在动作分割中通常具有较强的相关性，因此局部注意的表现比对数稀疏注意要好得多。

作者将在上图中显示了边界感知损失的定性可视化结果。可以观察到，用边界感知损失训练的EUT模型预测的两个边界帧的位置更接近Ground Truth中边界帧的位置。

总结

在动作分割任务中，最流行的深度学习方法使用1D卷积网络作为其主干。作者首次提出了一个将U-Net结构与Transformer相结合的纯Transformer模型。时间下采样和局部注意力模块使本文的模型能够有效地处理长视频。此外，作者提出了一种新的基于边界帧局部注意分布的边界感知丢失方法，该方法作为正则化项来训练模型，可以进一步提高边界识别能力。

参考资料

[1]https://arxiv.org/abs/2205.13425

END

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。