EMNLP2021 “Transformer+预训练”再下一城，港科大开源高效的"多模态摘要总结"网络

▊ 写在前面

多模态摘要总结(Multimodal abstractive summarization，MAS)模型总结了视频（视觉模态)及其相应的文本(文本模态）的知识，能够从互联网上的大量多模态数据中提取摘要信息（即化繁为简 ）。

另一方面，近年来，大规模的生成预训练语言模型(generative pretrained language models，GPLMs)已被证明在文本生成任务中是有效的。

然而，现有的MAS模型不能利用GPLMs强大的生成能力 。为了填补这一研究空白，在本文中，作者的目标是研究两个问题：

1)如何在不损害GPLMs生成能力的情况下注入视觉信息？

2)在GPLMs中注入视觉信息的最佳位置在哪里？

在本文中，作者提出了一种简单而有效的方法来构建视觉引导的GPMLs，使用基于注意力的附加层来聚合视觉信息，同时保持其原始预训练模型的文本生成能力 。

结果表明，本文的方法在How2数据集上，比以前的最佳模型超过了 5.7 ROUGE-1 、5.3 ROUGE-2 和5.1 ROUGE-L 。此外，作者还进行了完整的消融研究，以分析各种模态融合方法 和融合位置 的有效性。

▊ 1. 论文和代码地址

Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization

论文地址：https://arxiv.org/abs/2109.02401

代码地址：https://github.com/HLTCHKUST/VG-GPLMs

▊ 2. Motivation

多模态摘要总结(Multimodal abstractive summarization，MAS)旨在利用来自多种模态的数据，生成一个简短、简洁、可读的文本摘要，让用户快速获取其基本信息。由于在线多媒体内容的普及和多模态数据的可用性，MAS已成为一个越来越受欢迎的研究领域。

如上图所示，MAS模型需要通过有效地利用两种模态的数据（视频、文本）来生成一个简明的摘要。因此，作者认为，利用强大的文本生成模型 和视觉-文本模态的有效组合 是构建良好的MAS模型的关键。

最近，基于Transformer的序列对序列大规模生成预训练语言模型(GPLMs)在文本生成任务上展现出了不错的性能表现。然而，利用和调整GPLMs以适应MAS仍是一个尚未被探索的研究方向。为了探索这个方向，首先需要解决两个问题：

1）首先，如何将视觉信息注入到仅文本的GPLM中 ，以便模型能够理解两种模态并允许跨模态交互，更重要的是，如何在不损害GPLMs原始文本生成能力的情况下进行这种注入操作？

2）其次，在GPLM中注入视觉信息的最佳位置在哪里 ？这需要进一步探索，因为在GPLMs的编码器和解码器中有许多子层，而一个次优位置可能会导致次优的性能。

为了填补研究空白，作者提出了一种简单且有效的方法来构建视觉引导的GPLMs来解决MAS任务。首先，对于第一个问题，作者在GPLMs中插入基于attention的附加层，以在不修改原始预训练模型结构的情况下合并视觉信息 。这样，所有预训练的模型权值都可以在微调期间使用，以保持其原始文本生成能力。

具体来说，作者尝试了两种类型的注意机制的文本视觉融合和交互：

1) Cross-modal Dot-product Attention；

2）Cross-modal Multi-head Attention。

此外，作者还研究了使用遗忘门（forget gate）和带attention机制的视觉Transformer编码器的影响。对于第二个问题，作者枚举了GPLMs中几乎所有注入附加层的可能位置 ，并在实验部分展示了详细的比较和分析。

在How2数据集上，本文的方法比以前的最佳模型超过了 5.7 ROUGE-1 、5.3 ROUGE-2 和 5.1 ROUGE-L 。

▊ 3. 方法

为了利用仅使用文本预训练的GPLMs的文本生成能力，并使其适应MAS任务，作者提出了视觉引导的GPLMs （VG GPLMs）。

上图为本文提出的VG GPLMLs的模型结构。

3.1 Overview of GPLMs for Summarization

基于Transformer的Seq2Seq GPLMs（比如BERT，GPT）通常由一个编码器和解码器组成。上图的结构大致描述了这样的预训练结构（除了绿色框的部分）。

在GPLM中，输入文本首先被tokenize化，转换为一系列token embedding，其中为序列长度，为特征维数。为了保留位置信息，需要将位置编码

：

如上图所示，该编码器由一个𝐿个编码器层的堆叠组成，每个编码器层包含两个子层：多头注意(MSA)和前馈网络(FFN）。此外，在每个子层之后，都有一个残差连接和layer normalization (LN)，这一步表示如下：

与编码器类似，解码器也由𝐿个解码器层组成，但有两个区别。首先，对MSA进行mask，以防止attend到后续位置（这一步是为了保持解码器的建模是在从左到右的方向上顺序进行的）。其次，还有一个多头编码器-解码器注意层（multi-head encoder-decoder attention），它使用decoder embedding来attend编码器的输出编码，以合并编码的信息。

在本文的实验中，作者采用了预训练的BART和T5模型。利用这样的结构，在文本摘要总结任务上对它们进行微调，编码器的输入是文章或长段文本，解码器学习生成摘要。

3.2 Video Feature Extraction

对于每个视频clip，作者使用在Kinetics预训练的3D ResNeXt-101模型，对每16个不重叠的帧提取一个2048维的特征表示。因此，每个数据样本将有一个长度为𝑀的2048维的视觉特征向量序列。这些特征可以直接作为文本-视觉融合模块的视觉输入。

此外，为了能够增强视频中特定时间的视觉信息，作者进一步使用Transformer编码器来处理提取的视觉特征序列。实验结果表明，这种额外的编码过程可以进一步提高模型的性能。

3.3 Text-vision Fusion

如上图所示，作者在每个编码器层中插入了第三个子层（绿色虚线块），其中包含文本-视觉融合机制、残差连接和layer normalization。作者提出了两种类型的文本-视觉融合机制。

给定文本输入和视觉输入，融合机制能够产生视觉引导输出，该输出与文本输入具有相同的维度。下面介绍两种文本-视觉融合机制：

Dot-product Attention Based Fusion

在文本和视觉特征之间执行点积注意之前，我们首先将视觉特征投影到与文本特征相同的维度空间：

然后，计算点积，并应用softmax函数得到注意力得分矩阵：

最后，将输入的文本特征与注意加权的视觉特征concat起来，然后通过另一个线性变换进行投影，输出视觉引导的文本特征：

Multi-head Attention Based Fusion

作者还提出了一种视觉引导的文本-视觉融合的多头注意机制。𝑄是输入文本特征的线性投影，𝐾和𝑉视觉特征的线性投影：

然后，用跨模态多头注意(CMA)获取文本查询的视觉特征：

最后，通过将输入的文本特征和concat起来，并将其线性投影到所需的维度，得到最终的视觉引导输出:

此外，作者还研究了文本视觉融合模块中使用遗忘门的影响。给出CMA输出。作者构造了一个遗忘门mask和与𝑂进行对应元素相乘后输出更新的：

遗忘门可以从视频特征中去除冗余和有噪声的信息，这也有助于模型丢弃不必要的视觉信息，以保留其预训练的文本生成能力。

▊ 4.实验

4.1 Main Results

我们可以看到，当输入数据中只有transcript时，S2S和PG在所有评估指标上都达到了相似的分数。并且TF的性能优于基于RNN的模型。仅使用文本的T5和BART都比所有baseline模型性能都好，因为它们有预训练的文本生成能力。此外，BART比以前所有在文本和视频上训练的多模态模型都更好。

从上表可以看出，视觉指导可以持续地提高了T5和BART的性能。

4.2 How to Inject Visual Information

如上表所示，与仅使用文本的GPLMs相比，以随机噪声作为视觉特征的VGGPLMs具有相似或略差的性能。这表明了本文的方法在保持GPLM的文本生成能力方面的有效性。此外，与基于点积注意的融合相比，多头融合在保持GPLM的性能方面效果更好，这再次证明了其优越性。

4.3 Where to Inject Visual Information

上表展示了在不同位置插入视觉交互模块的实验结果。可以看到，在编码器中，在更高层（更接近编码器的输出的位置）上加入视觉交互模块会带来更多的性能改进。

4.4 Effect of the Forget Gate

上图展示了在BART模型上，测试数据集中的每个样本的遗忘门的平均分数分布。得分分布主要集中在4.70~4.80分之间。然而，有一个异常值达到5.00。作者取出这个样本的transcript、生成的摘要和reference进行详细分析。

可以看出，transcript不可用，这意味着摘要完全由视觉信息生成。该模型依旧可以仅通过视觉模态生成流畅性和内容丰富的摘要。因此，在这种情况下的遗忘门评分也确实与模型更多关注视频特征的目的一致。证明了遗忘门的有效性和可解释性。

▊ 5. 总结

在本文中，作者采用一种简单而高效的方法，通过在预训练的语言模型中插入基于attention的附加层来构建用于多模态摘要总结（MSA）的文本生成模型。作者提出了文本视觉融合和交互的两种注意机制：

1）Cross-modal Dot-product Attention；

2) Cross-modal Multi-head Attention。

此外，作者还研究了使用遗忘门和带注意机制的视觉Transformer编码器的影响。作者还枚举了GPLM中所有插入附加层的可能位置。实验结果表明，本文的方法在How2数据集上显著优于之前的SOTA方法。进一步的分析表明，Cross-modal Multi-head Attention比Cross-modal Dot-product Attention更稳健，且编码器的高层是注入视觉信息的最佳位置。

▊ 作者简介

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END

欢迎加入「视觉语言」交流群👇备注：VL

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。