利用最优传输理论来对齐并融合两个或多个Transformer模型

1. 基本信息

论文题目:Transformer Fusion with Optimal Transport

作者:Moritz Imfeld, Jacopo Graldi, Marco Giordano, Thomas Hofmann, Sotiris Anagnostidis, Sidak Pal Singh

机构:ETH Zurich, Switzerland

2. 摘要

这篇论文提出了一种新的方法,利用最优传输理论来对齐并融合两个或多个Transformer模型。作者实现了对Transformer的关键组成部分,如多头自注意力、层归一化和残差连接的对齐和融合。

作者发现与全连接或卷积架构不同,软对齐（soft alignment）对Transformer模型融合起关键作用。作者在多个视觉和自然语言处理任务上验证了该方法,结果表明融合后的模型在微调后能够超越单个父模型的性能。

3. 介绍

Transformer架构在各个领域取得了广泛的成功。将多个Transformer模型融合在一起可以发挥各模型独特的优势,提高性能。直接平均模型的参数(Vanilla Fusion)会损失每个模型独特的表达能力。相比之下,最优传输融合(OTFusion)通过对齐各模型的参数矩阵,可以有效地整合每个模型的知识。本文提出的OTFusion还支持不同尺寸模型的融合,这为利用现有的预训练模型提供了新的途径。尽管OTFusion已经在全连接和卷积网络上取得了成功,但针对复杂的Transformer架构还存在挑战。本文提出了一种方法,通过最优传输的视角有效地将多模型融合推广至Transformer架构。

OTFusion是最优传输融合(Optimal Transport Fusion)的简称,由Sidak Pal Singh和Martin Jaggi在2020年提出。它是一种利用最优传输理论来对齐和融合多个预训练神经网络模型的方法。

OTFusion的基本思想是:

将多个模型(比如model A和model B)视为分布,模型中的神经元对应分布中的点。
计算这些模型(分布)之间的最优传输映射(Optimal Transport map),这个映射表明哪些源模型中的神经元应该传输到目标模型的哪些神经元,以完成对齐。这里运用了最优传输理论来找到对齐不同模型的最佳策略。
按照最优传输映射,将源模型中的权重矩阵进行变换,与目标模型对齐。
对齐后的模型进行平均,得到融合后的新模型。

OTFusion的优点包括:

可以有效获取各个模型的独特表达能力,不会像简单平均那样导致过度平滑。
支持异构模型(宽度不同)的融合,提供了利用现有模型的新途径。
可以在不需要继续训练的情况下快速获得性能提升。

OTFusion已在全连接网络、卷积网络上取得了成功。本文将其扩展到了Transformer架构,解决了其中的技术难点,使得该技术能够推广到当下主流的模型结构。

4. 方法

为简化复杂的Transformer架构,作者先将其分割为可以用现有OTFusion策略融合的全连接层。然后解决如何连接这些模块的问题,特别是异构模块的连接。为此,作者引入了Transportation Map Flow Graph的概念。每个层用矩形表示,非学习的计算用红色节点表示,边表示映射的传递。确定红色节点的映射传递策略是将OTFusion推广到复杂架构的关键。

对于残差连接,作者探索了权重向量的不同确定策略,用以融合当前层和残差层的映射矩阵。

对于多头自注意力,为简化分析,作者要求查询和键映射矩阵采用等价的硬对齐,这样它们在softmax中的作用就会消除。因此,只有值映射的映射矩阵需要传递。作者还放宽了查询和键对齐的约束,研究了软对齐（soft alignment）的影响。

对于层归一化,由于它没有层间连接,不需要计算映射。对于嵌入,分类token的映射比修补embedding的映射更重要。

作者发现与全连接和卷积网络不同,Transformer模型融合中软对齐（soft alignment）起关键作用,而硬对齐效果较差。作者探索了基于权重和激活值的对齐,并引入序列过滤来移除不相关的激活值。

5. 实验发现

作者在视觉Transformer(ViT)和语言模型BERT上评估了所提出的方法。主要结果如下:

(1) 在CIFAR10数据集上,软对齐（soft alignment）的融合模型可以保留父模型泛化性能的60%以上,明显优于硬对齐和朴素融合。

(2) 在CIFAR100和Tiny ImageNet数据集上,融合模型在微调后可以超过个别父模型1%的准确率。

(3) 在ImageNet-1k数据集上,融合模型在有限的微调后也优于单个父模型。

(4) 在BERT模型上,融合模型在GLUE基准测试上的表现也优于单个父模型。

以上结果表明作者的方法可以有效获取父模型的独特能力,并组合提升性能。

6. 结论

本文通过最优传输的视角,提出了一种有效的Transformer模型融合方法,克服了将模型融合技术推广到Transformer架构的难点。关键的发现是软对齐（soft alignment）在Transformer模型融合中起着重要作用。实验结果证明了该方法可以取得多个视觉和自然语言处理任务上的性能提升,展示了融合多个Transformer模型的潜力。本文的研究标志着模型融合技术在推动Transformer架构模型性能和效率方面的重要进步。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。