神经网络算法 - 一文搞懂Transformer

本文将从Transformer的本质、Transformer的原理、Transformer架构改进三个方面，带您一文搞懂Transformer。

一、Transformer的本质

Transformer架构：主要由输入部分（输入输出嵌入与位置编码）、多层编码器、多层解码器以及输出部分（输出线性层与Softmax）四大部分组成。

Transformer架构

输入部分：
源文本嵌入层：将源文本中的词汇数字表示转换为向量表示，捕捉词汇间的关系。
位置编码器：为输入序列的每个位置生成位置向量，以便模型能够理解序列中的位置信息。
目标文本嵌入层（在解码器中使用）：将目标文本中的词汇数字表示转换为向量表示。
编码器部分：
由N个编码器层堆叠而成。
每个编码器层由两个子层连接结构组成：第一个子层是一个多头自注意力子层，第二个子层是一个前馈全连接子层。每个子层后都接有一个规范化层和一个残差连接。
解码器部分：
由N个解码器层堆叠而成。
每个解码器层由三个子层连接结构组成：第一个子层是一个带掩码的多头自注意力子层，第二个子层是一个多头注意力子层（编码器到解码器），第三个子层是一个前馈全连接子层。每个子层后都接有一个规范化层和一个残差连接。
输出部分：
线性层：将解码器输出的向量转换为最终的输出维度。
Softmax层：将线性层的输出转换为概率分布，以便进行最终的预测。

Encoder-Decoder（编码器-解码器）：左边是N个编码器，右边是N个解码器，Transformer中的N为6。

Encoder-Decoder（编码器-解码器）

Encoder编码器：
Transformer中的编码器部分一共6个相同的编码器层组成。
每个编码器层都有两个子层，即多头自注意力层(Multi-Head Attention)层和逐位置的前馈神经网络(Position-wise Feed-Forward Network)。在每个子层后面都有残差连接（图中的虚线）和层归一化（LayerNorm）操作，二者合起来称为Add&Norm操作。

Encoder（编码器）架构

Decoder解码器：
Transformer中的解码器部分同样一共6个相同的解码器层组成。
每个解码器层都有三个子层，掩蔽自注意力层(Masked Self-Attention)、Encoder-Decoder注意力层、逐位置的前馈神经网络。同样，在每个子层后面都有残差连接（图中的虚线）和层归一化（LayerNorm）操作，二者合起来称为Add&Norm操作。

Decoder（解码器）架构

二、Transformer的原理

Transformer工作原理

Multi-Head Attention（多头注意力）：它允许模型同时关注来自不同位置的信息。通过分割原始的输入向量到多个头（head），每个头都能独立地学习不同的注意力权重，从而增强模型对输入序列中不同部分的关注能力。

Multi-Head Attention（多头注意力）

Scaled Dot-Product Attention（缩放点积注意力）：它是Transformer模型中多头注意力机制的一个关键组成部分。

Scaled Dot-Product Attention（缩放点积注意力）

由于点积操作的结果可能非常大，尤其是在输入维度较高的情况下，这可能导致softmax函数在计算注意力权重时进入饱和区。为了避免这个问题，缩放点积注意力引入了一个缩放因子，通常是输入维度的平方根。点积结果除以这个缩放因子，可以使得softmax函数的输入保持在一个合理的范围内。

将缩放后的点积结果输入到softmax函数中，计算每个Key相对于Query的注意力权重。Softmax函数将原始得分转换为概率分布，使得所有Key的注意力权重之和为1。

三、Transformer架构改进

BERT架构

GPT：GPT也是一种基于Transformer的预训练语言模型，它的最大创新之处在于使用了单向Transformer编码器，这使得模型可以更好地捕捉输入序列的上下文信息。

GPT架构

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。