Transformer架构详解：从Encoder到Decoder的完整旅程

news2025/4/12 9:08:16

引言：从Self-Attention到完整架构

在上一篇文章中，我们深入剖析了Self-Attention机制的核心原理。然而，Transformer的魅力远不止于此——其Encoder-Decoder架构通过巧妙的模块化设计，实现了从机器翻译到文本生成的广泛能力。本文将以“架构拆解+数学推导+代码实现”的方式，完整揭示Transformer的工作机制。

一、Transformer整体架构全景图

Transformer由N个相同的Encoder层和Decoder层堆叠而成（通常N=6）。其核心流程如下：

输入序列 → Encoder → 上下文表示 → Decoder → 输出序列

二、Encoder层深度解析

每个Encoder层包含两个核心子层：

2.1 多头自注意力（Multi-Head Attention）

\text{MultiHead}(Q,K,V) = \text{Concat}(head_1,...,head_h)W^O

其中每个头独立计算Self-Attention：

head_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)

作用：从不同子空间捕捉特征，提升模型表达能力。

2.2 前馈神经网络（FFN）

\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2

设计特点：

使用ReLU激活函数
中间层维度通常为4×d_model（如d_model=512时，中间层为2048）

2.3 残差连接与层归一化
每个子层输出计算为：

x_{out} = \text{LayerNorm}(x + \text{Sublayer}(x))

数学意义：防止梯度消失，加速模型收敛。

三、Decoder层核心技术揭秘

Decoder在Encoder基础上新增两个关键机制：

3.1 掩码自注意力（Masked Self-Attention）
通过下三角矩阵掩码，确保当前位置只能关注之前的位置：

# 生成掩码矩阵
mask = torch.triu(torch.ones(seq_len, seq_len), diagonal=1).bool()
scores.masked_fill_(mask, -1e9)

作用：防止解码时“偷看”未来信息，保证自回归特性。

3.2 Encoder-Decoder注意力
Query来自Decoder上一层的输出，Key/Value来自Encoder最终输出：

\text{Attention}(Q_{dec}, K_{enc}, V_{enc})

物理意义：建立输入序列与输出序列的语义对齐。

四、核心组件实现详解

4.1 位置前馈网络（Position-wise FFN）代码实现

class FeedForward(nn.Module):
    def __init__(self, d_model, d_ff=2048):
        super().__init__()
        self.linear1 = nn.Linear(d_model, d_ff)
        self.linear2 = nn.Linear(d_ff, d_model)
        
    def forward(self, x):
        return self.linear2(F.relu(self.linear1(x)))

# 输入维度示例：x.shape = [batch, seq_len, 512]

4.2 层归一化（LayerNorm）的位置
实验表明，Transformer使用Post-LN结构（先残差连接后归一化）：

class Sublayer(nn.Module):
    def __init__(self, d_model, dropout=0.1):
        super().__init__()
        self.norm = nn.LayerNorm(d_model)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x, sublayer):
        return x + self.dropout(sublayer(self.norm(x)))

五、训练与推理关键技术

5.1 动态掩码技术
在训练时随机屏蔽不同位置的token，提升鲁棒性：

def create_mask(seq, pad_idx):
    mask = (seq != pad_idx).unsqueeze(1)  # padding掩码
    seq_mask = (1 - torch.triu(torch.ones(seq_len, seq_len))).bool()  # 序列掩码
    return mask & seq_mask

5.2 标签平滑（Label Smoothing）
缓解过拟合，计算公式：

q_i = \begin{cases} 
1-\epsilon+\epsilon/K & \text{if } i=y \\
\epsilon/K & \text{otherwise}
\end{cases}

其中ε=0.1，K为类别数。

六、完整模型实现与效果验证
使用PyTorch搭建完整Transformer：

class Transformer(nn.Module):
    def __init__(self, src_vocab, tgt_vocab, N=6, d_model=512):
        super().__init__()
        self.encoder = Encoder(N, d_model)
        self.decoder = Decoder(N, d_model)
        self.src_embed = nn.Embedding(src_vocab, d_model)
        self.tgt_embed = nn.Embedding(tgt_vocab, d_model)
        
    def forward(self, src, tgt):
        memory = self.encoder(self.src_embed(src))
        output = self.decoder(self.tgt_embed(tgt), memory)
        return output

# 示例：英中翻译任务
model = Transformer(src_vocab=10000, tgt_vocab=8000)