【层归一化用于单个样本适合于序列建模，通俗】

news2025/4/6 3:12:35

层归一化（Layer Normalization），简称 LayerNorm，会将神经网络层的激活值规范到均值为0，并将其方差归一化为1。尤其是在循环神经网络（RNNs）和自注意力模型（如 Transformers）中。
LayerNorm 会对输入样本分别归一化（下图中的行,水平箭头）; 使用dim=-1是在最后一个维度（特征维度）而不是行维度（样本数）上进行计算
在这里插入图片描述

层归一化步骤

对于一个给定的层的激活值 x，假设 x 的维度为 (batch_size, num_features)，或者在更复杂的模型中可能是 (batch_size, seq_len, num_features)。

层归一化的步骤如下：

计算均值和方差：
对于每个样本 x，计算其在指定维度（通常是特征维度上的）上的均值 μ 和方差 σ^2：
$\mu = \frac{1}{H} \sum_{i=1}^{H} x_i$
$\sigma^2 = \frac{1}{H} \sum_{i=1}^{H} (x_i - \mu)^2$
其中，H 是特征的总数量，即 H = num_features。
归一化：
使用计算得到的均值 μ 和标准差 σ 对激活值进行归一化：

$\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}$

这里的 ε 是一个很小的常数，用于防止分母为零，通常取值为 1e-5 或 1e-6。
线性变换：
为了确保网络的表达能力，通常会再引入可学习的缩放因子 γ 和偏移量 β，对归一化后的激活值进行线性变换：

$y_i = \gamma \hat{x}_i + \beta$

其中 γ 和 β 是与输入的维度相同的可训练参数。

层归一化的优势

适应小批量训练：
与批量归一化（Batch Normalization）不同，层归一化在计算均值和方差时只考虑单个样本的所有特征，而不是整个批次。这使得它在小批量甚至是批次大小为1的情况下表现更加稳定。
适应不同模型结构：
层归一化在循环神经网络（RNNs）和自注意力机制中特别有用，因为它不依赖于批量数据，从而避免了批量归一化在这些模型中的不稳定性。
加速训练：
通过规范化激活值的分布，层归一化可以减少梯度消失和爆炸的问题，加速训练收敛。

PyTorch中的实现

在 PyTorch 中，可以通过 torch.nn.LayerNorm 来使用层归一化，代码示例如下：

import torch
import torch.nn as nn

# 定义输入张量 (batch_size, seq_len, num_features)
x = torch.randn(10, 20, 30)  # 例如 batch_size=10, seq_len=20, num_features=30

# 定义层归一化，归一化维度为最后一个维度
layer_norm = nn.LayerNorm(normalized_shape=30)

# 通过层归一化层
output = layer_norm(x)

print(output.shape)  # 输出维度与输入相同

在这个示例中，LayerNorm 被应用于最后一个维度（即特征维度），以对每个样本的激活值进行归一化。

有个代码例子

torch.manual_seed(123)

# 创建两个训练样例，每个样例有5个维度（特征）
batch_example = torch.randn(2, 5) 

layer = nn.Sequential(nn.Linear(5, 6), nn.ReLU())
out = layer(batch_example)
print(out)

# 均值方差
mean = out.mean(dim=-1, keepdim=True)
var = out.var(dim=-1, keepdim=True)

print("Mean:\n", mean)
print("Variance:\n", var)

# 归一化，并看结果
out_norm = (out - mean) / torch.sqrt(var)
print("Normalized layer outputs:\n", out_norm)

# 确认一下每个输入的均值都为0，方差都为1
mean = out_norm.mean(dim=-1, keepdim=True)
var = out_norm.var(dim=-1, keepdim=True)
print("Mean:\n", mean)
print("Variance:\n", var)