层归一化(Layer Normalization)
,简称 LayerNorm
,会将神经网络层的激活值规范到均值为0,并将其方差归一化为1。尤其是在循环神经网络(RNNs)和自注意力模型(如 Transformers)中。
LayerNorm 会对输入样本分别归一化(下图中的行,水平箭头); 使用dim=-1是在最后一个维度(特征维度)而不是行维度(样本数)上进行计算
层归一化步骤
对于一个给定的层的激活值 x
,假设 x
的维度为 (batch_size, num_features)
,或者在更复杂的模型中可能是 (batch_size, seq_len, num_features)
。
层归一化的步骤如下:
-
计算均值和方差:
对于每个样本x
,计算其在指定维度(通常是特征维度上的)上的均值μ
和方差σ^2
:
μ = 1 H ∑ i = 1 H x i \mu = \frac{1}{H} \sum_{i=1}^{H} x_i μ=H1i=1∑Hxi
σ 2 = 1 H ∑ i = 1 H ( x i − μ ) 2 \sigma^2 = \frac{1}{H} \sum_{i=1}^{H} (x_i - \mu)^2 σ2=H1i=1∑H(xi−μ)2
其中,H
是特征的总数量,即H = num_features
。 -
归一化:
使用计算得到的均值μ
和标准差σ
对激活值进行归一化:x ^ i = x i − μ σ 2 + ϵ \hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}} x^i=σ2+ϵxi−μ
这里的
ε
是一个很小的常数,用于防止分母为零,通常取值为1e-5
或1e-6
。 -
线性变换:
为了确保网络的表达能力,通常会再引入可学习的缩放因子γ
和偏移量β
,对归一化后的激活值进行线性变换:y i = γ x ^ i + β y_i = \gamma \hat{x}_i + \beta yi=γx^i+β
其中
γ
和β
是与输入的维度相同的可训练参数。
层归一化的优势
-
适应小批量训练:
与批量归一化(Batch Normalization)不同,层归一化在计算均值和方差时只考虑单个样本的所有特征,而不是整个批次。这使得它在小批量甚至是批次大小为1的情况下表现更加稳定。 -
适应不同模型结构:
层归一化在循环神经网络(RNNs)和自注意力机制中特别有用,因为它不依赖于批量数据,从而避免了批量归一化在这些模型中的不稳定性。 -
加速训练:
通过规范化激活值的分布,层归一化可以减少梯度消失和爆炸的问题,加速训练收敛。
PyTorch中的实现
在 PyTorch 中,可以通过 torch.nn.LayerNorm
来使用层归一化,代码示例如下:
import torch
import torch.nn as nn
# 定义输入张量 (batch_size, seq_len, num_features)
x = torch.randn(10, 20, 30) # 例如 batch_size=10, seq_len=20, num_features=30
# 定义层归一化,归一化维度为最后一个维度
layer_norm = nn.LayerNorm(normalized_shape=30)
# 通过层归一化层
output = layer_norm(x)
print(output.shape) # 输出维度与输入相同
在这个示例中,LayerNorm
被应用于最后一个维度(即特征维度),以对每个样本的激活值进行归一化。
有个代码例子
torch.manual_seed(123)
# 创建两个训练样例,每个样例有5个维度(特征)
batch_example = torch.randn(2, 5)
layer = nn.Sequential(nn.Linear(5, 6), nn.ReLU())
out = layer(batch_example)
print(out)
# 均值方差
mean = out.mean(dim=-1, keepdim=True)
var = out.var(dim=-1, keepdim=True)
print("Mean:\n", mean)
print("Variance:\n", var)
# 归一化,并看结果
out_norm = (out - mean) / torch.sqrt(var)
print("Normalized layer outputs:\n", out_norm)
# 确认一下每个输入的均值都为0,方差都为1
mean = out_norm.mean(dim=-1, keepdim=True)
var = out_norm.var(dim=-1, keepdim=True)
print("Mean:\n", mean)
print("Variance:\n", var)