批归一化(Batch Normalization)与层归一化(Layer Normalization)的区别与联系

在这里插入图片描述

文章目录

一、Batch normalization 理论与应用
- 1. 理论解释
- 2. 数值例子
二、Layer normalization 理论与应用
- 1. 理论解释
- 2. 数值例子
三、Layer Normalization 和 Batch Normalization 的区别
四、《Transformers without Normalization》笔记

一、Batch normalization 理论与应用

1. 理论解释

Batch Normalization（批归一化）是一种用于深度学习的优化技术，由Sergey Ioffe和Christian Szegedy在2015年提出。它通过对每一层的输入进行归一化处理，加速训练并提升模型性能。

原理

归一化：

对每个小批量数据（mini-batch）的每个特征维度进行归一化，使其均值为0，方差为1。
公式为：
$\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$
其中， $x_i$ 是输入， $\mu_B$ 是均值， $\sigma_B^2$ 是方差， $\epsilon$ 是防止除零的小常数。

缩放和平移：

归一化后，通过可学习的参数 $\gamma$ 和 $\beta$ 进行缩放和平移，恢复数据的表达能力。
公式为：
$y_i = \gamma \hat{x}_i + \beta$
其中， $y_i$ 是输出， $\gamma$ 和 $\beta$ 是可学习参数。

作用

加速训练：
- 归一化后的数据分布更稳定，减少了内部协变量偏移，允许使用更高的学习率，加快收敛。
防止梯度消失/爆炸：
- 归一化使激活值保持在合理范围内，缓解了梯度消失或爆炸问题。
正则化效果：
- 由于使用小批量数据的统计量，引入了噪声，起到轻微的正则化作用，减少过拟合。
减少对初始化的依赖：
- 归一化使网络对参数初始化的敏感性降低，简化了调参过程。

实现

在训练时，计算每个小批量的均值和方差；在测试时，使用训练数据的移动平均均值和方差。
代码示例

import torch
import torch.nn as nn

# 定义一个带BatchNorm的层
batch_norm = nn.BatchNorm2d(num_features=64)

# 输入数据
input_data = torch.randn(32, 64, 128, 128)

# 前向传播
output = batch_norm(input_data)
总结
Batch Normalization通过对每层输入进行归一化，加速训练、防止梯度问题、提供正则化效果，并减少对初始化的依赖，是深度学习中的重要技术。

2. 数值例子

通过一个具体的数值例子来说明 Batch Normalization 的计算过程。

假设我们有一个 mini-batch，包含 3 个样本，每个样本有 2 个特征。数据如下：

$\begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \\ \end{bmatrix}$
其中：

每一行是一个样本。
每一列是一个特征（例如，特征 1 和特征 2）。

Batch Normalization 的计算步骤

计算每个特征的均值和方差

Batch Normalization 是对每个特征分别进行归一化的。我们分别计算特征 1 和特征 2 的均值和方差。

特征 1（第一列：1, 3, 5）：
- 均值： $\mu_1 = \frac{1 + 3 + 5}{3} = 3$
- 方差： $\sigma_1^2 = \frac{(1-3)^2 + (3-3)^2 + (5-3)^2}{3} = \frac{4 + 0 + 4}{3} = \frac{8}{3}$
特征 2（第二列：2, 4, 6）：
- 均值： $\mu_2 = \frac{2 + 4 + 6}{3} = 4$
- 方差： $\sigma_2^2 = \frac{(2-4)^2 + (4-4)^2 + (6-4)^2}{3} = \frac{4 + 0 + 4}{3} = \frac{8}{3}$

归一化

使用均值和方差对每个特征进行归一化。归一化公式为：
$\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}$
假设 $\epsilon = 0.0001$ （一个很小的常数，防止除零）。

特征 1 的归一化：
$\hat{x}_1 = \frac{1 - 3}{\sqrt{\frac{8}{3} + 0.0001}} \approx \frac{-2}{1.633} \approx -1.225$
$\hat{x}_2 = \frac{3 - 3}{\sqrt{\frac{8}{3} + 0.0001}} \approx \frac{0}{1.633} \approx 0$
$\hat{x}_3 = \frac{5 - 3}{\sqrt{\frac{8}{3} + 0.0001}} \approx \frac{2}{1.633} \approx 1.225$
特征 2 的归一化：
$\hat{x}_1 = \frac{2 - 4}{\sqrt{\frac{8}{3} + 0.0001}} \approx \frac{-2}{1.633} \approx -1.225$
$\hat{x}_2 = \frac{4 - 4}{\sqrt{\frac{8}{3} + 0.0001}} \approx \frac{0}{1.633} \approx 0$
$\hat{x}_3 = \frac{6 - 4}{\sqrt{\frac{8}{3} + 0.0001}} \approx \frac{2}{1.633} \approx 1.225$

归一化后的数据为：

$\hat{X} = \begin{bmatrix} -1.225 & -1.225 \\ 0 & 0 \\ 1.225 & 1.225 \\ \end{bmatrix}$

缩放和平移

Batch Normalization 还会对归一化后的数据进行缩放和平移，引入可学习的参数 $\gamma$ 和 $\beta$ 。假设 $\gamma = [1, 1]$ 和 $\beta = [0, 0]$ （初始值），则输出为：

$y_i = \gamma \cdot \hat{x}_i + \beta$

计算后结果与归一化结果相同：

$\begin{bmatrix} -1.225 & -1.225 \\ 0 & 0 \\ 1.225 & 1.225 \\ \end{bmatrix}$

如果 $\gamma = [2, 2]$ 和 $\beta = [1, 1]$ ，则输出为：

$\begin{bmatrix} -1.225 \times 2 + 1 & -1.225 \times 2 + 1 \\ 0 \times 2 + 1 & 0 \times 2 + 1 \\ 1.225 \times 2 + 1 & 1.225 \times 2 + 1 \\ \end{bmatrix} = \begin{bmatrix} -1.45 & -1.45 \\ 1 & 1 \\ 3.45 & 3.45 \\ \end{bmatrix}$

小结

归一化：将数据调整为均值为 0，方差为 1。
缩放和平移：通过 $\gamma$ 和 $\beta$ 恢复数据的表达能力。
最终输出：归一化后的数据经过缩放和平移，得到最终的输出。
通过这个数值例子，可以清楚地看到 Batch Normalization 的计算过程及其作用。

二、Layer normalization 理论与应用

1. 理论解释

Layer Normalization（层归一化）是另一种归一化技术，由 Jimmy Lei Ba 等人在 2016 年提出。它与 Batch Normalization（批归一化）的目标类似，都是为了加速训练并提高模型性能，但它们的归一化方式和应用场景有所不同。

Layer Normalization 的原理

Layer Normalization 是对单个样本的所有特征进行归一化，而不是像 Batch Normalization 那样对整个 mini-batch 的每个特征进行归一化。具体步骤如下：

计算均值和方差：

对于每个样本，计算其所有特征的均值和方差。
假设输入为 $[x_1, x_2, \dots, x_d]$ （ $d$ 是特征维度），则：
$\mu = \frac{1}{d} \sum_{i=1}^d x_i$
$\sigma^2 = \frac{1}{d} \sum_{i=1}^d (x_i - \mu)^2$

归一化：

使用均值和方差对每个特征进行归一化：
$\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}$
其中， $\epsilon$ 是一个很小的常数，用于防止除零。

缩放和平移：

引入可学习的参数 $\gamma$ 和 $\beta$ ，对归一化后的数据进行缩放和平移：
$y_i = \gamma \hat{x}_i + \beta$

Layer Normalization 的特点

对单个样本操作：
- Layer Normalization 是对每个样本的所有特征进行归一化，而不是对整个 mini-batch 的每个特征进行归一化。
适用于变长数据：
- 由于不依赖于 mini-batch 的大小，Layer Normalization 更适合处理变长数据（如 NLP 中的序列数据）。
对 mini-batch 大小不敏感：
- Layer Normalization 的性能不受 mini-batch 大小的影响，即使 batch size 为 1 也能正常工作。

2. 数值例子

通过一个包含多个样本的例子来详细说明 Layer Normalization 的计算过程。

假设我们有一个 mini-batch，包含 2 个样本，每个样本有 3 个特征。数据如下：

$\begin{bmatrix} 2 & 4 & 6 \\ 1 & 3 & 5 \\ \end{bmatrix}$

其中：

每一行是一个样本。
每一列是一个特征（例如，特征 1、特征 2 和特征 3）。

Layer Normalization 的计算步骤

Layer Normalization 是对每个样本的所有特征进行归一化。因此，我们需要分别对每个样本计算均值和方差，然后进行归一化。

对第一个样本[2, 4, 6]的计算
- 计算均值和方差：
  - 均值：
    $\mu_1 = \frac{2 + 4 + 6}{3} = 4$
  - 方差：
    $\sigma_1^2 = \frac{(2-4)^2 + (4-4)^2 + (6-4)^2}{3} = \frac{4 + 0 + 4}{3} = \frac{8}{3}$
- 归一化：
  使用公式：
  $\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}$
  假设 $\epsilon = 0.0001$ 。
- 特征 1：
$\hat{x}_1 = \frac{2 - 4}{\sqrt{\frac{8}{3} + 0.0001}} \approx \frac{-2}{1.633} \approx -1.225$
- 特征 2：
  $\hat{x}_2 = \frac{4 - 4}{\sqrt{\frac{8}{3} + 0.0001}} \approx \frac{0}{1.633} \approx 0$
- 特征 3：
  $\hat{x}_3 = \frac{6 - 4}{\sqrt{\frac{8}{3} + 0.0001}} \approx \frac{2}{1.633} \approx 1.225$
归一化后的第一个样本：
$\hat{x}_1 = [-1.225, 0, 1.225]$
对第二个样本[1, 3, 5]的计算
- 计算均值和方差：
  - 均值：
    $\mu_2 = \frac{1 + 3 + 5}{3} = 3$
  - 方差：
    $\sigma_2^2 = \frac{(1-3)^2 + (3-3)^2 + (5-3)^2}{3} = \frac{4 + 0 + 4}{3} = \frac{8}{3}$
- 归一化：
使用公式：

$\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}$
- 特征 1：
  $\hat{x}_1 = \frac{1 - 3}{\sqrt{\frac{8}{3} + 0.0001}} \approx \frac{-2}{1.633} \approx -1.225$
- 特征 2：
  $\hat{x}_2 = \frac{3 - 3}{\sqrt{\frac{8}{3} + 0.0001}} \approx \frac{0}{1.633} \approx 0$
- 特征 3：
  $\hat{x}_3 = \frac{5 - 3}{\sqrt{\frac{8}{3} + 0.0001}} \approx \frac{2}{1.633} \approx 1.225$
  
  归一化后的第二个样本：
  $\hat{x}_2 = [-1.225, 0, 1.225]$
归一化后的结果

将所有样本的归一化结果组合起来：
$\hat{X} = \begin{bmatrix} -1.225 & 0 & 1.225 \\ -1.225 & 0 & 1.225 \\ \end{bmatrix}$
缩放和平移
Layer Normalization 还会对归一化后的数据进行缩放和平移，引入可学习的参数 $\gamma$ 和 $\beta$ 。假设 $\gamma = [1, 1, 1]$ 和 $\beta = [0, 0, 0]$ （初始值），则输出为：

$y_i = \gamma \cdot \hat{x}_i + \beta$

计算结果与归一化结果相同：

$\begin{bmatrix} -1.225 & 0 & 1.225 \\ -1.225 & 0 & 1.225 \\ \end{bmatrix}$

如果 $\gamma = [2, 2, 2]$ 和 $\beta = [1, 1, 1]$ ，则输出为：

$\begin{bmatrix} -1.225 \times 2 + 1 & 0 \times 2 + 1 & 1.225 \times 2 + 1 \\ -1.225 \times 2 + 1 & 0 \times 2 + 1 & 1.225 \times 2 + 1 \\ \end{bmatrix} = \begin{bmatrix} -1.45 & 1 & 3.45 \\ -1.45 & 1 & 3.45 \\ \end{bmatrix}$

小结

Layer Normalization 是对每个样本的所有特征进行归一化。
计算步骤包括：
- 计算每个样本的均值和方差。
- 归一化。
- 缩放和平移。
与 Batch Normalization 不同，Layer Normalization 不依赖于 mini-batch，适合处理变长数据（如 NLP 中的序列数据）。

通过这个包含多个样本的例子，可以清楚地看到 Layer Normalization 的计算过程及其作用。

三、Layer Normalization 和 Batch Normalization 的区别

在这里插入图片描述
代码示例

以下是 PyTorch 中 Layer Normalization 的实现示例：

import torch
import torch.nn as nn

# 定义一个 LayerNorm 层
layer_norm = nn.LayerNorm(normalized_shape=64)  # normalized_shape 是特征维度

# 输入数据 (batch_size, sequence_length, feature_dim)
input_data = torch.randn(32, 10, 64)  # 假设 batch_size=32, sequence_length=10, feature_dim=64

# 前向传播
output = layer_norm(input_data)