BN 层的作用, 为什么有这个作用?

news2025/4/6 8:30:48

BN 层（Batch Normalization）——这是深度神经网络中非常重要的一环，它大大改善了网络的训练速度、稳定性和收敛效果。

🧠 一句话理解 BN 层的作用：

Batch Normalization（批归一化）通过标准化每一层的激活值，让训练过程更稳定、更快、更容易收敛。

🧩 为什么需要 BN 层？

在深度网络中，随着层数增加，每层的输入分布会发生变化（称为 internal covariate shift）：

• 比如某一层开始习惯输入是 [-1, 1] 的分布；

• 但由于前面参数更新，下一次训练时输入可能变成 [0, 10]；

• 导致该层“适应不过来”，训练变慢，甚至梯度消失或爆炸。

🎯 BN 是怎么解决这个问题的？

✅ 它做了两步处理：

1. 标准化（Standardization）：

• 对 mini-batch 的每个神经元，减去均值、除以标准差，使输出是均值为 0、方差为 1。

• 类似 z-score：

$\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$

2. 线性变换（恢复表达能力）：

• 引入两个可学习参数 γ（scale）和 β（shift）：

$y_i = \gamma \hat{x}_i + \beta$

• 这一步确保即使你归一化了，也不会失去模型拟合能力（BN 不是简单的“压缩”，而是“规范+再建”）。

🌟 BN 的作用总结：

功能	解释
📉 减少内部协变量偏移	让每层输入分布更稳定，网络更容易学习
⚡ 加快收敛速度	训练更快、效果更好（可以用更大学习率）
📐 缓解梯度消失/爆炸	标准化后激活不会太大太小，梯度更稳
🧲 一定程度正则化	每次用 mini-batch，会引入噪声，有点像 Dropout
🚀 更深网络也能稳定训练	尤其适用于 ResNet、VGG 等大网络结构