一、意义

在使用较深的网络时，BatchNormalization（批量归一化）几乎是必需的，可以加速收敛。

对于图1所示的全连接层神经网络，输出节点 $O_0$ 的GroundTruth为 $R_0$ ，损失函数为 $L\left(x\right)$ ，则损失对权重 $w_1$ 的梯度为：

$\frac{\partial L\left ( R_0-O_0 \right)}{\partial w_1}=\frac{\partial L\left ( R_0-O_0 \right)}{\partial O_0}\cdot \frac{\partial O_0}{\partial w_1}$

更新权重 $w_0$ 的梯度为：

$\frac{\partial L\left ( R_0-O_0 \right)}{\partial w_0}=\frac{\partial L\left ( R_0-O_0 \right)}{\partial O_0}\cdot \frac{\partial O_0}{\partial H_0}\cdot\frac{\partial H_0}{\partial w_0}$

如果该网络有5个隐含层，那么更新底层权重 $w_0$ 的梯度为：

$\frac{\partial L\left ( R_0-O_0 \right)}{\partial w_0}=\frac{\partial L\left ( R_0-O_0 \right)}{\partial O_0}\cdot \frac{\partial O_0}{\partial H_4}\cdot\frac{\partial H_4}{\partial H_3}\cdot\frac{\partial H_3}{\partial H_2}\cdot\frac{\partial H_2}{\partial H_1}\cdot\frac{\partial H_1}{\partial H_0}\cdot\frac{\partial H_0}{\partial w_0}$

从上面的推导可知，如果网络非常深，那么更新底层权重的梯度后面会乘很多偏导数，而偏导数一般比较小，小于1，所以网络底层的梯度会非常小，从而权重更新很慢，造成底层训练速度慢。

而底层权重一旦改变，顶层权重也需要跟着改变，因此造成收敛变慢，网络训练速度慢。

解决这个问题的思路为在学习网络底层时避免变化网络平顶层

二、定义

计算主要涉及如下公式：

${x_i}'=\gamma \frac{x_i-\mu}{\sigma}+\beta$ $\gamma ,\beta$ 为可学习的参数，对应新的方差和均值。

其中：

$B=\left \{ x_0,x_1,...,x_{N-1} \right \}\\ \mu =\frac{1}{N}\sum \limits_{i=0 }^{N-1}x_i\\ \sigma^2=\frac{1}{N}\sum \limits_{i=0}^{N-1}\left ( x_i-\mu \right )^2+\epsilon$ ， $\epsilon$ 是一个很小的数，用于防止分母为零