引言

继续上一节介绍激活函数在神经网络前馈/反向传播中的作用。

回顾：没有激活函数参与，输入输出分布的变化情况

在神经网络前馈/反向传播过程中没有激活函数的参与，各隐藏层之间的均值和方差变化情况表示如下：
依然描述 $t$ 层神经元输出 $h_i^{(t)}$ 与 $t - 1$ 层神经元输入 $h_{j}^{(t-1)}$ 之间的关系。

已知：
各权重在该该层内的权重空间内是‘独立同分布’;
各层输入/输出特征在对应特征空间中同分布，但是否独立未知。
权重和特征分布属于不同的空间(权重空间/特征空间)，它们必然相互独立。

$t$ 层各神经元内权重 $\mathcal W_{i \Leftrightarrow j}^{(t)}(i=1,2,\cdots,j=1,2,\cdots)$ 均独立同分布，且分布均值为 $0$ ，方差为 $\gamma_t$ ：
$\mathbb E[\mathcal W_{i \Leftrightarrow j}^{(t)}] = 0 \quad \text{Var} [\mathcal W_{i \Leftrightarrow j}^{(t)}] = \gamma_t$
$t$ 层神经元输入 $h_j^{(t-1)}(j=1,2,\cdots)$ 以及输出 $h_i^{(t)}(t=1,2,\cdots)$ 均服从各自分布。这里以 $t$ 层输出为例：
$\mathbb E[h_i^{(t)}] = 0 \quad \text{Var}[h_i^{(t)}] = a$
同理，对应反向传播过程中 $h_i^{(t)}$ 梯度的均值和方差表示为：
$\mathbb E \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] = 0 \quad \text{Var} \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] = b$

前馈计算过程： $h_j^{(t-1)} \Rightarrow h_i^{(t)}$ ：

均值结果：
输入与输出的均值结果无变化: $\Rightarrow \mathbb E[h_i^{(t)}] = \mathbb E [h_{j}^{(t-1)}] = 0$
$\mathbb E[h_i^{(t)}] = \mathbb E \left[\sum_{j} \mathcal W_{i \Leftrightarrow j}^{(t)} \cdot h_j^{(t-1)}\right] = \sum_j \mathbb E [\mathcal W_{i \Leftrightarrow j}^{(t)}] \cdot \mathbb E [h_j^{(t-1)}] = 0$
方差结果：
输入与输出的方差结果存在偏差,其中 $n_{t-1}$ 表示 $t$ 层输入神经元数量。
$\text{Var} [h_i^{(t)}] = n_{t-1} \cdot \gamma_t \cdot \text{Var}[h_j^{(t-1)}]$

反向传播过程： $\begin{aligned}\frac{\partial \mathcal L}{\partial h_i^{(t)}} \Rightarrow \frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\end{aligned}$ ：

均值结果：
同上，依然没有变化: $\Rightarrow \begin{aligned}\mathbb E \left[\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\right] = \mathbb E \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] = 0\end{aligned}$
$\begin{aligned}\mathbb E \left[\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\right]\end{aligned} = \mathbb E \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}} \cdot \frac{\partial h_i^{(t)}}{\partial h_j^{(t-1)}}\right] = \mathbb E \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] \cdot \underbrace{\mathbb E \left[\mathcal W_{i \Leftarrow j}^{(t)}\right]}_{0} = 0$
方差结果：
和前馈计算相似。 $n_t$ 表示 $t$ 层神经元的数量。
$\text{Var} \left[\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\right] = n_t \cdot \gamma_t \cdot \text{Var} \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right]$

至此，可以发现，在没有激活函数，也就是纯粹的线性计算过程中，无论是前馈/反向传播过程，每一层分布的方差均在发生偏移。如果我们希望在传播过程中满足分布不变，则需要同时满足两个等式：
$\begin{cases} n_{t-1} \cdot \gamma_t = 1 \\ n_{t} \cdot \gamma_t = 1 \end{cases}$

$\text{Xavier}$ 方法

很明显，上述两个等式在神经网络中很难同时满足——该层的输入和输出神经元数量必须相同。
$\text{Xavier}$ 方法给出一个折中的方式：令 $\begin{aligned}\gamma_t \cdot \frac{n_{t-1} + n_t}{2} = 1 \Rightarrow \gamma_t = \frac{2}{n_{t-1} + n_{t}}\end{aligned}$ 从而通过折中方式选择第 $t$ 层权重的方差 $\gamma_t$ 。

也就是说，当前网络层的输入、输出神经元数量确定后，使用其确定参数 $\gamma_t$ ，并使用该参数来构建随机分布作为初始化分布：
也就是关于权重 $\mathcal W^{(t)}$ 的先验分布。

如果使用高斯分布，有：
$\begin{aligned}\mathcal W^{(t)} \sim \mathcal N \left[0,\sqrt{\frac{2}{n_{t-1} + n_t}} \right]\end{aligned}$
如果使用均匀分布，有：
均匀分布的方差表示为 $\begin{aligned}\frac{(b - a)^2}{12}\end{aligned}$ ,其中 $a, b$ 表示均匀分布范围。
$\mathcal W^{(t)} \sim \mathcal U \left[- \sqrt{\frac{6}{n_{t-1} + n_t}},\sqrt{\frac{6}{_{t-1} + n_t}}\right]$

从而通过这种权重初始化的方式尽量使各层的输入、输出分布的方差信息保持一致。

存在激活函数的情况

假设激活函数是线性函数

从上帝视角观察，自然不会使用线性函数作为激活函数。因为它无法学习到非线性信息。这里仅讨论如果线性函数作为激活函数，它会产生什么样的影响。

假设激活函数 $\sigma(x) = \alpha \cdot x + \beta$ ，并且有：
$\begin{cases} \mathcal Z^{(t)} = \mathcal W^{(t)} \cdot h^{(t-1)} \\ h^{(t)} = \sigma(\mathcal Z^{(t)}) \end{cases}$

此时，计算前馈传播过程中 $h_i^{(t)}$ 的期望结果 $\mathbb E [h_i^{(t)}]$ ：
其中 $\mathcal Z_i^{(t)}$ 表示线性计算过程中第 $i$ 个神经元的输出结果。
$\begin{cases} \begin{aligned} \mathcal Z_i^{(t)} & = \sum_j \mathcal W_{i \Leftrightarrow j}^{(t)} \cdot h_j^{(t-1)}\\ \mathbb E [h_i^{(t)}] & = \mathbb E [\alpha \cdot \mathcal Z_i^{(t)} + \beta] \\ & = \alpha \cdot \mathbb E \left[\sum_j \mathcal W_{i \Leftrightarrow j}^{(t)} \cdot h_j^{(t-1)}\right] + \beta \\ & = \alpha + \underbrace{\sum_j \mathbb E [\mathcal W_{i \Leftrightarrow j}^{(t)}] \cdot \mathbb E[h_j^{(t-1)}]}_{=0} + \beta \\ & = \beta \end{aligned} \end{cases}$
可以看出，激活后的结果与激活前存在 $\beta$ 的偏差。但由于我们希望 $\mathbb E [h_i^{(t)}] = \mathbb E [\mathcal Z_i^{(t)}] = 0$ ，因而有： $\beta = 0$ 。
也就是激活前与激活后的均值相同。
计算前馈传播过程中 $h_i^{(t)}$ 的方差结果 $\text{Var}[h_i^{(t)}]$ ：
$\begin{aligned} \text{Var}[h_i^{(t)}] & = \mathbb E \left[(h_i^{(t)})^2\right] - \underbrace{\left[\mathbb E(h_i^{(t)})\right]^2}_{\beta^2} \\ & = \mathbb E \left[(\alpha \cdot \mathcal Z_i^{(t)} + \beta)^2\right] - \beta^2 \\ & = \alpha^2 \cdot \underbrace{\left\{\mathbb E \left[(\mathcal Z_i^{(t)})^2\right] - \underbrace{\left[\mathbb E(\mathcal Z_i^{(t)})\right]^2}_{=0}\right\}}_{=\text{Var}(\mathcal Z_i^{(t)})} + 2 \alpha\beta \underbrace{\mathbb E (\mathcal Z_i^{(t)})}_{=0} + \underbrace{\mathbb E(\beta^2)- \beta^2}_{=0} \\ & = \alpha^2 \cdot \text{Var}(\mathcal Z_i^{(t)}) \end{aligned}$
可以看做是激活后的结果相较于激活前结果扩大了 $\alpha^2$ 倍。同理，我们同样希望激活前与激活后的方差相同：
$\alpha^2 \cdot \text{Var}(\mathcal Z_i^{(t)}) = \text{Var}(\mathcal Z_i^{(t)}) \Rightarrow \alpha = 1$

综上，可以看出，如果要维持输出分布均值为 $0$ ，方差为某常数 的情况，我们的线性激活函数只能是：
好像做了一些什么，又好像什么都没做~就是一个恒等映射，当然 $\alpha$ 取 $- 1$ ,相当于将输出向量的方向完全倒置。
$\sigma(x) = x$

关于它的反向传播过程，与正向结果相同，这里就不赘述了。

激活函数的底层逻辑

从上面的逻辑，我们会发现：如果激活函数是线性的，那么为了输入、输出维持在一个相对稳定的条件下，它只能选择恒等函数 $(\text{Identity Function})$ 。

但恒等函数它的作用很明显。它能够让输入、输出分布之间保持稳定。但我们也希望能够通过前馈计算产生出一些非线性信息，从而通过反向传播，使模型参数拟合更加复杂的函数。
这里的意思是可理解为：恒等函数和非线性信息两者是矛盾的。但是它们的优点我们都想要。

关于一些常见的激活函数，使用泰勒公式进行展开：
其中 $\mathcal O$ 表示函数的复杂程度。其中 $\mathcal O$ 内 $x$ 指数越大，函数的‘非线性程度’越复杂。
$\begin{cases} \begin{aligned} \text{Sigmoid}(x) & = \frac{1}{2} + \frac{1}{4}x - \frac{1}{48}x^3 + \mathcal O(x^5) \\ \text{Tanh}(x) & = 0 + x - \frac{1}{3}x^3 + \mathcal O(x^5) \\ \text{ReLU}(x) & = 0 + x \quad x \geq 0 \end{aligned} \end{cases}$
它们的函数图像表示如下：
常见激活函数
对比泰勒展开式与函数图像，可以发现：

$\text{Tanh}$ 激活函数和 $\text{ReLU}$ 激活函数的一次项系数均是 $1$ ，这导致在函数图像中存在一个小区间(红色椭圆标注的位置)，这个小区间几乎支持恒等映射。
在神经网络计算隐藏层输出的分布时，相当大一部分的结果聚集在 $0$ 点附近。也就是说，神经网络所拟合的非线性结果是基于线性结果的基础上，增加函数的复杂度(变量的高次项)得到的结果。因此，我们希望在尽可能满足低次项分布稳定的基础上，去学习高次项特征(距离 $0$ 点远的结果)的非线性信息，最终得到拟合的复杂函数。

不否认的是， $\text{Sigmoid}$ 函数作为激活函数并没有 $\text{ReLU,Tanh}$ 函数优秀，核心原因在于在 $0$ 附近它没有实现恒等映射。
尝试最 $\text{Sigmoid}$ 函数做一些修改：
$\text{ScaledSigmoid}(x) = 4 \times \text{Sigmoid}(x) - 2$
其对应函数图像表示如下：
经过这样的修改后，其泰勒展开式的一次项是 $1$ ，该函数也存在了在 $0$ 附近恒等映射的条件。

总结

这里和深度学习笔记——数值稳定性、模型初始化与激活函数一同总结：

通过权重初始化和激活函数的调整来维持输出分布数值的稳定性。
(核心)这个稳定性这里使用隐藏层输入、输出分布之间的差异表示。主要通过参数：均值和方差进行描述。

获取非线性信息和维持数值稳定性这两件事情是矛盾的：
个人理解：权重自身能够直接影响稳定性————只要该值 $\neq 1$ ，本层的输出分布和输入分布就会存在差异。
- 如果过于强调稳定性：最终的结果相当于激活函数是一个恒等映射——反向传播中，学不到描述复杂函数的有效的梯度信息；
  这个结果导致函数‘过于简单’————欠拟合。
- 如果过于强调非线性：前馈计算过程中，经过每一层的输出分布差异是较大的。这种情况，更容易出现梯度消失/梯度爆炸，并且泰勒展开式高次项的权重系数过高，导致模型结果过拟合。
而优秀的激活函数就是既要维持分布稳定，又要能够使模型学习到非线性特征的非线性函数。