1. 数值稳定性
神经网络的梯度
向量对向量求导(梯度)得到矩阵,太多的矩阵进行乘法会导致常见的两个问题
梯度消失和梯度爆炸 MLP MLP使用ReLU作为激活函数 梯度爆炸的问题 输入很大的时候梯度接近为0 梯度消失 梯度消失的问题
只能训练比较浅的神经网络 (底层训练不到)
总结
2. 模型初始化和激活函数
让训练更加稳定
让每层的方差是一个常数
权重初始化
例子:MLP
当前层的权重独立于当前层的输入
正向方差
反向均值和方差
Xavier初始
线性激活函数
反向
常用激活函数
总结
这一节听不懂了家人们,先这么着,回来懂了再回补
知乎https://zhuanlan.zhihu.com/p/685154434