目录
一:优化问题
1.梯度消失和爆炸
2.局部最优
3.指数加权平均
4.动量梯度下降法
5.RMSProp算法
6.Adam算法
二:学习率衰减
三:标准化
都看到这里了,点个赞呗!!!!!
一:优化问题
1.梯度消失和爆炸
在梯度函数上出现指数级递增或者递减的情况下分别称为梯度爆炸或者梯度消失
假设g(z)=z,对于目标输出:y=w^n*w^n-1*w^n-2......w^2W^1
对于w的值大于1的情况下,激活函数的值将以指数级递增
w的值小于一的情况下,激活函数的值将以指数级递减
在计算梯度时,根据不同情况梯度函数也会以指数级递增或递减,导致训练导数难度上升,梯度下降算法的步长会变得非常小,需要训练的时间将会非常长
2.局部最优
鞍点:是函数上的导数为零,但不是局部极值的点。通常导数为零的带你是图上所示的鞍点,而非局部最小值,减少损失的难度也来自误差曲面中的鞍点,而不是局部最低点
在训练较大的神经网络,存在大量参数,并且函数被定义在较高的维度空间时,困在极差的局部最优基本不会发生
鞍点附近的平稳段会使得学习非常缓慢,而这也是需要动量梯度下将法,RMSProp以及Adam优化算法能加速学习的原因,它能帮助尽早走出平稳段
3.指数加权平均
指数加权平均是一种常用的序列数据处理方式,通常用在序列场景如金融序列分析,温度变化序列分析。
加入给定一个序列,例如一个城市一年中的每天的气温值,图中蓝色的点代表真实数据
那么气温变化可以理解问过程波动较大,异常较多。那么怎么平缓一些呢,着时候就要用到加权平均值了,如指数加权平均
这条红线就是就是指数加权后计算出来的,指数加权公式:
公式中&#