数据初始化要点:
1. 梯度下降算法的三种方式:
- 批量梯度下降法(batch),即同时处理整个训练集.
- 小批量梯度下降法(Mini-Batch )每次同时处理固定大小的数据集.
- 随机梯度下降法(stochastic gradient descent), 每次随机选一个进行处理.
2.数据预处理的方式:
- 指数加权平均(Exponentially Weight Average)
- 动量梯度下降法(Gradient Descent with Momentum),计算梯度的指数加权平均数,并利用该值来更新参数值。
- RMSProp 算法, 是在对梯度进行指数加权平均的基础上,引入平方和平方根。
- Adam算法, 将 Momentum 和 RMSProp 算法结合在一起。
3.学习率衰减:
- 最常用的学习率衰减方法: # decay_rate为衰减率(超参数),epoch_num为将所有的训练样本完整过一遍的次数
- 指数衰减:
4.标准化处理:
# μ为平均值,σ为标准差
2.2 梯度下降算法改进
深度学习难以在大数据领域发挥最大效果的一个原因是,在巨大的数据集基础上进行训练速度很慢。而优化算法能够帮助我们快速训练模型,提高计算效率。接下来我么就去看有哪些方法能够解决我们刚才遇到的问题或者类似的问题 .
优化遇到的问题:
-
梯度消失或者梯度爆炸
-
局部最优
在梯度函数上出现的以指数级递增或者递减的情况分别称为梯度爆炸或者梯度消失。
在计算梯度时,根据不同情况梯度函数也会以指数级递增或递减,导致训练导数难度上升,梯度下降算法的步长会变得非常小,需要训练的时间将会非常长。
局部最优, 鞍点(saddle)是函数上的导数为零,但是轴上局部极值的点。通常梯度为零的点是上图所示的鞍点,而非局部最小值。减少损失的难度也来自误差曲面中的鞍点,而不是局部最低点。
-
在训练较大的神经网络、存在大量参数,并且成本函数被定义在较高的维度空间时,困在极差的局部最优基本不会发生
-
鞍点附近的平稳段会使得学习非常缓慢,而这也是需要后面的动量梯度下降法、RMSProp 以及 Adam 优化算法能够加速学习的原因,它们能帮助尽早走出平稳段。
解决办法有多种形式,通常会结合一些形式一起进行:
-
初始化参数策略(第一部分第四节提到)
-
Mini梯度下降法
-
梯度下降算法的优化
-
学习率衰减
2.2.2 参数初始化策略
由于在公式中,当输入的数量n较大时,如果每个的值都大一些,这样它们的和得到的也会非常大,所以会造成我们之前在第一部分最后一节当中介绍的。所以都会初始化比较小的值。
2.2.3 批梯度下降算法(Batch Gradient Descent)
- 定义:批量梯度下降法(batch),即同时处理整个训练集。
- 定义:Mini-Batch 梯度下降法(小批量梯度下降法)每次同时处理固定大小的数据集。
-
种类:mini-batch 的大小为 1,即是随机梯度下降法(stochastic gradient descent), 每次随机选一个.
梯度下降优化影响:
-
batch 梯度下降法:
-
对所有 m 个训练样本执行一次梯度下降,每一次迭代时间较长,训练过程慢;
-
相对噪声低一些,成本函数总是向减小的方向下降。
-
-
随机梯度下降法(Mini-Batch=1):
-
对每一个训练样本执行一次梯度下降,训练速度快,但丢失了向量化带来的计算加速;
-
有很多噪声,需要适当减小学习率,成本函数总体趋势向全局最小值靠近,但永远不会收敛,而是一直在最小值附近波动。
-
因此,选择一个合适的大小进行 Mini-batch 梯度下降,可以实现快速学习,也应用了向量化带来的好处,且成本函数的下降处于前两者之间。
大小选择 :
-
如果训练样本的大小比较小,如m < 2000时,选择 batch 梯度下降法;
-
如果训练样本的大小比较大,选择 Mini-Batch 梯度下降法。为了和计算机的信息存储方式相适应,代码在 mini-batch 大小为 2 的幂次时运行要快一些。典型的大小为2^6, 2^7, 2^8 ,mini-batch 的大小要符合 CPU/GPU 内存。
2.2.4 指数加权平均
指数加权平均(Exponentially Weight Average)是一种常用的序列数据处理方式,通常用在序列场景如金融序列分析、温度变化序列分析。
2.2.5 动量梯度下降法
动量梯度下降(Gradient Descent with Momentum)是计算梯度的指数加权平均数,并利用该值来更新参数值。动量梯度下降法的整个过程为:
使用动量梯度下降时,通过累加过去的梯度值来减少抵达最小值路径上的波动,加速了收敛,因此在横轴方向下降得更快,从而得到图中红色或者紫色的曲线。当前后梯度方向一致时,动量梯度下降能够加速学习;而前后梯度方向不一致时,动量梯度下降能够抑制震荡。
我们可以这样形象的理解,小球在向下运动过程中会有加速度,导致越来越快,由于β的存在使得不会一直加速运行。
2.2.6 RMSProp 算法
RMSProp(Root Mean Square Prop)算法是在对梯度进行指数加权平均的基础上,引入平方和平方根。
最终RMSProp 有助于减少抵达最小值路径上的摆动,并允许使用一个更大的学习率 α,从而加快算法学习速度。
2.2.7 Adam算法
Adam 优化算法(Adaptive Moment Estimation,自适应矩估计)将 Momentum(动量) 和 RMSProp 算法结合在一起。
2.2.8 TensorFlow Adam算法API
-
tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.9, beta2=0.999,epsilon=1e-08,name='Adam')
Adam 优化算法有很多的超参数:
-
学习率α:需要尝试一系列的值,来寻找比较合适的
-
β1:常用的缺省值为 0.9
-
β2:Adam 算法的作者建议为 0.999
-
ϵ:Adam 算法的作者建议为epsilon的默认值1e-8
注:β1、β2、ϵ 通常不需要调试
2.2.9 学习率衰减
如果设置一个固定的学习率 α
-
在最小值点附近,由于不同的 batch 中存在一定的噪声,因此不会精确收敛,而是始终在最小值周围一个较大的范围内波动。
-
如果随着时间慢慢减少学习率 α 的大小,在初期 α 较大时,下降的步长较大,能以较快的速度进行梯度下降;而后期逐步减小 α 的值,即减小步长,有助于算法的收敛,更容易接近最优解。
其中,decay_rate为衰减率(超参数),epoch_num为将所有的训练样本完整过一遍的次数。
还有一种指数衰减 :
对于大型的数据模型,需要使用这些方式去自动进行学习率衰减。而一些小型网络可以直接手动进行调整
那么最后我们来看一张动态度,表示不同优化的算法的效果图
2.2.10 其它非算法优化的方式-标准化输入
对网络输入的特征进行标准化,能够缓解梯度消失或者梯度爆炸
-
标准化公式:
这个公式其实与特征工程中的处理是一样的,μ为平均值,σ为标准差。标准化的目的是所有特征的平均值为0,标准差为1。这属于机器学习基本的内容不过多进行叙述。
这样的话,对于梯度下降无论从哪个位置开始迭代,都能以相对较少的迭代次数找到全局最优解。可以加速网络的学习。
如果激活函数的输入X近似设置成均值为 0,标准方差为 1,神经元输出 z 的方差就正则化到1了。虽然没有解决梯度消失和爆炸的问题,但其在一定程度上确实减缓了梯度消失和爆炸的速度。
2.2.11 总结
-
掌握参数初始化策略的优点
-
掌握Mini-batch的特点以及优势
-
掌握梯度下降算法优化的目的以及效果
-
掌握指数移动平均值的好处
-
掌握动量梯度下降法的优点以及RMSProp、Adam的特点
-
掌握学习率衰减方式
-
-
掌握标准化输入带来的网络学习速度的提升