第二门课：改善深层神经网络＜超参数调试、正则化及优化＞-深度学习的实用层面

文章目录

1 训练集、验证集以及测试集
2 偏差与方差
3 机器学习基础
4 正则化
5 为什么正则化可以减少过拟合？
6 Dropout<随机失活>正则化
7 理解Dropout
8 其他正则化方法
9 归一化输入
10 梯度消失和梯度爆炸
11 神经网络的权重初始化
12 梯度的数值逼近
13 梯度检验
14 关于梯度检验的注记

1 训练集、验证集以及测试集

验证集与测试集要确保来自同一个分布
因为验证集要用来评估不同的模型，尽可能的优化性能
但由于深度学习需要大量的训练数据，为了获取大规模的训练数据集，可以采用当前流行的创意策略，比如：网页抓取，代价就是训练集数据与验证集数据和测试集数据有可能不是来自同一个分布。
测试集的目的是对最终所选定的神经网络系统做出无偏评估
训练集（train set） —— 用于模型拟合的数据样本。
验证集（development set）—— 是模型训练过程中单独留出的样本集，用于调整模型的超参数以及对模型的能力进行初步评估。通常用来在模型迭代训练时，用以验证当前模型泛化能力（准确率，召回率等），以决定是否停止继续训练。
测试集（test set） —— 用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

2 偏差与方差

在这里插入图片描述
如果给数据集拟合一条直线，可能得到一个逻辑回归拟合
第一个为偏差高的情况，称为“欠拟合”
第二个为复杂程度适中，数据拟合适度的分类器
第三个分类器偏差较高，数据过度拟合

第一种训练集很好，验证集误差大，可能是过度拟合了训练集，某种程度上，验证机并没有充分利用交叉验证集的作用，则称之为“高方差”。
第二种训练集与验证集相差不多，则证明是训练集拟合度不高，可能会分辨不出目标，即数据欠拟合，则算法高偏差。对于验证集产生的结果是合理的，与上面一张图片的high bias相似。

3 机器学习基础

在这里插入图片描述
首先要知道算法的偏差是否高，如果偏差较高，试着评估训练集或训练数据的性能。如果偏差较高甚至无法拟合训练集，则选择一个新网络，然后反复尝试，直到可以拟合数据为止。如果网络足够大，通常可以很好的拟合训练集。
如果方差高，最好的解决方法就是采用更多数据以及正则化

4 正则化

在这里插入图片描述
只正则化w是因为w通常是高维度矢量，已经可以表达高方差问题，w可能含有很多参数，我们不可能拟合所有参数，而b只是单个数字，所以w几乎涵盖了所有参数，而不是b，如果加了参数b也没有什么太大的影响，因此b只是众多参数中的一个，因此我们通常忽略不计。

在这里插入图片描述

λ是正则化参数，通常使用验证集或交叉验证来配置这个参数。
λ是一个需要调整的超级参数。
L2范数正则化也被称为“权重衰减”
Backprop输出的最初梯度值即反向传播输出的最初梯度值
在这里插入图片描述

5 为什么正则化可以减少过拟合？

在这里插入图片描述

当 λ 设置的很大的时候，最终W 会变得很接近于 0，神经网络中的很多单元的作用变得很小，整个网络越来越接近逻辑回归。在λ 设置的很大的时候，高方差会变为高偏差，当λ 取得一个适中的值时，不会再存在高偏差以及高方差。
λ 增大时，整个神经网络会计算离线性函数近的值，这个线性函数非常简单，不是复杂的高度非线性函数，不会发生过拟合。

6 Dropout<随机失活>正则化

Dropout遍历网络的每一层，并设置消除神经网络中节点的概率，假设每个节点得以保留和消除的概率为0.5，设置完节点概率，消除一部分节点，然后消除从该节点进出的连线，最后得到一个节点更少、规模更小的网络，然后使用backprop进行训练。
在这里插入图片描述
以三层网络为例：

keep_prob = 0.8# 设置神经元保留概率为0.8，消除任意一个隐藏单元的概率是0.2
d3 = np.random.rand(a3.shape[0], a3.shape[1]) < keep_prob   
#生成指定维度的的[0,1)范围之间的随机数，输入参数为维度，shape[0]只输出行数，shape[1]只输出列数。矩阵中随机数小于0.8为1，否则为0
a3 = np.multiply(a3, d3)
a3 /= keep_prob  #是为了保证下一层计算的时候期望值不变。

事实上，dropout也是产生权重收缩的效果。
当keep_prob = 1的时候，就会保留原始所有的神经元，即关闭dropout功能。
在这里插入图片描述

7 理解Dropout

1、dropout随机删除网络中的神经单元
2、dropout将产生收缩权重的平方范数的效果，和我们之前讲过的L2正则化类似，实施dropout的结果是它会压缩权重，并完成一些预防过拟合的外层正则化。与L2正则化不同的是，被应用的方式不同，dropout也会有所不同，甚至更适用于不同的输入范围。L2对不同权重的衰减是不同的，它取决于倍增的激活函数的大小。
在这里插入图片描述

这是一个拥有三个输入特征的网络，其中一个要选择的参数是keep-prob，即每一层上保留单元的概率。所以不同层的keep-prob也可以变化。第一层，矩阵W^{[1]是7×3，第二个权重矩阵W}[2]是7×7，第三个权重矩阵W^{[3]是3×7，以此类推，W}[2]是最大的权重矩阵，因为拥有最大参数集，即7×7，为了预防矩阵的过拟合，对于这一层（第二层），它的keep-prob值应该相对较低，假设是0.5。对于其它层，过拟合的程度可能没那么严重，它们的keep-prob值可能高一些，可能是0.7，这里是0.7。如果在某一层，不必担心其过拟合的问题，那么keep-prob可以为1。

8 其他正则化方法

除L2正则化和随机失活（dropout）正则化，还有几种方法可以减少神经网络中的过拟合。
1、数据扩增对于图片数据，可以水平翻转图片或者随意裁剪。对于数字识别，我们还可以通过添加数字，随意旋转或扭曲数字来扩增数据。
在这里插入图片描述

2、early stopping<提早停止训练神经网络>
在这里插入图片描述
在中间停止迭代，我们得到一个w值中等大小的弗罗贝尼乌斯范数，与L2正则化相似，选择参数w范数较小的神经网络。
early stopping的主要缺点不能同时处理过拟合和 代价函数不够小 的问题
提早停止，可能代价函数 J 不够小。
不提早结束，可能会过拟合。
Early stopping的优点是，只运行一次梯度下降，你可以找出w的较小值，中间值和较大值，而无需尝试L2正则化超级参数的很多值。

9 归一化输入

归一化输入，可以加速训练。它一般需要两个以下步骤：
零均值化（所有的数据减去均值)，X等于每个训练数据x减去u，意思是移动训练集，直到它完成零均值化
在这里插入图片描述
2、归一化方差 (所有数据除以方差)，由于已经完成了零均值化，把所有数据除以σ平方。这样x1和x2的方差都等于1。

如果你使用非归一化的输入特征，梯度下降法可能需要多次迭代过程，直到最后找到最小值。
如果进行归一化处理，函数是一个更圆的球形轮廓（右上方），那么不论从哪个位置开始，梯度下降法都能够更直接地找到最小值。

10 梯度消失和梯度爆炸

在这里插入图片描述

y帽等于1.5^(L-1) x，L越大，y帽越大，呈指数型增长，也称爆炸式增长。相反，如果权重矩阵W的元素都小于1，如0.5，L越大，y帽正比于0.5^L，呈指数型减小，称为数值消失。当各层权重W都大于1或者小于1，当层数很大时，出现数值爆炸或消失。

11 神经网络的权重初始化

可以将神经网络的权重初始化来尝试解决梯度消失和爆炸
在这里插入图片描述
为了预防z值过大或者过小，你可以看到n越大，你希望w_i越小，最合理的方法是设置为w_i = 1/n，n表示神经元的输入特征数量。设置第l层权重矩阵为：

其中，n^(l-1)是第l-1层神经元的数量。

12 梯度的数值逼近

在反向传播时，有个测试叫做梯度检验。即计算误差时，我们需要使用双边误差，不使用单边误差，因为前者更准确。
在这里插入图片描述

13 梯度检验

梯度检验使用双边误差进行检验
d\theta i是代价函数的偏导数，d\theta approx与d\theta i有相同的维度，他们两个与\theta具有相同的维度。
检验这些向量是否接近<计算这两个向量的欧氏距离>：
然后用向量长度做归一化

在这里插入图片描述

14 关于梯度检验的注记

1、不要在训练中使用梯度检验，它只用于调试。为了实施梯度下降，你必须使用W和b反向传播来计算dθ，只有调试的时候才会计算它。
2、如果算法的梯度检验失败，要检查所有项，检查每一项，并试着找出bug。注意θ的各项与b和w的各项都是一一对应的。
3、在实施梯度检验时，如果使用正则化，请注意正则项。
4、梯度检验不能与dropout同时使用，因为每次迭代过程中，dropout会随机消除隐藏层单元的不同子集，难以计算dropout在梯度下降上的代价函数J。