深度学习基础(Datawhale X 李宏毅苹果书AI夏令营)

news2024/12/26 21:26:41

深度学习基础(Datawhale X 李宏毅苹果书AI夏令营)

3.1局部极小值和鞍点

3.1.1. 优化失败问题

在神经网络中，当优化到梯度为0的地方，梯度下降就无法继续更新参数了，训练也就停下来了，如图：

在这里插入图片描述

梯度为0的情况包含很多种情况：局部最小值、鞍点等。我们统称为临界值。

在这里插入图片描述

3.1.2. 判断临界值种类方法

要想知道临界值种类，我们需要知道损失函数的形状。

使用泰勒级数近似来判断：

$\theta'$ 附近的 $L(\theta)$ 可近似为：
$L(\boldsymbol{\theta})\approx L\left(\boldsymbol{\theta}^{\prime}\right)+\left(\boldsymbol{\theta}-\boldsymbol{\theta}^{\prime}\right)^{\mathrm{T}}\boldsymbol{g}+\frac{1}{2}\left(\boldsymbol{\theta}-\boldsymbol{\theta}^{\prime}\right)^{\mathrm{T}}\boldsymbol{H}\left(\boldsymbol{\theta}-\boldsymbol{\theta}^{\prime}\right).$
其中，第一项 $L (θ)^{'}$ 告诉我们，当 $θ$ 跟 $θ^{'}$ 很近的时候， $L (θ)$ 应该跟 $L (θ^{'})$ 还蛮靠近的；第二项 $θ − θ')^Tg$ 中， $g$ 代表梯度，它是一个向量，可以弥补 $L (θ^{'}) 跟 L (θ)$ 之间的差距。第三项跟梅森矩阵 $H$ 有关，

在临界点，梯度 $g$ 为0，也就是第二项为0，则损失函数可近似为:
$L(\boldsymbol{\theta})\approx L\left(\boldsymbol{\theta}'\right)+\frac{1}{2}\left(\boldsymbol{\theta}-\boldsymbol{\theta}'\right)^{\mathrm{T}}\boldsymbol{H}\left(\boldsymbol{\theta}-\boldsymbol{\theta}'\right);$
我们可以根据 $\frac12\left(\theta-\theta^{\prime}\right)^\mathrm{T}\boldsymbol{H}\left(\boldsymbol{\theta}-\boldsymbol{\theta}^{\prime}\right)$ 来判断在 $\boldsymbol{\theta}^{\prime}$ 附近的误差表 (error surface) 到底长什么样子。知道误差表面的“地貌”,我们就可以判断 $L(\boldsymbol{\theta}^{\prime})$ 是局部极小值、局部极大值，还是鞍点。为了符号简洁，我们用向量 $v$ 来表示 $\theta-\theta^{\prime},\left(\theta-\theta^{\prime}\right)^\mathrm{T}H\left(\theta-\theta^{\prime}\right)$ 可改写为 $v^\mathrm{T}Hv$ ,

对于三种情况：

如果对所有 $v,v^{\mathrm{T}}\boldsymbol{H}\boldsymbol{v}>0.$ 这意味着对任意 $\boldsymbol{\theta},L(\boldsymbol{\theta})>L(\boldsymbol{\theta}^{\prime})$ .只要 $\boldsymbol{\theta}$ 在 $\boldsymbol{\theta}^{\prime}$ 附近， $L(\boldsymbol{\theta})$ 都大于 $L(\boldsymbol{\theta}^\prime)$ .这代表 $L(\boldsymbol{\theta}^{\prime})$ 是附近的一个最低点，所以它是局部极小值。
如果对所有 $v,v^\mathrm{T}\boldsymbol{H}v<0.$ 这意味着对任意 $\boldsymbol{\theta},L(\boldsymbol{\theta})<L(\boldsymbol{\theta}^{\prime}),\boldsymbol{\theta}^{\prime}$ 是附近最高的一个点， $L(\boldsymbol{\theta}^\prime)$ 是局部极大值。
如果对于 $v$ ， $v^\mathrm{T}Hv$ 有时候大于零，有时候小于零。这意味着在 $\theta^{\prime}$ 附近，有时候 $L(\boldsymbol{\theta})>L(\boldsymbol{\theta}^{\prime})$ ,有时候 $L(\boldsymbol{\theta})<L(\boldsymbol{\theta}^{\prime})$ .因此在. $\boldsymbol{\theta}^{\prime}$ 附近， $L(\boldsymbol{\theta}^{\prime})$ 既不是局部极大值，也不是局部极小值，而是鞍点。

一个更简单的计算方法：只看 $H$ 的特征值：

若 $H$ 的所有特征值都是正的， $H$ 为正定矩阵，则 $v^\mathrm{T}Hv>0$ ,临界点是局部极小值。若 $H$ 的所有特征值都是负的， $\boldsymbol{H}$ 为负定矩阵，则 $\boldsymbol v^\mathrm{T}\boldsymbol{H}\boldsymbol{v}<0$ ,临界点是局部极大值。若 $H$ 的特征值有正有负，临界点是鞍点。

3.2 批量和动量

3.2.1 批量大小对梯度下降法的影响

批量梯度下降(BGD)

使用整个训练集的优化算法被称为批量(batch)或确定性(deterministic)梯度算法，因为它们会在一个大批量中同时处理所有样本。
随机梯度下降（SGD)

随机梯度下降法不同于批量梯度下降，随机梯度下降是在每次迭代时使用一个样本来对参数进行更新（mini-batch size =1）。