机器学习中的梯度下降

news2025/4/26 15:43:38

本文只是简单解释一下梯度下降，其中涉及到的公式并没有展示说明。

1.什么是梯度？

梯度也可以理解为导数。

在一维空间中：梯度就是导数，或者说对于一个线性函数，也就是线的斜率。

2.什么是梯度下降？

梯度是个向量，自变量沿着该向量的方向变化，函数值变化最快。在机器学习中，为使损失函数下降最快，我们需要让模型参数沿着梯度的负方向更新，即梯度下降。

附上图解（简略过程）：

第一步：计算函数的导数f(x)'

第二步：任意选择一个起点，如A点。代入X得出Y'，将计算得到的Y'作为新的X，图中对应B点。

第三步：对B点重复第二步操作，会得到C、D、F......以此类推

一般而言，随着梯度值逐步逼近0，每次X更新幅度越来越小。

3.梯度下降的作用？

如果看懂了上面说的梯度下降的简略过程，这里就很容易明白了。我们将上面的函数换成损失函数，梯度下降就是用来求损失函数最小值时自变量对应取值。

什么是损失函数？

机器学习算法的预测值减去真实值最后取绝对值叫做误差，而损失函数就是负责计算这个误差的。不同的参数会产生不同的误差，梯度下降就是为了找到让误差值最小时候对应的参数。

额外补充：机器学习常见的两类算法

1，回归算法，产生一条曲线来拟合现有的数据，实现预测未来的数据。

2，分类算法，产生一条曲线实现分类，在这个曲线一侧为一类另外一侧算一类。

而损失函数就是用来评估算法产生的这条曲线的效果好不好

4.常用的梯度下降方法

批量梯度下降

批量梯度下降对训练集中的每个点的误差求和，仅在评估所有训练样本后才更新模型。这个过程称为训练周期。

批量梯度下降的最要问题是计算每一步的梯度时都需要使用整个训练集，这导致在规模较大的数据集上，其会变得非常的慢。

随机梯度下降

在每一步的梯度计算上只随机选取训练集中的一个样本。很明显，由于每一次的操作都使用了非常少的数据，这样使得算法变得非常快。由于每一次迭代，只需要在内存中有一个实例，这使随机梯度算法可以在大规模训练集上使用。
另一方面，由于它的随机性，与批量梯度下降相比，其呈现出更多的不规律性:它到达最小值不是平缓的下降，损失函数会忽高忽低，只是在大体上呈下降趋势。随着时间的推移，它会非常的靠近最小值，但是它不会停止在一个值上，它会一直在这个值附近摆动。因此，当算法停止的时候，最后的参数还不错，但不是最优值。