机器学习 day04（梯度下降算法，学习率，偏导数，执行过程示意图）

news2025/7/12 19:21:42

1. 梯度下降
在这里插入图片描述

我们可以用一种更系统的方法，来找到一组w，b，使成本函数的值最小。这个方法叫梯度下降算法，它可用于最小化任何函数，不仅仅包括线性回归的成本函数，也包括两个以上参数的其他成本函数
在线性回归中，w和b的初始值是多少并不重要，所以通常将他们的初始值设为0。
成本函数并不总是弓形或吊床行的函数，这代表他可能有两个及以上的最小值
梯度下降算法的步骤：
a. 初始化w和b的值，通常设为0
b. 继续更改w和b的值，来降低J函数的值
c. 直到J函数到达，或接近J函数的最小值

2. 例如：深度学习模型的成本函数
在这里插入图片描述

3. 梯度下降算法
在这里插入图片描述

梯度下降函数中有两个关键点：学习率和偏导数
α：学习率，通常是介于0和1之间的一个很小的正数，如0.001。它控制下坡时迈多大的步子
∂J(w,b)/∂w 和 ∂J(w,b)/∂b：成本函数J对w求偏导，成本函数J对b求偏导。它控制下坡时朝哪个方向迈步子
梯度下降算法的步骤：
a. 更新w的值为，w - α × ∂J(w,b)/∂w
b. 更新b的值为，b - α × ∂J(w,b)/∂b
c. 重复更新w和b的值，直到w和b不随着继续更新而发生很大的变化，即偏导数趋于0，J函数趋于局部最小值，算法收敛
左边的方法是，在程序中正确的，同时更新两个参数的方法，因为他更新完w的值后，没有立即覆盖w，而是继续用旧w来更新b的值
右边的方法是，错误的，非同时更新两个参数的方法，因为他更新完w的值后，立即覆盖w，转而用新w来更新b的值
建议使用左边的正确的，同时更新两个参数的方法

4. 梯度下降算法中的偏导数
在这里插入图片描述

为了简化理解，我们将b设为0，J函数就变成一元函数，偏导数也就变成导数，我们可以用二维图来演示
导数的作用是在确定w的初始值后，决定w的变化方向，即确保J函数的值是在往J函数的局部最小值移动
J函数上某点的导数为J函数在该点上的切线斜率。当w初始值在J函数最小值的右侧，切线斜率为正，该点导数为正，w减正数，w减小，即J函数值向局部最小值移动。当w初始值在J函数最小值的左侧，切线斜率为负，该点导数为负，w减负数为w加正数，w增加，即J函数值向局部最小值移动

5. 梯度下降算法中的学习率
在这里插入图片描述

当学习率α过小时，梯度下降算法会执行的很慢，即要许多步才能到达J函数的局部最小值
当学习率α过大时，梯度下降算法每一步都会迈的很大。在这个例子中，当下一步的w超过了，前一步w关于J函数局部最小值的对称点时，J函数就会持续增大，那么该算法就达不到J函数的局部最小值，即算法不会收敛，反而会发散。

6. 梯度下降算法的特性

7. 用于一个变量的线性回归的梯度下降算法
在这里插入图片描述

注意：f w,b (xⁱ) = w × xⁱ + b 是一个变量的线性回归模型，且在每一步要同时更新w和b的值
简化公式的过程，如图：
成本函数是非凸函数时，J函数会有多个局部最小值。例如深度学习模型的成本函数，如图：
成本函数是凸函数时，J函数具有碗型功能，且只有一个全局最小值，除此之外没有其他局部最小值。例如线性回归的平方误差成本函数，如图：

8. 批量梯度下降算法
当梯度下降的每一步（w和b每一次变化），我们都在查看所有的训练示例（i都是从1到训练集的最后一个数，m=47），该梯度下降称为批量梯度下降