深度学习系列--04.梯度下降以及其他优化器

一.梯度概念

1.一元函数

2.二元函数

3.几何意义上的区别

二.梯度下降

1.原理

2.步骤

3.示例代码（Python）

4.不同类型的梯度下降

5.优缺点

三.动量优化器（Momentum）

适用场景

1.复杂地形的优化问题

2.数据具有噪声的问题

3.目标函数变化缓慢的问题

4.特征稀疏的问题

指定参数

1. params

3. momentum（动量系数）

4. weight_decay（权重衰减）

5. nesterov（是否使用 Nesterov 动量）

四.Adagrad（Adaptive Gradient Algorithm）

五.Adadelta

六.RMSProp（Root Mean Square Propagation）

七.Adam（Adaptive Moment Estimation）

八.Nesterov 加速梯度（Nesterov Accelerated Gradient，NAG）

一.梯度概念

梯度和导数既有联系又有区别，下面从一元函数、多元函数以及几何意义等方面为你详细解释：

1.一元函数

联系：在一元函数中，梯度和导数本质上是相同的概念。导数表示函数在某一点处的变化率，它描述了函数值随自变量变化的快慢程度。其定义为函数在该点的极限：

梯度在一元函数中也是指函数在某一点的变化率，所以此时梯度就是导数。例如，对于函数y=2x+1 ，其导数y`=2 ，这也是该函数在任意点的梯度。

表示形式：在一元函数里，导数和梯度都可以用一个标量值来表示。

2.二元函数

作用：偏导数只能反映函数在某一个坐标轴方向上的变化情况，而梯度则综合了函数在各个自变量方向上的变化信息，它指向函数值增长最快的方向，梯度的模表示函数在该方向上的最大变化率。

3.几何意义上的区别

导数（一元函数）：一元函数的导数在几何上表示函数曲线在某一点处的切线斜率，反映了曲线在该点的倾斜程度。
梯度（多元函数）：多元函数的梯度在几何上表示函数在某一点处的一个向量，该向量垂直于函数在该点的等值面（或等高线），并且指向函数值增加的方向。

综上所述，在一元函数中梯度等同于导数，但在多元函数中，梯度是由多个偏导数组成的向量，与导数（偏导数）的概念不同。

二.梯度下降

梯度下降（Gradient Descent）是一种常用的优化算法，主要用于寻找函数的最小值。在机器学习和深度学习领域，它被广泛应用于模型参数的优化，例如神经网络中权重和偏置的更新，以最小化损失函数。

1.原理

梯度下降的核心思想基于函数的梯度特性。对于一个多元函数f=(x1,x2,x3.....) ，其梯度vf 是一个向量，它指向函数值增长最快的方向。那么，负梯度方向就是函数值下降最快的方向。梯度下降算法通过不断地沿着负梯度方向更新参数，逐步逼近函数的最小值

2.步骤

1.初始化参数：随机初始化待优化的参数 θ = (θ1,θ2,θ3.....θn)

2.计算梯度：计算损失函数 J(θ) 关于参数 θ 的梯度▽θ 。

3.更新参数：根据负梯度方向更新参数，更新公式为:

θ:=θ - α▽J(θ)

其中， α是学习率（Learning Rate），它控制着每次参数更新的步长。

4.重复步骤 2 和 3：不断重复计算梯度和更新参数的过程，直到满足停止条件，例如达到最大迭代次数、梯度的模小于某个阈值等。

3.示例代码（Python）

以下是一个简单的示例，使用梯度下降算法来最小化一个简单的一元函数：f(x) = x₂

import numpy as np

# 定义目标函数
def f(x):
    return x**2

# 定义目标函数的导数
def df(x):
    return 2 * x

# 初始化参数
x = 2.0
# 学习率
alpha = 0.1
# 最大迭代次数
max_iter = 100

# 梯度下降过程
for i in range(max_iter):
    # 计算梯度
    gradient = df(x)
    # 更新参数
    x = x - alpha * gradient
    # 输出当前迭代的结果
    print(f'Iteration {i+1}: x = {x}, f(x) = {f(x)}')

print(f'Optimal x: {x}, f(x) = {f(x)}')

4.不同类型的梯度下降

批量梯度下降（Batch Gradient Descent，BGD）：在每次迭代中，使用整个训练数据集来计算梯度并更新参数。这种方法的优点是收敛稳定，能够保证收敛到全局最优解（对于凸函数），但计算开销大，尤其是当数据集较大时。
随机梯度下降（Stochastic Gradient Descent，SGD）：在每次迭代中，随机选择一个样本进行梯度计算和参数更新。这种方法的优点是计算速度快，能够快速跳出局部最优解，但收敛过程可能会比较震荡，不稳定。
小批量梯度下降（Mini-Batch Gradient Descent，MBGD）：结合了批量梯度下降和随机梯度下降的优点，在每次迭代中，随机选择一小部分样本（一个小批量）来计算梯度并更新参数。这种方法在计算效率和收敛稳定性之间取得了较好的平衡，是实际应用中最常用的方法。

5.优缺点

优点
- 通用性强：适用于各种类型的损失函数和模型，只要损失函数可导，就可以使用梯度下降算法进行优化。
- 易于实现：算法的原理和实现都比较简单，容易理解和掌握。
缺点
- 学习率选择困难：学习率 α的选择对算法的性能影响很大。如果学习率过大，算法可能会发散，无法收敛到最优解；如果学习率过小，算法的收敛速度会非常慢。
- 可能陷入局部最优解：对于非凸函数，梯度下降算法可能会陷入局部最优解，而无法找到全局最优解。不过，在实际应用中，通过一些技巧（如随机初始化、动量法等）可以在一定程度上缓解这个问题。

三.动量优化器（Momentum）

原理：动量优化器借鉴了物理中动量的概念，它在更新参数时不仅考虑当前的梯度，还会结合之前的梯度信息。在梯度下降的基础上，引入了一个动量项，用于累积之前的梯度。动量项可以帮助参数更新在相同方向上加速，减少在局部最优解附近的震荡，更快地越过局部极小值。

更新公式：

优点：收敛速度通常比普通的梯度下降更快，能有效减少震荡，更快地收敛到最优解。
缺点：需要额外的超参数（动量系数）进行调整。

适用场景

1.复杂地形的优化问题

具有高曲率或局部极小值的函数优化

在目标函数的曲面具有复杂的形状，存在许多局部极小值和鞍点时，普通的梯度下降算法容易陷入局部最优解，或者在鞍点附近停滞不前。而动量优化器凭借动量项的累积效应，能够帮助算法更快地跳出局部极小值和鞍点区域。
例如，在训练深度神经网络时，损失函数的地形通常非常复杂。以图像识别任务中的卷积神经网络为例，其损失函数可能存在大量的局部极小值。动量优化器可以让参数更新在遇到局部极小值时，利用之前累积的动量继续前进，从而更有可能找到全局最优解或更好的局部最优解。

2.数据具有噪声的问题

随机梯度下降中的噪声影响缓解

在使用随机梯度下降（SGD）处理大规模数据集时，每次迭代仅使用一个或一小部分样本计算梯度，这会导致梯度估计存在噪声，使得参数更新过程产生较大的震荡。动量优化器可以通过动量项平滑这些噪声的影响。
例如，在推荐系统中，训练数据通常非常庞大且具有一定的噪声。当使用 SGD 进行模型训练时，梯度的波动会比较大。引入动量优化器后，动量项可以对梯度的波动进行平均，使得参数更新更加稳定，减少了噪声对训练过程的干扰，从而加快收敛速度。

3.目标函数变化缓慢的问题

加速收敛过程

当目标函数在某些方向上的变化非常缓慢时，普通的梯度下降算法收敛速度会变得很慢。动量优化器可以在这些方向上累积动量，加快参数在这些方向上的更新速度。
比如，在训练循环神经网络（RNN）处理序列数据时，由于梯度消失或梯度爆炸问题，目标函数在某些方向上的变化可能极其缓慢。动量优化器能够在这些方向上积累动量，使得参数更新更快地朝着最优解的方向前进，从而显著提高训练效率。

4.特征稀疏的问题

更好地处理稀疏梯度

在处理稀疏数据时，某些特征的梯度可能很少被更新。动量优化器可以记住之前的梯度信息，即使某个特征的梯度在当前迭代中为零，动量项也能利用之前的梯度推动参数更新。
例如，在自然语言处理中的文本分类任务中，使用词袋模型表示文本时，特征向量通常是非常稀疏的。动量优化器可以有效地处理这种稀疏梯度，让模型更好地学习到稀疏特征与目标之间的关系，提高模型的性能。

指定参数

1. `params`

说明：这是必须指定的参数，它表示需要优化的模型参数。在 PyTorch 里，通常通过 model.parameters() 来获取模型中所有可训练的参数。

2. lr（学习率）

说明：学习率控制着每次参数更新的步长，是一个非常关键的参数。如果学习率设置过大，模型可能会在最优解附近震荡甚至发散；如果学习率设置过小，模型的收敛速度会变得非常缓慢。

3. `momentum`（动量系数）

说明：动量系数决定了之前梯度信息在当前参数更新中所占的比重。合适的动量系数可以加速模型的收敛速度，减少震荡。一般来说，常见的动量系数取值在 0.9 左右。

4. `weight_decay`（权重衰减）

说明：权重衰减是一种正则化方法，用于防止模型过拟合。它通过在损失函数中添加一个正则化项，使得模型的参数在更新过程中逐渐变小。权重衰减系数通常设置为一个较小的正数，如 0.0001。

5. `nesterov`（是否使用 Nesterov 动量）

说明：Nesterov 动量是动量优化器的一种改进版本，它在计算梯度时会考虑到下一个位置的参数值，具有更好的收敛性能。可以通过将 nesterov 参数设置为 True 来启用 Nesterov 动量。

示例代码

import torch
import torch.nn as nn

# 定义一个简单的线性模型
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.linear = nn.Linear(10, 1)

    def forward(self, x):
        return self.linear(x)

model = SimpleModel()
# 学习效率
learning_rate = 0.01
# 动量系数
momentum = 0.9
# 权重衰减
weight_decay = 0.0001
# 是否使用 Nesterov 动量
nesterov = True

# 创建优化器
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate, momentum=momentum,
                            weight_decay=weight_decay, nesterov=nesterov)

四.Adagrad（Adaptive Gradient Algorithm）

原理：Adagrad 是一种自适应学习率的优化器，它会根据每个参数的历史梯度信息自动调整学习率。对于那些经常更新的参数，学习率会逐渐减小；而对于不经常更新的参数，学习率会相对较大。这样可以让每个参数根据自身的特性进行更合理的更新。
更新公式

优点：无需手动调整学习率，能够自适应地为不同参数分配合适的学习率，在稀疏数据场景下表现良好。
缺点：随着迭代次数的增加，学习率会不断减小，可能导致后期收敛速度过慢，甚至提前停止更新。

五.Adadelta

原理：Adadelta 是对 Adagrad 的改进，它解决了 Adagrad 学习率单调递减的问题。Adadelta 不需要手动设置全局学习率，而是通过计算梯度的指数移动平均来动态调整学习率，使得学习率在训练过程中不会一直减小。
优点：无需设置全局学习率，避免了 Adagrad 学习率衰减过快的问题，在不同的数据集和模型上都有较好的表现。
缺点：需要调整的超参数相对较多，包括指数衰减率等。