【从零开始学习深度学习】40. 算法优化之AdaGrad算法介绍及其Pytorch实现

news2026/2/8 8:54:52

之前介绍的梯度下降算法中，目标函数自变量的每一个元素在相同时间步都使用同一个学习率来自我迭代。例如，假设目标函数为 $f$ ，自变量为一个二维向量 $[x_1, x_2]^\top$ ，该向量中每一个元素在迭代时都使用相同的学习率。例如，在学习率为 $\eta$ 的梯度下降中，元素 $x_1$ 和 $x_2$ 都使用相同的学习率 $\eta$ 来自我迭代：
$x_1 \leftarrow x_1 - \eta \frac{\partial{f}}{\partial{x_1}}, \quad x_2 \leftarrow x_2 - \eta \frac{\partial{f}}{\partial{x_2}}.$
通过上一篇文章动量法中我们知道，当 $x_1$ 和 $x_2$ 的梯度值有较大差别时，需要选择足够小的学习率使得自变量在梯度值较大的维度上不发散。但这样会导致自变量在梯度值较小的维度上迭代过慢。动量法依赖指数加权移动平均使得自变量的更新方向更加一致，从而降低发散的可能。

本文我们介绍AdaGrad算法，它可以根据自变量在每个维度的梯度值的大小来调整各个维度上的学习率，从而避免统一的学习率难以适应所有维度的问题。

1. AdaGrad算法介绍

AdaGrad算法会使用一个小批量随机梯度 $\boldsymbol{g}_t$ 按元素平方的累加变量 $\boldsymbol{s}_t$ 。在时间步0，AdaGrad将 $\boldsymbol{s}_0$ 中每个元素初始化为0。在时间步 $t$ ，首先将小批量随机梯度 $\boldsymbol{g}_t$ 按元素平方后累加到变量 $\boldsymbol{s}_t$ ：

$\boldsymbol{s}_t \leftarrow \boldsymbol{s}_{t-1} + \boldsymbol{g}_t \odot \boldsymbol{g}_t,$

其中 $\odot$ 是按元素相乘。接着，我们将目标函数自变量中每个元素的学习率通过按元素运算重新调整一下：

$\boldsymbol{x}_t \leftarrow \boldsymbol{x}_{t-1} - \frac{\eta}{\sqrt{\boldsymbol{s}_t + \epsilon}} \odot \boldsymbol{g}_t,$

其中 $\eta$ 是学习率， $\epsilon$ 是为了维持数值稳定性而添加的常数，如 $10^{-6}$ 。这里开方、除法和乘法的运算都是按元素运算的。这些按元素运算使得目标函数自变量中每个元素都分别拥有自己的学习率。

1.1 AdaGrad算法特点

需要强调的是，小批量随机梯度按元素平方的累加变量 $\boldsymbol{s}_t$ 出现在学习率的分母项中。因此，如果目标函数有关自变量中某个元素的偏导数一直都较大，那么该元素的学习率将下降较快；反之，如果目标函数有关自变量中某个元素的偏导数一直都较小，那么该元素的学习率将下降较慢。然而，由于 $\boldsymbol{s}_t$ 一直在累加按元素平方的梯度，自变量中每个元素的学习率在迭代过程中一直在降低（或不变）。所以，当学习率在迭代早期降得较快且当前解依然不佳时，AdaGrad算法在迭代后期由于学习率过小，可能较难找到一个有用的解。

下面我们仍然以目标函数 $f(\boldsymbol{x})=0.1x_1^2+2x_2^2$ 为例观察AdaGrad算法对自变量的迭代轨迹。我们实现AdaGrad算法并使用和之前动量法相同的学习率0.4。可以看到，自变量的迭代轨迹较平滑。但由于 $\boldsymbol{s}_t$ 的累加效果使学习率不断衰减，自变量在迭代后期的移动幅度较小。

%matplotlib inline
import math
import torch
import sys
import d2lzh_pytorch as d2l

def adagrad_2d(x1, x2, s1, s2):
    g1, g2, eps = 0.2 * x1, 4 * x2, 1e-6  # 前两项为自变量梯度
    s1 += g1 ** 2
    s2 += g2 ** 2
    x1 -= eta / math.sqrt(s1 + eps) * g1
    x2 -= eta / math.sqrt(s2 + eps) * g2
    return x1, x2, s1, s2

def f_2d(x1, x2):
    return 0.1 * x1 ** 2 + 2 * x2 ** 2

eta = 0.4
d2l.show_trace_2d(f_2d, d2l.train_2d(adagrad_2d))

输出：

epoch 20, x1 -2.382563, x2 -0.158591

在这里插入图片描述

下面将学习率增大到2。可以看到自变量更为迅速地逼近了最优解。

eta = 2
d2l.show_trace_2d(f_2d, d2l.train_2d(adagrad_2d))

输出：

epoch 20, x1 -0.002295, x2 -0.000000

在这里插入图片描述

2. 从零实现AdaGrad算法

同动量法一样，AdaGrad算法需要对每个自变量维护同它一样形状的状态变量。我们根据AdaGrad算法中的公式实现该算法。

features, labels = d2l.get_data_ch7()

def init_adagrad_states():
    s_w = torch.zeros((features.shape[1], 1), dtype=torch.float32)
    s_b = torch.zeros(1, dtype=torch.float32)
    return (s_w, s_b)

def adagrad(params, states, hyperparams):
    eps = 1e-6
    for p, s in zip(params, states):
        s.data += (p.grad.data**2)
        p.data -= hyperparams['lr'] * p.grad.data / torch.sqrt(s + eps)

与之前小批量随机梯度下降相比，这里使用更大的学习率来训练模型。

d2l.train_ch7(adagrad, init_adagrad_states(), {'lr': 0.1}, features, labels)

输出：

loss: 0.243675, 0.049749 sec per epoch

在这里插入图片描述

3. Pytorch简洁实现AdaGrad算法–使用optim.Adagrad

通过名称为Adagrad的优化器方法，我们便可使用PyTorch提供的AdaGrad算法来训练模型。

d2l.train_pytorch_ch7(torch.optim.Adagrad, {'lr': 0.1}, features, labels)

输出：

loss: 0.243147, 0.040675 sec per epoch

在这里插入图片描述

总结

AdaGrad算法在迭代过程中不断调整学习率，并让目标函数自变量中每个元素都分别拥有自己的学习率。
使用AdaGrad算法时，自变量中每个元素的学习率在迭代过程中一直在降低（或不变）。

如果文章内容对你有帮助，感谢点赞+关注！

欢迎关注下方GZH：阿旭算法与机器学习，共同学习交流~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/150359.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【从零开始学习深度学习】40. 算法优化之AdaGrad算法介绍及其Pytorch实现

目录

1. AdaGrad算法介绍

1.1 AdaGrad算法特点

2. 从零实现AdaGrad算法

3. Pytorch简洁实现AdaGrad算法–使用optim.Adagrad

总结

相关文章

线程安全详解

【docker11】docker安装常用软件

Spring Security 导致 Spring Boot 跨域失效问题

sahrding-jdbc的雪花算法取模为0或1的问题

如何有效的防护暴力破解和撞库攻击

前缀和算法

约拍小程序开发，优化约拍产业路径

_Linux多线程-基础篇

【Cfeng Work】 Open API的intro和梳理

制造服务行业需要项目管理软件吗？

win10 conda安装labme安装和使用

在ubuntu系统上用pyinstaller加密打包yolov5项目代码的详细步骤

Payso×OceanBase：云上拓新，开启云数据库的智能托管

学习IB生物，我们需要知道什么知识点？

01背包问题详解

Redis 核心原理串讲（中），架构演进之高可用

【FPGA】Verilog：基本实验步骤演示 | 功能电路创建 | 添加仿真激励 | 观察记录仿真波形

考研政治马原易混淆知识点

python对接API二次开发高级实战案例解析：百度地图Web服务API封装函数（行政区划区域检索、地理编码、国内天气查询、IP定位、坐标转换）

一文细说Linux虚拟文件系统原理