【从零开始学习深度学习】42. 算法优化之AdaDelta算法【基于AdaGrad算法的改进】介绍及其Pytorch实现

news2026/2/11 14:05:39

除了上一篇文章介绍的RMSProp算法以外，另一个常用优化算法AdaDelta算法也针对AdaGrad算法在迭代后期可能较难找到有用解的问题做了改进。比较有意思的是，AdaDelta算法没有学习率这一超参数。

1. AdaDelta算法介绍

AdaDelta算法也像RMSProp算法一样，使用了小批量随机梯度 $\boldsymbol{g}_t$ 按元素平方的指数加权移动平均变量 $\boldsymbol{s}_t$ 。在时间步0，它的所有元素被初始化为0。给定超参数 $\leq \rho < 1$ （对应RMSProp算法中的 $\gamma$ ），在时间步 $t > 0$ ，同RMSProp算法一样计算

$\boldsymbol{s}_t \leftarrow \rho \boldsymbol{s}_{t-1} + (1 - \rho) \boldsymbol{g}_t \odot \boldsymbol{g}_t.$

与RMSProp算法不同的是，AdaDelta算法还维护一个额外的状态变量 $\Delta\boldsymbol{x}_t$ ，其元素同样在时间步0时被初始化为0。我们使用 $\Delta\boldsymbol{x}_{t-1}$ 来计算自变量的变化量：

$\boldsymbol{g}_t' \leftarrow \sqrt{\frac{\Delta\boldsymbol{x}_{t-1} + \epsilon}{\boldsymbol{s}_t + \epsilon}} \odot \boldsymbol{g}_t,$

其中 $\epsilon$ 是为了维持数值稳定性而添加的常数，如 $10^{-5}$ 。接着更新自变量：

$\boldsymbol{x}_t \leftarrow \boldsymbol{x}_{t-1} - \boldsymbol{g}'_t.$

最后，我们使用 $\Delta\boldsymbol{x}_t$ 来记录自变量变化量 $\boldsymbol{g}'_t$ 按元素平方的指数加权移动平均：

$\Delta\boldsymbol{x}_t \leftarrow \rho \Delta\boldsymbol{x}_{t-1} + (1 - \rho) \boldsymbol{g}'_t \odot \boldsymbol{g}'_t.$

可以看到，如不考虑 $\epsilon$ 的影响，AdaDelta算法跟RMSProp算法的不同之处在于使用 $\sqrt{\Delta\boldsymbol{x}_{t-1}}$ 来替代学习率 $\eta$ 。

2. 从零实现AdaDelta算法

AdaDelta算法需要对每个自变量维护两个状态变量，即 $\boldsymbol{s}_t$ 和 $\Delta\boldsymbol{x}_t$ 。我们按AdaDelta算法中的公式实现该算法。

%matplotlib inline
import torch
import sys 
import d2lzh_pytorch as d2l

features, labels = d2l.get_data_ch7()

def init_adadelta_states():
    s_w, s_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)
    delta_w, delta_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)
    return ((s_w, delta_w), (s_b, delta_b))

def adadelta(params, states, hyperparams):
    rho, eps = hyperparams['rho'], 1e-5
    for p, (s, delta) in zip(params, states):
        s[:] = rho * s + (1 - rho) * (p.grad.data**2)
        g =  p.grad.data * torch.sqrt((delta + eps) / (s + eps))
        p.data -= g
        delta[:] = rho * delta + (1 - rho) * g * g

使用超参数 $\rho=0.9$ 来训练模型。

d2l.train_ch7(adadelta, init_adadelta_states(), {'rho': 0.9}, features, labels)

输出：

loss: 0.243728, 0.062991 sec per epoch

在这里插入图片描述

3. Pytorch简洁实现AdaDelta算法—optim.Adadelta

通过名称为Adadelta的优化器方法，我们便可使用PyTorch提供的AdaDelta算法。它的超参数可以通过rho来指定。

d2l.train_pytorch_ch7(torch.optim.Adadelta, {'rho': 0.9}, features, labels)

输出：

loss: 0.242104, 0.047702 sec per epoch

在这里插入图片描述

总结

AdaDelta算法没有学习率超参数，它通过使用有关自变量更新量平方的指数加权移动平均的项来替代RMSProp算法中的学习率。

如果文章内容对你有帮助，感谢点赞+关注！

欢迎关注下方GZH：阿旭算法与机器学习，共同学习交流~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/150945.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【从零开始学习深度学习】42. 算法优化之AdaDelta算法【基于AdaGrad算法的改进】介绍及其Pytorch实现

目录

1. AdaDelta算法介绍

2. 从零实现AdaDelta算法

3. Pytorch简洁实现AdaDelta算法—optim.Adadelta

总结

相关文章

UDS诊断系列介绍04-10会话服务

Linux学习笔记——集群化环境前置准备

使用OpenCV读取视频、图片并做简单处理

Centos下使用yum安装Mysql8（Mysql5.7）以及常见的配置和使用

系统测试的具体测试类型

Charles - 夜神模拟器证书安装App抓包

【Lilishop商城】No4-6.业务逻辑的代码开发，涉及到：接口入参、出参开发逻辑，及POJO的各种总结

完整iOS APP发布App Store上架流程指南

STM32CUBEIDE-简单案例生成

PCB板缺陷检测机器视觉识别算法 yolo

Vue2进阶笔记

多线程进阶（一）锁策略，CAS及Synchronized原理

Qt 使用 Matlab函数

CSDN竞赛21期题解

c语言tips-【c语言内存模型】

热交换器及一维平行流换热器分析（Matlab代码实现）

RHCE第五天之NFS服务器详解

Qt / Qml 视频硬解码(CUDA)中如何实现无上传硬渲染(一)

OPengl学习（四）——顶点数组

【大数据之路】数据管理篇《三》存储和成本管理【搬运小结】