【机器学习300问】84、AdaGrad算法是为了解决什么问题?

news2025/1/11 2:34:05

        神经网络的学习的目的是找到使损失函数的值尽可能小的参数。这是寻找最优参数的问题,解决这个问题的过程称为最优化。因为参数空间非常复杂,无法轻易找到最优解,而且在深度神经网络中,参数的数量非常庞大,导致最优化问题更加复杂。

        为了找到最优参数,我们可以采取随机梯度下降算法(SGD)来一次次沿着梯度方向更新参数,逐渐靠近最优参数。SGD是个简单的方法但它有局限性,所以发明了Momentum、AdaGrad等改良的梯度下降算法。

        关于SGD的局限性,我在之前的篇文章中写过,这里给出链接后就不展开啦!

基础梯度下降法:缓慢探索的徒步者icon-default.png?t=N7T8http://t.csdnimg.cn/XnxSX

一、学习率衰减

        在神经网络的学习中,学习率\eta的值很重要。学习率过小,会导致学习花费过多时间;反过来学习率过大,则会导致学习发散而不能正确进行。关于学习率的有效技巧中,有一种被称之为学习率衰减的方法,它的基本思想是在训练初期使用较大的学习率以快速接近最优解,随着训练的进行,逐渐减小学习率,使得模型能够更细致地调整参数,避免因过大的学习率而错过最优解或导致发散。

二、AdaGrad算法的原理

(1)通过举例来感性认识

        想象一下,AdaGrad算法就像是一个细心的园丁,负责照顾一片有着各种不同植物的花园。在这个花园里,每株植物代表模型中的一个参数,而花园的繁荣程度则对应着我们的模型性能。园丁的目标是让花园长得茂盛,但他不能给所有植物浇一样的水,因为有的植物喜湿,有的耐旱。

        在传统的梯度下降中,就好比是用同一壶水均匀地浇灌整个花园,不管植物的具体需求。但AdaGrad这位智慧的园丁不同,他手里拿着一本详细的日记,记录了每株植物过去的浇水情况(即梯度的大小)。当来到新的一天,他查看每株植物的需水量(梯度),并参考之前的浇水记录,为每一株植物精细调整水量——对于那些过去经常被大量浇水(梯度变化大)的植物,这次就只给一点点水,以免淹死;而对于那些很少得到水分(梯度变化小)的植物,则慷慨地多浇一些,帮助它们更好地成长。

        这样做有什么好处呢?首先,它确保了对每株植物(参数)的关照恰到好处,不会因为过度或不足的调整而导致整个花园(模型)的不平衡。其次,它能有效处理花园中那些生长环境差异大的植物,就像深度学习模型中参数的重要性各不相同一样,AdaGrad能够根据实际情况给予最合适的调整。 

(2)通过定义来理性认识

        Adagrad( Adaptive Gradient 的缩写),即自适应梯度算法,是一种先进的梯度下降优化方法,特别适用于处理稀疏数据和具有特征数量庞大的问题。它通过自适应地调整每个参数的学习率来优化模型训练过程,以应对不同参数在不同时间步可能需要不同学习速率的情况。

Adagrad的更新规则定义如下:

  1. 对于目标函数J(\theta),计算每个参数\theta_i的梯度g_{t,i}
  2.  对所有参数计算梯度平方的累积和G_{t,i} = G_{t-1,i} + g_{t,i}^2
  3. 更新每个参数,其中\eta是全局学习率,\epsilon是一个小的平滑项(如10^{-8})防止除以零:\theta_{t+1,i} = \theta_{t,i} - \frac{\eta}{\sqrt{G_{t,ii} + \epsilon}} \cdot g_{t,i}

① 自适应是如何实现的?

符号解释
\theta_{t,i}在时刻t的第i个参数
g_{t,i}在时刻t对应\theta_{t,i}的梯度
\eta初始学习率
\epsilon避免分母为零而加入的一个很小的平滑项
G_{t,ii}是一个对角矩阵,其中对角元素G_{t,ii}是至时刻t为止所有时刻对应的g_{t,i}的平方和。

自适应学习率的实现机制体现在G_{t,ii}上,它随着时间累加每个参数的梯度平方。随着训练的进行,每个参数的梯度值会被平方并累加到G_{t,ii}中。

  • 如果参数的梯度值一直很大,其平方值会大幅增加G_{t,ii}的值,造成学习率下降,即\frac{\eta}{\sqrt{G_{t,ii}}}减小,避免这个参数在后续学习过程中作出较大的调整。
  • 如果参数的梯度值较小或稀疏(不经常更新),G_{t,ii}的值增长缓慢,这会导致该参数的学习率\frac{\eta}{\sqrt{G_{t,ii}}}相对较大,允许模型在学习这个参数时做出更大的步伐。

② 为什么要将梯度进行平方?

  1. 放大梯度效应:通过平方操作,小的梯度值会变得更小,而大的梯度值会被放大。这意味着对于频繁更新(通常梯度较大)的参数,其累积的平方和会迅速增长,导致这些参数的学习率下降得更快。这有助于在训练的早期快速调整那些对损失有大的影响的参数。
  2. 逐步降低学习率:累积的平方梯度和会在每次迭代时增加,作为学习率调整项的分母,随着训练的进行,累积的量会使得学习率逐步降低。参数的更新步长会随着迭代不断减小,有利于在接近最优解时提供更精细的调整,减少过度更新导致的振荡。

③ 为什么又要对梯度平方累加和开方?

  1. 缓解梯度平方累积过快:由于梯度是平方后累加的,会导致累积和很快变大,从而使学习率过快减小到非常小的程度。开方是为了缓和这种累积效应,避免学习率降低得过于急剧,这样可以在长时间的迭代训练中持续地进行参数更新。
  2. 保持数值稳定性:开方操作可以保证梯度更新的规模适中,防止由于累积平方梯度的巨大值导致的数值不稳定问题。换句话说,它为算法引入了一种形式的数值正则化。
  3. 相对梯度尺度调节:开方可以使累积的梯度影响更加平滑,算法对各个参数的更新更加敏感。它使得参数更新步伐相对于其梯度的尺度和迄今为止的梯度历史进行调节,从而实现更加精确的参数更新控制。
  4. 单位一致性:由于累加的是梯度的平方,直接使用累积值会破坏原始梯度的单位(变成了梯度单位的平方),开方可以将单位恢复回梯度的原始单位,保持单位的一致性。

        Adagrad算法随着梯度的累积,逐渐减小学习率,适用于梯度下降的早期阶段,能更快地逼近目标函数的最小值。但它也可能会过早地降低学习率,导致优化过程在学习后期减缓。

三、AdaGrad算法能解决哪些问题

(1)学习率选择难题

        传统梯度下降算法往往需要手动调整全局学习率,这对于大规模参数空间或者参数敏感性不一的问题来说是个挑战。AdaGrad通过为每个参数独立地调整学习率,自动适应不同参数的学习速度需求,减轻了手动调参的负担。

(2)稀疏数据处理

        在处理稀疏数据集时,部分特征可能在整个训练集中仅出现几次,而其他特征则频繁出现。AdaGrad能够给予这些稀疏特征更多的关注,通过累积稀疏特征的梯度平方来放大其学习率,从而在不过度更新常见特征的同时,也能有效学习到稀疏特征的信息。

(3)特征尺度差异

        在特征尺度差异较大的情况下,固定学习率可能导致对尺度大的特征过度更新,而对尺度小的特征更新不足。AdaGrad通过按元素调整学习率,可以自然地平衡不同尺度特征的学习进度,减少尺度差异带来的影响。

(4)梯度累积效果

        通过累积过去所有梯度的平方,AdaGrad在学习过程中慢慢减小每个参数的学习率,这意味着对于每个参数,算法随着时间的推进变得越来越‘保守’。这有助于减少在训练后期的过度震荡。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1661568.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据库表自增主键超过代码Integer长度问题

数据库自增主键是 int(10) unsigned类型的字段,int(M) 中 M指示最大显示宽度,不代表存储长度,实际int(1)也是可以存储21.47亿长度的数字,如果是无符号类型的,那么可以从0~42.94亿。 我们的表主键自增到21.47亿后&#…

【Pytorch】6.torch.nn.functional.conv2d的使用

阅读之前应该先了解基础的CNN网络的逻辑 conv2d的作用 是PyTorch中用于执行二维卷积操作的函数。它的作用是对输入数据进行二维卷积操作,通常用于图像处理和深度学习中的卷积神经网络(CNN)模型。 conv2d的使用 我们先查看一下官方文档 inpu…

Linux系统调用过程详解:应用程序调用驱动过程

Linux下应用程序调用驱动程序过程: (1)加载一个驱动模块(.ko),产生一个设备文件,有唯一对应的inode结构体 a、每个设备文件都有一个对应的’inode‘结构体,包含了设备的主次设备号,是设备的唯一…

AScript纯本地离线文字识别插件

目的 AScript是一款可以模拟鼠标和键盘操作的自动化工具。它可以帮助用户自动完成一些重复的、繁琐的任务,节省大量人工操作的时间。但按键精灵是不包含图色功能,无法识别屏幕上的图像,根据图像的变化自动执行相应的操作。本篇文章主要讲解下…

全网最详细使用war包的方式结合Tomcat和向量数据库PostgreSQL本地部署Xwiki教学

部署 XWiki 在 CentOS 7 上的过程涉及多个步骤,主要包括安装环境依赖、配置数据库以及安装和配置XWiki。以下是一个详细的步骤说明: 1. 系统准备 首先,确保您的系统是最新的: sudo yum update2. 安装 Java 这里需要注意一下版本…

综述列表(~2024.05.10)

(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 每周末更新,完整版进群获取。 Q 群在群文件,VX 群每周末更新。

vivado新版本兼容老版本,vitis classic兼容sdk教程

new version: vivado版本2023.2 和vitisv classic 2023.2 old version: vivado 2018.3以及之前的版本 打开工程 自动升级到当前版本,选择OK 点击Yes,合并当前的目录架构 点击OK 点击Report IP status 勾选要升级的IP核,点击升级 在项目工程文件夹…

leetcode-括号生成-101

题目要求 思路 1.左括号的数量等于右括号的数量等于n作为判出条件,将结果存到res中 2.递归有两种,一种是增加左括号,一种是增加右括号,只要左括号的数量不超过n,就走增加左括号的递归,右括号的数量只要小于…

Microsoft Edge浏览器,便携增强版 v118.0.5993.69

01 软件介绍 Microsoft Edge浏览器,便携增强版,旨在无需更新组件的情况下提供额外的功能强化。这一增强版专注于优化用户体验和系统兼容性,具体包含以下核心功能的提升: 数据保存:通过优化算法增强了其数据保存能力&…

结构体与联合体的嵌套使用

代码如下 #include <iostream> #include <string> using namespace std;typedef struct t_in_struct1 {int var1;int var2; }name_in_struct1;typedef struct t_in_struct2 {int var3;int var4; }name_in_struct2;typedef struct t_struct {int a;union {name_in_…

重生我是嵌入式大能之串口调试UART

什么是串口 串口是一种在数据通讯中广泛使用的通讯接口&#xff0c;通常我们叫做UART (通用异步收发传输器Universal Asynchronous Receiver/Transmitter)&#xff0c;其具有数据传输速度稳定、可靠性高、适用范围广等优点。在嵌入式系统中&#xff0c;串口常用于与外部设备进…

串口初始化自己独立的见解--第九天

1.SM0,SM1 我们一般用 8位UART&#xff0c;波特率可变 &#xff08;方式1的工作方式&#xff09; SCON &#xff1a;SM2 一般不用&#xff0c;SM0 0 ,SM1 1 PCON : 有两位 我们不动它&#xff0c;不加速&#xff0c;初始值 TMOD&#xff1a;8位自动重装定时器&#xff0…

初识ADMM算法!ADMM算法在分布式配电网调度中的应用程序代码!

前言 随着分布式电源(distributed generation&#xff0c;DG)的渗透率不断提高&#xff0c;传统的配电网系统从被动单向的供电网络转变为功率双向流动的有源网络&#xff0c;使得配电网运行和控制面临诸多新挑战。依靠网络升级或运行结构变化等方法维持配电网可靠运行的成本高…

7 系列 FPGA 产品介绍及选型

目录 Spartan-7 FPGAsArtix-7 FPGAsKintex-7 FPGAsVirtex-7 FPGAsFPGA芯片命名规则DSP资源BRAM资源Transceivers 资源Transceivers 总带宽I/O 个数及带宽参考文档 Spartan-7 FPGAs Artix-7 FPGAs Kintex-7 FPGAs Virtex-7 FPGAs FPGA芯片命名规则 DSP资源 BRAM资源 Transceiver…

代码随想录算法训练营第六十三天|84.柱状图中最大的矩形

代码随想录算法训练营第六十三天|84.柱状图中最大的矩形 84.柱状图中最大的矩形 给定 n 个非负整数&#xff0c;用来表示柱状图中各个柱子的高度。每个柱子彼此相邻&#xff0c;且宽度为 1 。 求在该柱状图中&#xff0c;能够勾勒出来的矩形的最大面积。 示例 1: 输入&…

浅谈如何自我实现一个消息队列服务器(7)——编写服务器部分

文章目录 一、编写服务器代码1.1、分析一个服务器应具备的功能1.1.1、成员变量1.1.2、对外提供的接口 一、编写服务器代码 再次拿出这张图&#xff0c;前面我们已经将重要概念&#xff1a;VirtualHost、exchange、msgQueue、message、binding 都实现了&#xff0c;此时就可以开…

【程序设计和c语言-谭浩强配套】(适合专升本、考研)

一晃大半年没更新了&#xff0c;这一年一直在备考&#xff0c;想着这几天把前段时间学的c语言给大家分享一下&#xff0c;在此做了一个专栏&#xff0c;有需要的小伙伴可私信获取o。 简介&#xff1a;本专栏所有内容皆适合专升本、考研的复习资料&#xff0c;本人手上也有日常…

在哪里打印资料比较便宜

在数字时代&#xff0c;我们常常需要在各种文档、资料之间穿梭&#xff0c;然而&#xff0c;有时候我们需要的并不是数字版&#xff0c;而是纸质版。那么&#xff0c;在哪里打印资料比较便宜呢&#xff1f; 琢贝云打印以其超低的价格&#xff0c;优质的打印服务&#xff0c;赢…

HFSS学习-day4-建模操作

通过昨天的学习&#xff0c;我们已经熟悉了HFSS的工作环境&#xff1b;今天我们来讲解HFSS中创建物体模型的县体步骤和相关操作。物体建模是HFSS仿真设计工作的第一步&#xff0c;HFSS中提供了诸如矩形、圆面、长方体圆柱体和球体等多种基本模型(Primitive)&#xff0c;这些基本…