优化器| SGD/SGD-m/SGD-NAG/Adagrad/Adadelta/RMSProp/Adam/Nadam/Adamax

news2025/1/11 18:32:32

前言:最近准备复习一下深度学习的基础知识,开个专栏记录自己的学习笔记

各种SGD和Adam优化器整理

基本概念

优化:最大化或最小化目标函数,具体指最小化代价函数或损失函数

损失函数 J(θ)=f(hθ(x),y),hθ(x)是由参数θ构成的网络输出

梯度下降:为了使得损失函数达到最小所采取的方法或策略
具体步骤:

  • 计算梯度,这里的梯度只损失函数在参数θ的梯度
  • 更新参数:根据计算的损失函数梯度,求更新后的参数(θ=θ-α * g)学习率 * 梯度

SGD(stochastic gradient descent)随机梯度下降

每次更新时用1个样本
优点:
缺点:

  • 缺点在于收敛速度慢,
  • 可能在鞍点处震荡
  • 学习率难以选择
opt_SGD         = torch.optim.SGD(net_SGD.parameters(), lr=LR)

BGD(Batch Gradient Descent)批量梯度下降

每一次迭代时使用所有样本来进行梯度的更新
优点:

  • 全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向

缺点:

  • 需要遍历全部样本才更新一次,耗费时间长
  • 由于是由全部的样本求的平均损失函数的梯度进行计算,有些sample可能对参数更新不起作用

MBGD(Mini-batch Gradient Descent) 小批量梯度下降

每次迭代我们从所有样本的训练集中依次按固定批量样本进行梯度更新,直到遍历所有样本

MBSGD(Mini-batch Gradient Descent) 小批量随机梯度下降

每次迭代我们从所有样本的训练集(已经打乱样本的顺序)中随机抽出一小批量(mini-batch)样本进行梯度更新

SGD with momentum 带动量的随机梯度更新

公式
在这里插入图片描述
即按照动量来更新参数(而不是梯度)
动量为两部分构成,其中一部分由上一时刻的动量决定,另一部分由当前梯度决定,β一般取0.9
因此动量可以看成有了惯性的梯度

优点:
在相同学习率和相同更新时间内,Momentum加速能行驶更多路程,为越过不那么好的极小值点提供可能性

opt_Momentum    = torch.optim.SGD(net_Momentum.parameters(), lr=LR, momentum=0.8)

SGD with NAG(Nesterov accelerated gradient)

在这里插入图片描述
在这里插入图片描述
这里的γ是衰减率=β,η是学习率=α
原理:根据动量进一步推导而来,带动量的参数更新另一部分由当前梯度决定,这里不是由当前梯度决定,而是下一步梯度决定,即假设第一部分动量作用后更新梯度决定

AdaGrad 自适应学习率梯度下降法

SGD 、SGD-M、SGD-NAG都是固定学习率去学习参数
但是对于更新不频繁的参数,我们希望学习率大以学到更多知识,对于更新频繁的参数,我们希望学习率小以保持稳定
二阶动量的表示:
在这里插入图片描述
Vt是个对角矩阵,代表不同维度上迄今为止所有梯度的平方和
AdaGrad用全局学习率除以这个数,作为学习率的动态更新。

更新频繁的参数,二阶动量的对应分量大

RMSProp (Root Mean Square Prop)

RMSProp通过给二阶动量加一个惯性,用来解决Adagrad学习率不断衰减的问题
在这里插入图片描述

opt_RMSprop     = torch.optim.RMSprop(net_RMSprop.parameters(), lr=LR, alpha=0.9)

AdaDelta

和RMSProp类似,也是用来解决Adagrad学习率不断衰减的问题
由于一直累加梯度,动量越来越大,学习率越来越小,因此考虑只累加W时刻时间窗里的梯度
然后用递归的形式表示,而不是直接简单的w个平方相加
在这里插入图片描述
参数的变化量则为
在这里插入图片描述
用平方根的式子表示
在这里插入图片描述
对于参数均方根也应该如此
在这里插入图片描述
因此替换学习率
在这里插入图片描述

Adam(Adaptive Moment Estimation)

论文:【here】
Adam算法:Momentum+RMSProp的结合,然后再修正其偏差
一阶动量/二阶动量加惯性
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

AdamW

Adam +Weight Decay

在这里插入图片描述
在这里插入图片描述
weight decay 用于限制网络权重参数趋于0

Nadam

Nadam是Adam+NAG的融合
使用动量的时候不是使用当前的动量,而是像NAG一样,向未来多走一步,取下一时刻的动量

Adamax

将L2范数推广到L-infinity范数
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/578396.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软考A计划-试题模拟含答案解析-卷五

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…

Android 12.0仿ios的hotseat效果修改hotseat样式

1.概述 最近在12.0产品项目需求的需要,系统原生Launcher的布局样式很一般,所以需要重新设计ui对布局样式做调整,产品在看到 ios的hotseat效果觉得特别美观,所以要仿ios一样不需要横屏铺满的效果 居中显示就行了,所以就要看hotseat的具体布局显示了 效果图如下: 2.仿io…

《Spring Guides系列学习》guide51 - guide55

要想全面快速学习Spring的内容,最好的方法肯定是先去Spring官网去查阅文档,在Spring官网中找到了适合新手了解的官网Guides,一共68篇,打算全部过一遍,能尽量全面的了解Spring框架的每个特性和功能。 接着上篇看过的gui…

网络设备的部署(串行与并行)

串行设备 1.防火墙:能够实现区域隔离和访问控制 2.IPS(入侵防御系统):能够检测入侵行为并阻断 3.WAF(上网行为管理设备):保障web应用的安全 4.上网行为管理设备:对用户上网行为进行控制 5.FC交换机&am…

【源码解析】SpringBoot使用Nacos配置中心和使用 @NacosValue 进行热更新

SpringBoot使用Nacos 引入依赖 <dependency><groupId>com.alibaba.boot</groupId><artifactId>nacos-config-spring-boot-starter</artifactId><version>0.2.12</version> </dependency>增加本地配置 nacos:config:server-…

通过 ChatGPT 制作一个短视频

图文&#xff0c;生成视频 当通过 ChatGPT 生成连贯的 prompt 时&#xff0c;除了连环画&#xff0c;我们理所当然还可能畅想更激进的场景——生成动画视频。目前 AIGC 社区确实在生成视频方面有一定的尝试。比如 Deforum 可以通过多条 prompt&#xff0c;配合具体的切换时间点…

Centos7中mysql安装配置

前提&#xff1a;先关闭防火墙或开启tcp的3306端口 1、查看服务器上是否有现成的安装包 yum list mysql* 2、去mysql官网的yum资源库找到对应的rpm文件的下载链接 确定系统版本 cat /etc/redhat-release 到mysql官网复制对应版本的资源下载链接 MySQL :: Download MySQL Yum…

chatgpt赋能python:Python长连接详解:优化用户体验和节约资源的有效方式

Python长连接详解&#xff1a;优化用户体验和节约资源的有效方式 Python语言具备多样性和灵活性&#xff0c;是内容和功能极其丰富的一种编程语言。对于网站或者应用程序的开发&#xff0c;在Python语言的基础上可以实现长连接&#xff0c;优化用户体验和节约资源&#xff0c;…

网站部署与上线(1)虚拟机

文章目录 .1 虚拟机简介2 虚拟机的安装 本章将搭建实例的生产环境&#xff0c;将所有的代码搭建在一台Linux服务器中&#xff0c;并且测试其能否正常运行。 使用远程服务器进行连接&#xff1b; 基本的Linux命令&#xff1b; 使用Nginx搭建Node.js服务器&#xff1b; 在服务器端…

Admin.NET管理系统(vue3等前后端分离)学习笔记--持续更新

我的学习笔记 - 9iAdmin.NET 欢迎学习交流&#xff08;一&#xff09;前端笔记1.1 关于.env的设置1.2 关于路由模式问题1.3 关于 vue.config.ts1.4 关于 打包&#xff08;pnpm run build&#xff09;溢出问题1.5 关于 打包&#xff08;pnpm run build&#xff09;后部署到IIS重…

你知道网速的发展史吗? 80年代的我们是这样上网的!

&#x1f680; 个人主页 极客小俊 ✍&#x1f3fb; 作者简介&#xff1a;web开发者、设计师、技术分享博主 &#x1f40b; 希望大家多多支持一下, 我们一起进步&#xff01;&#x1f604; &#x1f3c5; 如果文章对你有帮助的话&#xff0c;欢迎评论 &#x1f4ac;点赞&#x1…

C++:征服C指针:指针(一)

关于指针 1.看一个简单的程序&#xff0c;来接触下指针2. 常见疑问&#xff1a;指针就是地址&#xff0c;那么int的指针和double的指针有什么区别 了3. 常见疑问&#xff1a;指针运算4. 为什么存在奇怪的指针运算符5. 试图将数组作为函数的参数进行传递。6. 什么是空指针5.1 声…

怎样用一周时间研究 ChatGPT

我是怎样用一周时间研究 ChatGPT 的&#xff1f; 上周大概开了 20 多个会&#xff0c;其中有一些是见了觉得今年可能会比较活跃出手的机构&#xff0c;其余见的绝大多数是和 ChatGPT 相关。 我后面就以 ChatGPT 为例&#xff0c;讲下我是如何快速一周 cover 一个赛道的&#x…

GDB 基础使用与多进程调试

​ GDB 全称“GNU symbolic debugger”是 Linux 下常用的程序调试器&#xff0c;当下的 GDB 支持调试多种编程语言编写的程序&#xff0c;包括 C、C、Go、Objective-C、OpenCL、Ada 等。 01 GDB 基础调试 1.1 基础使用 安装工具 # 安装 gcc sudo yum install gcc # 安装 g s…

记录一次el-table动态添加删除列导致表格样式错误(或不聚集)问题

记录一次el-table动态添加删除列导致表格样式错误问题 需求背景出现的问题解决方案理论&#xff1a;在el-table中设置key值&#xff0c;重新赋值表格数据之后&#xff0c;更新key值&#xff0c;达到动态更新效果 需求背景 一个电商类商品管理平台&#xff08;类似shopify产品编…

2023 华为 Datacom-HCIE 真题题库 06--含解析

多项选择 1.[试题编号&#xff1a;190185] &#xff08;多选题&#xff09;如图所示&#xff0c;PE 1和PE2之间通过Loopback0接口建立MP-BGP邻居关系&#xff0c;在配置完成之后&#xff0c;发现CE1和CE2之间无法互相学习路由&#xff0c;以下哪些项会导致该问题出现? A、PE1…

初识linux之简单了解TCP协议与UDP协议

目录 一、理解源IP地址和目的IP地址 二、端口号 1. 为什么要有端口号 2. 理解端口号 3. 源端口号和目的端口号 三、初步了解TCP协议和UDP协议 1. 初步认识TCP协议 2. 初步认识UDP协议 3. 可靠传输与不可靠传输 四、网络字节序 1. 网络字节序的概念 2. 如何形成网络…

python+django电子笔记交易系统vue

编码使用python&#xff08;我的pycharm版本是2021.3.3&#xff09;&#xff0c;数据库使用mysql&#xff08;我的mysql版本5.5&#xff09;。网站点击能够跳转各个页面&#xff0c;不用部署服务器&#xff0c;本地运行即可。 题目&#xff1a;基于django的电子笔记交易系统 功…

并发编程的三大特性之有序性

有序性的概念 Java文件在被cpu执行前会进行编译成cpu可以执行的指令&#xff0c;为了提高cpu的执行效率会对其中的一些语句进行重排序。Java指令最终是乱序执行的目的是为了提高cpu的执行效率&#xff0c;发挥cpu的性能 单例模式由于指令重排可能会出现上述的问题&#xff0…

ASP.NET Core

1. 入口文件 一个应用程序总有一个入口文件&#xff0c;是应用启动代码开始执行的地方&#xff0c;这里往往也会涉及到应用的各种配置。当我们接触到一个新框架的时候&#xff0c;可以从入口文件入手&#xff0c;了解入口文件&#xff0c;能够帮助我们更好地理解应用的相关配置…