深度学习:常用优化器Optimizer简介

news2024/12/25 0:14:10

深度学习:常用优化器Optimizer简介

  • 随机梯度下降SGD
  • 带动量的随机梯度下降SGD-Momentum
  • SGDW
  • Adam
  • AdamW

随机梯度下降SGD

梯度下降算法是使权重参数沿着整个训练集的梯度方向下降,但往往深度学习的训练集规模很大,计算整个训练集的梯度需要很大的计算量,为了减少计算量加速训练,在此基础上演化出随机梯度下降算法(SGD),沿着随机选取的小批量数据的梯度方向下降。
假设权重记作 w w w,学习率为 α \alpha α,随机选取小批量样本计算梯度 d w dw dw,模型在更新权重的公式如下:
w t + 1 = w t − α × d w t w_{t+1} = w_t - \alpha \times dw_t wt+1=wtα×dwt

带动量的随机梯度下降SGD-Momentum

虽然随机梯度下降是一种很受欢迎的优化方法,但其学习过程有时比较慢,引入动量momentum旨在提高收敛速度收敛精确度,特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。
动量是深度学习训练中,一个用于更新模型参数的超参数,假设记作mu,则引入动量的随机梯度下降算法公式为:
v t = m u × v t − 1 − α t × d w t v_t = mu \times v_{t-1} - \alpha_t \times dw_t vt=mu×vt1αt×dwt
w t + 1 = w t + v t w_{t+1} = w_t + v_t wt+1=wt+vt
其中,v初始化为0,mu一般的取值为0.5、0.9、0.99等。
要是当前时刻的梯度与历史时刻梯度方向相似,这种趋势在当前时刻则会加强;要是不同,则当前时刻的梯度方向减弱。前者能够加速收敛,后者能够减小摆动,提高收敛精确度。

SGDW

weight decay(权值衰减)的使用既不是为了提高收敛精确度也不是为了提高收敛速度,其最终目的是防止过拟合。在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂度防止过拟合,若weight decay很大,则复杂的模型损失函数的值也就大。

SGDW 即 SGD+ Weight decate。SGDW直接将正则项的梯度加入反向传播的公式中,而不是loss函数。
详细算法可参照:
在这里插入图片描述

Adam

Adam是一种自适应优化器,对超参数的选择较为鲁棒。SGD-Momentum在SGD基础上增加了一阶动量,AdaGrad和AdaDelta在SGD基础上增加了二阶动量。Adam则是把一阶动量和二阶动量都用起来了。
一阶动量:
m t = β 1 × m t − 1 + ( 1 − β 1 ) × d w t m_t = \beta_1 \times m_{t-1} + (1-\beta_1) \times dw_t mt=β1×mt1+(1β1)×dwt
二阶动量:
v t = β 2 × v t − 1 + ( 1 − β 2 ) × d 2 w t v_t = \beta_2 \times v_{t-1} + (1-\beta_2) \times d^2w_t vt=β2×vt1+(1β2)×d2wt
β 1 \beta_1 β1 β 2 \beta_2 β2是Adam的两个超参数。

详细算法可参照Adam原始论文:
在这里插入图片描述

AdamW

AdamW在Adam的基础上发展而来的一种自适应优化器。AdamW 即 Adam + Weight decate ,效果与 Adam + L2正则化相同,但是计算效率更高,因为L2正则化需要在loss中加入正则项,之后再算梯度,最后在反向传播,而AdamW直接将正则项的梯度加入反向传播的公式中,省去了手动在loss中加正则项这一步。

详细算法可参照AdamW原始论文:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/796365.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++】 函数模板和类模板

文章目录 一、模板1.1 函数模板和类模板1.2 函数模板1.2.1 普通函数和函数模板区别1.2.2 普通函数和函数模板调用规则1.2.3 模板局限性 1.3 类模板1.3.1 类模板对象做函数参数1.3.2 类模板的继承1.3.3 类模板成员函数的类外实现1.3.4 类模板分文件编写1.3.5 类模板全局函数类内…

PaddleOCR C++编译出错解决方案

文章目录 前言一、环境准备1、主要环境2、源码下载3、C推理库下载 二、报错信息1.静态库调用错误2.ld returned 1 exit status 总结 前言 最近,想尝试下PaddleOCR的C推理,但是过程不如人所愿,除了很多问题,这里捡重点的说下吧&…

【Python 实战】---- 批量识别图片中的文字,存入excel中【使用百度的通用文字识别】

分析 1. 获取信息图片示例 2. 运行实例 3. 运行结果 4. 各个文件的位置 实现 1. 需求分析 识别图片中的文字【采用百度的通用文字识别】;文字筛选,按照分类获取对应的文本;采用 openpyxl 实现将数据存入 excel 中。2. 获取 access_token 获取本地缓存的

双虚拟机实现数据库自动备份

FTP的使用: 1.安装FTP 1、检测系统有没有安装ftp,执行命令: rpm -qa | grep ftp若存在用rpm命令移除后再行安装,执行命令: rpm -e vsftpd-3.0.2-9.e17.x86_642、如果没有安装,则在线安装ftp&#xff0c…

[深度学习实战]基于PyTorch的深度学习实战(补充篇)[RNN和LSTM基本原理、PyTorch中的LSTM、Embedding层]

目录 一、前言二、RNN和LSTM基本原理2.1 长期依赖问题2.2 LSTM 网络2.3 LSTM 的核心思想2.4 逐步理解 LSTM2.5 LSTM 的变体2.5.1 coupled 忘记门和输入门2.5.2 GRU 三、PyTorch中的LSTM四、Embedding层五、后记 PyTorch——开源的Python机器学习库 一、前言 写这部分的文章很耗…

汽配企业如何把MES管理系统的价值利用到最大化

随着信息技术的快速发展,越来越多的汽配企业开始引入MES生产管理系统,以提高生产效率、优化资源利用和提升产品质量。然而,要想实现MES系统的最大化价值,汽配企业需要从以下几个方面入手。 首先,汽配企业应该充分了解M…

Android性能优化之游戏 OutOfMemoryError: pthread_create探究真相

近期,着手分析游戏的OOM问题,该问题在bugly上的量级,恐怖吓人的百万级,处于java 异常的top 1, 如下所示: 发生的设备,基本上都是32位的cpu架构 分析过程 先来看下报错的堆栈,基本上都是发生…

Prompt Engineering论文梳理(主要为2022年)

AutoPrompt (EMNLP2020) Shin T, Razeghi Y, Logan IV R L, et al. Autoprompt: Eliciting knowledge from language models with automatically generated prompts[J]. arXiv preprint arXiv:2010.15980, 2020. 基本架构,original input t…

【历史上的今天】7 月 27 日:模型检测先驱出生;微软收购 QDOS;第一张激光照排的中文报纸

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 7 月 27 日,在 1961 年的今天,IBM 推出了 IBM Selectric 电动打字机;电动打字机是打字机界无可争议的游戏规则颠覆者&#…

电商-订单模块

电商-订单模块 流程思维图表结构支付中心流程 流程思维图 表结构 支付中心 流程

座舱域控进入“上车”加速期,中国芯片的狂飙时代来了?

智能座舱成为了全球芯片厂商竞逐的下一个战场。 进入2023年,联发科官宣与英伟达合作开发集成CPU粒芯的汽车SoC,为下一代软件定义汽车提供全套车载人工智能座舱解决方案;AMD在特斯拉座舱落地后,与亿咖通在智能座舱领域达成了合作&…

猿辅导AI智能学情分析系统,用科技分析每个的孩子课堂表现

近几年,随着现代科技的不断发展,人们的生活也发生了很大的变化。“翻译神器”让沟通没有了语言障碍;“支付神器”让我们无需携带现金便可轻松消费,方便快捷;科技赋能下的课堂,也让教育从“面对面”传道解惑…

ipad笔买原装还是平替?apple pencil替代品推荐

如今,电容笔在网上办公、网上教育等行业风靡,平替式的电容笔能否取代苹果原来的电容笔吗?在现实生活中,你其实不必要为一支原版的苹果电容笔花费那么多的钱。一支普通的平替电容笔,售价只要一二百块钱,比起…

马上医疗项目介绍

“马上好医”项目白皮书 一、大型医疗挂号微服务“马上好医”医疗项目 “马上好医”即为网上医疗预约挂号系统,首先,由于互联网的发展,衍生出非常多的便民医疗服务的需求,而网上预约挂号则是其中一个便民需求,我们能…

Web3.0实战(02)-联盟链入门讲解

联盟链是介于公有链和私有链之间,具备部分去中心化的特性。 联盟链是由若干机构联合发起,由盟友共同来维护,它只针对特定某个群体的成员和有限的第三方开放。 8.1 部分去中心化 联盟链只属于联盟内部的成员所有,联盟链的节点数…

用友NC65登录界面的jsp页面路径

如上图,访问地址 http://127.0.0.1/portal/app/mockapp/login.jsp?lrid=1对应的页面是哪个呢??相信很多做用友portal端开发的人可能都没有研究或者思考过这个问题,或者想过,但是不知道路径在哪里。你直接按地址栏的地址查,发现nchome里,并没有”portal/app/mockapp/“这…

Centos7 yum命令异常报错:Could not retrieve mirrorlist http://mirrorlist.centos.org

一、问题背景 vmware安装CentOS-7-x86_64-DVD-2009版本后,执行yum -y install gcc报错Could not retrieve mirrorlist http://mirrorlist.centos.org/?release7&archx86_64&repoos&infrastock error was [rootcentos ]# yum -y install gcc 已加载插…

Linux服务器上重置Mysql8密码

前言 此流程适用于mysql 8版本 1. 关闭数据库 1.关闭数据库 service mysqld stop2. 编辑配置文件 1.编辑文件 vim /etc/my.cnf输入 i ,进入编辑模式2.添加配置 skip-grant-tables按ESC,再输入 :wq ,保存退出3.重启数据库 service…

node中使用jsonwebtoken实现身份认证

在现代web应用中,用户身份认证是非常重要且必不可少的一环。而使用Node.js和Express框架,可以方便地实现用户身份认证。而在这个过程中,jsonwebtoken这个基于JWT协议的模块可以帮助我们实现安全且可靠的身份认证机制,可以让我们轻…

Superset基础安装

Superset 介绍 ​ Superset快速,轻巧,直观,并带有各种选项,使各种技能的用户都可以轻松浏览和可视化其数据,从简单的折线图到高度详细的地理空间图。 1、特点 以下是Superset的主要功能的概述: 开箱即用的…