简单介绍神经网络中不同优化器的数学原理及使用特性【含规律总结】

news2025/1/12 10:11:22

当涉及到优化器时,我们通常是在解决一个参数优化问题,也就是寻找能够使损失函数最小化的一组参数。当我们在无脑用adam时,有没有斟酌过用这个是否合适,或者说凭经验能够有目的性换用不同的优化器?是否用其他的优化器可以更好的解决问题?那我就介绍解释几种常用的优化器的基本原理:

  1. 随机梯度下降(SGD)

    SGD 是最基本的优化算法之一。它通过计算当前位置的梯度(即损失函数对参数的导数),然后朝着梯度的反方向更新参数。数学上可以表示为:

    w = w − α ⋅ ∇ J ( w ) w=w−α⋅∇J(w) w=wαJ(w)

    其中, w w w 是待优化的参数, α \alpha α 是学习率, ∇ J ( w ) \nabla J(w) J(w) 是损失函数关于参数的梯度。

  2. 动量优化器(Momentum)

    Momentum 在 SGD 的基础上引入了动量项,它可以理解为模拟物体在空间中运动的物理量。这个动量项会考虑之前的更新,从而使更新方向在一定程度上保持一致。数学上可以表示为:

    v = β ⋅ v + ( 1 − β ) ⋅ ∇ J ( w ) v=\beta⋅v+(1−\beta)⋅ \nabla J(w) v=βv+(1β)J(w)

    w = w − α ⋅ v w=w−α⋅v w=wαv

    其中, v v v 是动量, β \beta β 是动量因子,控制之前更新的影响程度。

  3. AdaGrad

    AdaGrad 是自适应学习率的一种算法。它会根据参数的历史梯度调整学习率,使得对于稀疏数据来说可以使用一个更大的学习率,而对于频繁出现的数据则会使用较小的学习率。数学上可以表示为:

    w = w − α G + ϵ ⋅ ∇ J ( w ) w = w - \frac{\alpha}{\sqrt{G + \epsilon}} \cdot \nabla J(w) w=wG+ϵ αJ(w)

    其中,GGG 是梯度的平方和的累积,ϵ\epsilonϵ 是一个很小的数,防止除零错误。

  4. RMSprop

    RMSprop 是 AdaGrad 的一个变体,它引入了一个衰减系数 β \beta β,用来控制历史梯度的权重。这使得 RMSprop 更加平滑地调整学习率。数学上可以表示为:

    G = β ⋅ G + ( 1 − β ) ⋅ ( ∇ J ( w ) ) 2 G = \beta \cdot G + (1 - \beta) \cdot (\nabla J(w))^2 G=βG+(1β)(J(w))2

    w = w − α G + ϵ ⋅ ∇ J ( w ) w = w - \frac{\alpha}{\sqrt{G + \epsilon}} \cdot \nabla J(w) w=wG+ϵ αJ(w)

    其中, G G G 是平方梯度的指数加权移动平均。

  5. Adam

    Adam 结合了 Momentum 和 RMSprop 的特性,是一种同时考虑动量和自适应学习率的优化器。它可以动态地调整每个参数的学习率,并且可以保持更新方向的一致性。Adam 还引入了偏差修正,以解决初始训练时的偏差问题。数学上可以表示为:

    m = β 1 ⋅ m + ( 1 − β 1 ) ⋅ ∇ J ( w ) m = \beta_1 \cdot m + (1 - \beta_1) \cdot \nabla J(w) m=β1m+(1β1)J(w)

    v = β 2 ⋅ v + ( 1 − β 2 ) ⋅ ( ∇ J ( w ) ) 2 v = \beta_2 \cdot v + (1 - \beta_2) \cdot (\nabla J(w))^2 v=β2v+(1β2)(J(w))2

    m ^ = m 1 − β 1 t \hat{m} = \frac{m}{1 - \beta_1^t} m^=1β1tm

    v ^ = v 1 − β 2 t \hat{v} = \frac{v}{1 - \beta_2^t} v^=1β2tv

    w = w − α v ^ + ϵ ⋅ m ^ w = w - \frac{\alpha}{\sqrt{\hat{v} + \epsilon}} \cdot \hat{m} w=wv^+ϵ αm^

    其中, m m m v v v 分别是动量和平方梯度的移动平均, β 1 \beta_1 β1​ 和 β 2 \beta_2 β2​ 是衰减系数, t t t 是当前迭代次数, ϵ \epsilon ϵ 是避免除零错误的小数。


其实,每种优化器都有其适用的场景,具体的选择需要根据问题的特性和实际实验的结果来决定。
如果你真的对优化器的数学原理不感冒,只是一个最小白的神经网络构建者,那么我尝试总结几条,最浅显易懂的优化器特征,以供查阅:

  1. 随机梯度下降(SGD):这是最基本的优化算法之一,它在每个训练步骤中沿着梯度的反方向更新权重。它有时候可能需要更多的调参工作来获得好的性能。

  2. 动量优化器(Momentum):当需要考虑前一次梯度调整对后续修正的影响时,这个方法不错。Momentum 的参数 momentum 控制了之前梯度的影响程度,一般取值在 0.8 到 0.9 之间。

  3. Adagrad:Adagrad 会为不经常更新的参数提供更大的学习率,适合处理稀疏数据。

  4. RMSprop:与 Adam 类似,RMSprop 也是自适应学习率的一种算法。在一些情况下,它可能会比 Adam 更好。

  5. Adam:Adam 通过自适应调整学习率来提高训练效率。它通常对于大多数问题都是一个良好的默认选择。

  6. Adadelta:Adadelta 是一种自适应学习率的优化器,可以自动调整学习率。

  7. Nadam:Nadam 是结合了 Nesterov 动量的 Adam 变体,通常在训练深度神经网络时表现良好。

  8. FTRL:FTRL 是针对线性模型优化的一种算法,对于大规模线性模型可以很有效。


联系我 交流请署名👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1004932.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

41 个下载免费 3D 模型的最佳网站

推荐:使用 NSDT场景编辑器 快速搭建3D应用场景 1. Pikbest Pikbest是一个设计资源平台,提供超过3万件创意艺术品。您可以在Pikbest上找到设计模板,演示幻灯片,视频和音乐等。您可以找到不同的3D模型,例如婚礼装饰&…

Anaconda彻底卸载及重安装

一、彻底卸载Anaconda 1.1 先采用anaconda-clean包初步卸载 总体卸载思路:通过下载anaconda-clean包完成初步卸载,但由于在base下若下载anaconda-clean包会一直卡在Solving environment:阶段,因此首先要创建一个虚拟环境。具体步骤如下&…

freeRTOS系列教程之freeRTOS入门与工程实践【文档+视频教程+进阶视频教程】

《freeRTOS入门与工程实践》 前言课程内容授课方式 学前知识普及学前准备硬件准备资料准备 视频教程文档教程更好的阅读体验 前言 课程内容 嵌入式软件工程师的学习路线一般是:单片机->RTOS->Linux。当你掌握单片机开发后,如果要进一步提升编程水…

质数,思维,prime game

Prime Game - Gym 101981J - Virtual Judge (vjudge.net) Problem - 1520 (nefu.edu.cn) 解析: 这道题还是要考虑数的贡献 题解参考至(【ACM-ICPC 2018 南京现场赛 】 J.Prime Game ---- 思维素数筛_WangMeow的博客-CSDN博客) 第一个元素的…

Windows下使用Nginx反向代理访问MySQL数据库

安装Nginx 《Windows下安装Nginx》 配置13306端口访问3306端口的MySQL数据库 worker_processes 1;events {worker_connections 1024; }stream {upstream mysql {hash $remote_addr consistent;server 127.0.0.1:3306;# MySQL数据库集群#server 192.168.1.111:3306;}server…

领域驱动设计:DDD设计微服务代码模型

文章目录 DDD 分层架构微服务代码模型 只有建立了标准的微服务代码模型和代码规范后,我们才可以将领域对象所对应的代码对象放在合适的软件包的目录结构中。标准的代码模型可以让项目团队成员更好地理解代码,根据代码规范实现团队协作;还可以…

Linux下的编译器使用以及各个阶段的执行

程序的翻译 程序在形成可执行程序之前都经历过一系列十分复杂的过程,也就是我们程序的翻译,程序的翻译经过以下阶段: 预处理(进行宏替换) 编译(生成汇编) 汇编(生成机器可识别代码) 连接&#…

Linux--进程间通讯--FIFO(open打开)

1. 什么是FIFO FIFO命名管道,也叫有名管道,来区分管道pipe。管道pipe只能用于有血缘关系的进程间通信,但通过FIFO可以实现不相关的进程之间交换数据。FIFO是Linux基础文件类型中的一种,但是FIFO文件在磁盘上没有数据块&#xff0c…

快递查询、导出表格,批量操作效率更高

当我们需要查询多个快递的状态时,通常会感到繁琐和耗时。然而,现在有一种快捷的方法可以帮助我们快速批量查询快递,而且还可以将查询结果导出成表格,轻松搞定! 首先,在浏览器中搜索“固乔科技”&#xff0c…

SSL证书系列--Let’s Encrypt和TrustAsia哪个好?

原文网址:SSL证书系列--Let’s Encrypt和TrustAsia哪个好?_IT利刃出鞘的博客-CSDN博客 简介 本文介绍Let’s Encrypt和TrustAsia这两款免费SSL证书的区别。 Let’s Encrypt 简介 Let’s Encrypt是一家全球性的证书颁发机构,由一个非营利…

OpenCV之FCN图像分割

💂 个人主页:风间琉璃🤟 版权: 本文由【风间琉璃】原创、在CSDN首发、需要转载请联系博主💬 如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦 前言 Fully Convolutional Network(FCN)是一种深度学习…

buu web [强网杯 2019]随便注

easy_sql 看来这是一道sql注入的题 1、起手试探 1 报错 1# 正确 ps:提交的不显示,想知道提交的东西就看红框的位置,就标了一个,剩下的也一样 2、 测字段数,到三报错,说明字段为二 1 order by 1# 1 order by 2…

去噪方法总结

图像降噪方法如下图: 空间域局部滤波 线性滤波 原图: 给原图加了四类噪声以后: 均值滤波 主要原理: 用像素邻域的灰度均值代替该像素的值 opencv里面有api 直接用api size 用的是7 对这四张图用均值滤波 (上下是一一…

记录一些奇怪的报错

错误:AttributeError: module distutils has no attribute version 解决方案: 第一步:pip uninstall setuptools 第二步:conda install setuptools58.0.4 错误:ModuleNotFoundError: No module named _distutils_hac…

Java定时器

对于定时器的设定,想必大家在不少网站或者文章中见到吧,但是所谓的定时器如何去用Java代码来bianx呢??感兴趣的老铁,可以看一下笔者这篇文章哟~~ 所谓的定时器就是闹钟!! 设定一个时间&#x…

计算机毕业设计 高校课程评价系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

Vray渲染与窗口呈现不一致怎么办?

3D场景渲染过程中,可能大多情况下,大家都会选择Vray渲染器。它是最流行的渲染引擎之一。 但是,在渲染过程中,大家还是会遇到vray渲染和窗口不一致的问题。 在渲染过程中,窗口显示和实际渲染结果不同步的情况。不仅影响…

【DevOps核心理念基础】1. 什么是 devops

一、什么 devops? 1.1 定义 1.2 作用 1.3 核心 1.4. 软件开发流程 1.5. DevOps的核心定义 1.6. 具备的能力 二、DevOps流程中的几个关键概念 2.1 持续集成 2.2 持续交付 2.3 持续部署 2.4 总结 三、DevOps和敏捷开发的演进 一、什么 devops? 1.1 定义 Developme…

基于YOLOv8模型的80类动物目标检测系统(PyTorch+Pyside6+YOLOv8模型)

摘要:基于YOLOv8模型的80类动物目标检测系统可用于日常生活中检测与定位车辆目标,利用深度学习算法可实现图片、视频、摄像头等方式的目标检测,另外本系统还支持图片、视频等格式的结果可视化与结果导出。本系统采用YOLOv8目标检测算法训练数…

基于springboot+vue的大学社团管理系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目介绍…