深度学习常用的优化器整理

深度学习常用的优化器整理

news2025/7/9 13:03:14

常见优化器整理

一、SGD（随机梯度下降）

公式：
经典的mini-batch SGD使用的很多，效果也比较不错，但是存在一部分问题
- 选择恰当的初始学习率很困难
- 学习率调整策略受限于预先制定的调整规则
- 相同的学习率被应用于各个参数
- 高度非凸的误差函数的优化过程，如何避免陷入大量的局部次优解或鞍点

梯度下降遇到的问题

很难选择一个合适的学习率，如果学习率太小，将会导致收敛非常缓慢；如果学习率太大，也会阻碍收敛，导致损失函数值在最小值附近波动甚至发散。
上述问题可以通过提前定义一个学习速率表，当达到相应轮数或者阈值时根据表改变学习率，但是这样无法适应训练数据本身特征。
并且，对于所有参数我们使用同一个学习速率，如果我们的数据是稀疏的或者我们特征具有不同的频率，我们可能不希望将它们更新到同样的程度，并且我们希望对那些出现频率低的特征更新更快。
另外在神经网络中，普遍是具有非凸的误差函数，这使得在优化网络过程中，很容易陷入无数的局部最优点，而且更大困难往往也不是陷入局部最优点，而是来自鞍点（也就是在一个维度上其梯度是递增，另一个维度其梯度是递减，而在鞍点处其梯度为0），这些鞍点附近往往被相同误差点所包围，且在任意维度梯度近似为0，所以随机梯度下降很难从这些鞍点逃出。

二、AdaGrad（Adaptive Gradient 自适应梯度）

能够对每个不同的参数调整不同的学习率，对频繁变化的参数以更小的步长进行更新，对稀疏的参数以更大的步长进行更新
公式
增加了分母（梯度平方和的平方根），能够累积个参数的历史梯度评分，频繁更新的梯度累计分母大，步长就小；稀疏的梯度累积的梯度分母小，步长就大。AdaGrad能够自动为不同参数适应不同的学习率（平方根的分母项相当于对学习率α进行了自动调整），大多数的框架实现采用默认学习率α=0.01
优势：在数据分布稀疏的场景，能够更好利用稀疏梯度的信息，比标准SGD更容易收敛
缺点：分母项不断累积，当时间累积后，会导致学习率收缩到太小导致无法收敛

三、RMSProp

结合梯度平方的指数移动平均数来调节学习率变化，能够在不稳定的目标函数情况下很好收敛。
公式
- 计算t时刻的梯度
- 计算梯度平方的指数移动平均数（Exponential Moving Average），γ是遗忘因子（指数衰减率），默认设置为0.9
- 梯度更新的时候，与AdaGrad类似，只是更新的梯度平方的期望（指数移动均值），其中ε=10⁻⁸，避免除数为0。默认学习率α=0.001。
优势：能够克服AdaGrad梯度急剧减小的问题，再很多应用中都展现出优秀的学习率自适应能力，尤其在不稳定（Non-Stationary）的目标函数下，比基本的SGD、Momentum、AdaGrad表现更良好。

四、Adadelta

Adadelta算法可以解决上述问题，其一阶向量跟adagrad一样，二阶参数有所变化：
二阶参数表达式跟动量表达式相似，引入了参数γ，可以知道二阶动量其实之前所有梯度平方的一个加权平均值，表达式如下：
从而可以解决AdaGrad带来的分母越来越大的问题

五、Adam（adaptive Moment Estimation自适应矩估计）

Adam是一种将动量和Adadelta或RMSprop结合起来的算法，也就引入了两个参数β1和β2，其一阶和二阶动量公式为：
但是由于一阶和二阶动量初始训练时很小，接近于0，因为β值很大，于是又引入一个偏差来校正：
其中t代表其t次方，所以刚开始训练时，通过除以（1-β）就可以很好修正学习速率，当训练多轮时，分母部分也接近1，又回到了原初始方程，所以最后总的梯度更新方程为：
其中β1默认值为0.9，β2默认值为0.999，ε为10^-8，Adam集合动量和Adadelata两者的优点，从经验中表明Adam在实际中表现很好，同时与其他自适应学习算法相比，更有优势。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/358880.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

经理与员工工资关系-课后程序(JAVA基础案例教程-黑马程序员编著-第四章-课后作业)

经理与员工工资关系-课后程序(JAVA基础案例教程-黑马程序员编著-第四章-课后作业)

【案例4-6】经理与员工工资案例（利用多态实现） 欢迎点赞关注收藏【案例介绍】案例描述某公司的人员分为员工和经理两种，但经理也属于员工中的一种，公司的人员都有自己的姓名和地址，员工和经理都有自己的工号、工…

阅读更多...

中国高速公路行业市场规模及未来发展趋势

中国高速公路行业市场规模及未来发展趋势

中国高速公路行业市场规模及未来发展趋势编辑中国高速公路行业市场规模正在迅速增长。随着中国经济的快速发展和城市化的加速，对交通基础设施的需求也在不断增加。高速公路是最有效的交通工具，可以大大缩短交通时间，提高出行效率。因此&#…

阅读更多...

志趣相投的人总会相遇——社科院与杜兰大学金融管理硕士项目

志趣相投的人总会相遇——社科院与杜兰大学金融管理硕士项目

志同道合的人，才会喜欢同一片风景，志趣相投的人，总有一天会相遇。社科院与杜兰大学金融管理硕士项目为什么能吸引一大批“上班族”呢，我们一起去了解一下。社科院与杜兰大学中外合作办学硕士项目无需参加全国联考，通过…

阅读更多...

springMvc源码解析

springMvc源码解析

入口：找到springboot的自动配置，将DispatcherServlet和DispatcherServletRegistrationBean注入spring容器（DispatcherServletRegistrationBean间接实现了ServletContextInitializer接口，最终ServletContextInitializer的onStartup…

阅读更多...

Seata-Server分布式事务原理加源码(一) - 微服务之分布式事务原理

Seata-Server分布式事务原理加源码(一) - 微服务之分布式事务原理

概念基础概念：事务ACID • A（Atomic）：原子性，构成事务的所有操作，要么都执行完成，要么全部不执行，不可能出现部分成功部分失败的情况。 • C（Consistency）…

阅读更多...

【测试开发】Dubbo接口测试技术，测试开发进阶必备（附源码）

【测试开发】Dubbo接口测试技术，测试开发进阶必备（附源码）

Dubbo 是什么？ Dubbo 是阿里巴巴开源的一套 RPC 方案，因为理念很契合微服务，这几年很火，用户里面不凡京东，当当，去哪儿等大公司。 RPC 场景 Dubbo 架构官网也提供了一个很简单实用的 Demo 来演示 Dubbo …

阅读更多...

企业级信息系统开发学习笔记1.4 初探Spring——采用Java配置类管理Bean

企业级信息系统开发学习笔记1.4 初探Spring——采用Java配置类管理Bean

文章目录零、本讲学习目标一、课程引入二、采用Java配置类管理Bean（一）打开项目（二）创建子包（三）创建杀龙任务类（四）创建勇敢骑士类（五）创建Spring配置类&…

阅读更多...

电商数据查询平台：母婴行业妈妈用品全网热销，头部品牌格局初现

电商数据查询平台：母婴行业妈妈用品全网热销，头部品牌格局初现

以往，奶粉、纸尿裤这类产品基本就代表了整体母婴市场中的消费品。而如今，随着母婴行业的高速发展和消费升级，母婴商品的种类日益丰富，需求也不断深入。在京东平台，母婴大品类中除了包含婴童相关的食品（奶粉…

阅读更多...

面试个3年自动化测试，测试水平一言难尽。。。。

面试个3年自动化测试，测试水平一言难尽。。。。

公司前段缺人，也面了不少测试，结果竟然没有一个合适的。一开始瞄准的就是中级的水准，也没指望来大牛，提供的薪资在10-20k，面试的人很多，但平均水平很让人失望。看简历很多都是3年工作经验，但…

阅读更多...

飞塔Fortinet防火墙SSL VPN双因素身份认证（2FA）方案

飞塔Fortinet防火墙SSL VPN双因素身份认证（2FA）方案

作为行业领先的防火墙厂商，飞塔Fortinet结合了高性能 VPN 功能，代表了网络安全的新概念。其中飞塔Fortinet防火墙 SSL VPN 因其突出的安全性能而被广泛应用在远程办公场景中。但在 SSL VPN 登录时用户仅需输入用户名和固定的静态密码，若遭遇账…

阅读更多...

AWS S3常用功能总结回顾

AWS S3常用功能总结回顾

本文用于记录与分享工作中遇到的s3的基础使用方法工具介绍本文采用s3Browser对s3进行可视化管理基本元素端点Endpoint桶Bucket账号AccessKey密码SecreteKey 说明本文基于JavaSDK进行演示代码，下文的代码都只包含核心部分，异常捕捉、流关闭、…

阅读更多...

【图像分类】卷积神经网络之LeNet5网络模型结构详解

【图像分类】卷积神经网络之LeNet5网络模型结构详解

写在前面：首先感谢兄弟们的关注和订阅，让我有创作的动力，在创作过程我会尽最大能力，保证作品的质量，如果有问题，可以私信我，让我们携手共进，共创辉煌。 1. 前言 LeNet5算法是LeCun在1998年提出的卷积神经网络模型。大约90年代，由于支持向量机等算法的发现，深度学习…

阅读更多...

django项目实战一（django+bootstrap实现增删改查）

django项目实战一（django+bootstrap实现增删改查）

目录一、创建django项目二、修改默认配置三、配置数据库连接四、创建表结构五、在app当中创建静态文件六、页面实战-部门管理 1、实现一个部门列表页面 2、实现新增部门页面 3、实现删除部门 4、实现部门编辑功能七、模版的继承 1、创建模板layout.html 1&…

阅读更多...

创建虚拟机，安装CentOS

创建虚拟机，安装CentOS

在VMware上面创建虚拟机文件->新建虚拟机选定自定义的高级，下一步下一步检查选定稍后安装操作系统下一步选择Linux，CentOS 7 64位创建虚拟机名称，以及在存放该虚拟机的位置选择处理器的数量和每个处理器的内核数量 …

阅读更多...

Linux入门操作指令介绍（配合Windows理解）

Linux入门操作指令介绍（配合Windows理解）

（1）如果不会装虚拟机和Ubuntu，建议跟着韦东山老师的课程来安装，绝大多数事情他都帮你做好了。跟着视频的来即可。韦东山老师视频链接。（2）跟着视频做可能还是会有很多不懂的，比如什么是Shell &a…

阅读更多...

【论文速递】ACL 2021-CLEVE: 事件抽取的对比预训练

【论文速递】ACL 2021-CLEVE: 事件抽取的对比预训练【论文原文】：CLEVE: Contrastive Pre-training for Event Extraction 【作者信息】：Wang, Ziqi and Wang, Xiaozhi and Han, Xu and Lin, Yankai and Hou, Lei and Liu, Zhiyuan and Li, Peng and …

阅读更多...

【离散数学】3. 代数系统

【离散数学】3. 代数系统

1.数理逻辑 2. 集合论 3. 代数系统 4. 图论代数系统：把一些形式上很不相同的代数系统，用统一的方法描述、研究、推理，从而得到反映出他们共性的一些结论，在将结论运用到具体的代数系统中系统：运算研究对象运算&…

阅读更多...

薪资9k！三年教培老师被优化，选择转行软件测试实现再就业

薪资9k！三年教培老师被优化，选择转行软件测试实现再就业

大学毕业后，我在一家教培机构当了三年的高中英语老师。只是后来我怎么也没想到，这三年间形成的社交圈子和职场经验，仅仅用了三个月便发生了天翻地覆的变化。 ——贵阳校区优秀学员小Z 01.初入职场 2019年的初夏，我和众多应届毕…

阅读更多...

利用redis实现缓存、发布订阅、分布式锁功能

利用redis实现缓存、发布订阅、分布式锁功能

Redis是一个内存键值存储数据库，通常用于缓存、会话管理、消息队列等场景。以下是一些常见的Redis使用场景：1.缓存：将常用的数据缓存在Redis中，以减少对数据库的访问次数，提高应用程序的性能。2.会话管理：使…

阅读更多...

用Python采集热门城市景点数据并简单制作数据可视化图

用Python采集热门城市景点数据并简单制作数据可视化图

前言嗨喽~大家好呀，这里是魔王呐 ❤ ~! 模块使用： 爬虫部分: requests parsel csv 数据分析部分: pandas pyecharts 如何安装模块: win R 输入 cmd 输入安装命令： pip install 模块名回车 pycharm里面安装 terminal 输入安装命令…

阅读更多...

推荐文章

最新文章