深度学习优化方法

news2025/3/10 5:53:56

如有错误，感谢不吝赐教、交流

文章目录

一、梯度下降
- 如何选择学习率
- - 不能太小
  - 不能太大
二、小批量随机梯度下降
- 如何选择批量大小
- - 不能太小
  - 不能太大
- 总结
三、常用优化方法
- SGD
- Adagrad
- Adam
- 实现
- 大佬经验

一、梯度下降

在这里插入图片描述

如何选择学习率

不能太小

在这里插入图片描述
以缓慢的速度接近最优值，开销太大

不能太大

在这里插入图片描述
来回震荡，不一定在下降

二、小批量随机梯度下降

在这里插入图片描述

如何选择批量大小

不能太小

每次计算量太小，不适合并行来最大利用计算资源

不能太大

内存消耗增加
浪费计算，例如如果每次所有样本都是相同的

总结

1.梯度下降通过不断沿着反梯度方向更新参数求解
2.小批量随机梯度下降是深度学习默认的求解算法
3.两个重要的超参数是批量大小和学习率

三、常用优化方法

SGD

现在的SGD一般都指mini-batch gradient descent。
SGD就是每一次迭代计算mini-batch的梯度，然后对参数进行更新。
在这里插入图片描述

存在缺点：

选择合适的learning rate比较困难，对所有的参数更新使用同样的learning rate。对于稀疏数据或者特征，有时我们可能想更新快一些对于不经常出现的特征，对于常出现的特征更新慢一些，这时候SGD就不太能满足要求了

SGD容易收敛到局部最优，并且在某些情况下可能被困在鞍点[在合适的初始化和step size的情况下，鞍点的影响并没这么大]
一般情况下使用mini-SGD

Adagrad

对学习率加上一个约束。
在这里插入图片描述
特点：

前期g_t较小的时候， regularizer较大，能够放大梯度
后期g_t较大的时候，regularizer较小，能够约束梯度
适合处理稀疏梯度

缺点：

由公式可以看出，仍依赖于人工设置一个全局学习率
学习率设置过大的话，会使regularizer过于敏感，对梯度的调节太大
中后期，分母上梯度平方的累加将会越来越大，使gradient->0 ，使得训练提前结束

Adam

本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳
在这里插入图片描述
特点：

结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点
对内存需求较小
为不同的参数计算不同的自适应学习率
适用于大多非凸优化 - 适用于大数据集和高维空间

实现

from torch import optim
# 通过直接调用optim的对应方法实现
optimizer_adam = optim.Adam(model.parameters(), lr=0.001)
optimizer_sgd = optim.SGD(model.parameters(), lr=0.001)
optimizer_adagrad = optim.adagrad(model.parameters(), lr=0.001)

大佬经验

对于稀疏数据，尽量使用学习率可自适应的优化方法，不用手动调节，而且最好采用默认值
SGD通常训练时间更长，但是在好的初始化和学习率调度方案的情况下，结果更可靠
如果在意更快的收敛，并且需要训练较深较复杂的网络时，推荐使用学习率自适应的优化方法。
Adadelta，RMSprop，Adam是比较相近的算法，在相似的情况下表现差不多。
在想使用带动量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果

推荐使用Adam试试

参考资料：
深度学习最全优化方法总结比较
李沐老师

ps:计划每日更新一篇博客，今日2023-04-18，日更第二天，昨日更新：网格贪心搜索逼近最优组合解。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/433591.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

深度学习优化方法

文章目录

一、梯度下降

如何选择学习率

不能太小

不能太大

二、小批量随机梯度下降

如何选择批量大小

不能太小

不能太大

总结

三、常用优化方法

SGD

Adagrad

Adam

实现

大佬经验

相关文章

sqoop的介绍与安装

从单兵作战到生态共创，纵目科技打响智驾2.0新战役

15-721 Chapter8 数据分布model分析

真的很迷茫！

vue 中quill-editor富文本图片和视频上传功能

大数据分析案例-基于XGBoost算法构造房屋租赁价格评估模型

asp.net+sqlserver基于web的在校大学生贷款管理系统

HTML5 ＜output＞标签、HTML5 ＜optgroup＞标签

达索系统基于系统工程的AUTOSAR设计端到端解决方案 | 达索系统百世慧®

项目设计：迷宫游戏设计day2

JVM系统优化实践（17）：线上GC案例（二）

设计模式-行为型模式之中介者模式

初识 MongoDB

煤矿电子封条视频监控系统 yolov7

（原创）Flutter基础入门：装饰器Decoration

经典回顾丨同为科技（TOWE）在2008年奥运场馆防雷建设中都做了什么？

代理设计模式解读

同为科技（TOWE）机柜PDU电源插头类型详解

leetcode24. 两两交换链表中的节点

什么是机器学习？