优化器调整策略

优化器调整策略

news2025/7/4 1:34:50

损失函数的作用是衡量模型输出与真实标签的差异。当我们有了这个loss之后，我们就可以通过反向传播机制得到参数的梯度，那么我们如何利用这个梯度进行更新参数使得模型的loss逐渐的降低呢？

优化器的作用

Pytorch的优化器： 管理并更新模型中可学习参数的值，使得模型输出更接近真实标签。

Optimizer的基本属性

在这里插入图片描述

optimizer = torch.optim.SGD(model.parameters(), lr=args.lr, momentum=args.momentum, weight_decay=args.weight_decay)

defaults: 优化器超参数，里面会存储一些学习率， momentum的值，衰减系数等
state: 参数的缓存，如momentum的缓存（使用前几次梯度进行平均）
param_groups: 管理的参数组，这是个列表，每一个元素是一个字典，在字典中有key，key里面的值才是我们真正的参数（这个很重要，进行参数管理）
_step_count: 记录更新次数，学习率调整中使用，比如迭代100次之后更新学习率的时候，就得记录这里的100.

Optimizer的基本方法

在这里插入图片描述

zero_grad()： 梯度清零。清空所管理参数的梯度，这里注意Pytorch有一个特性就是张量梯度不自动清零
step(): 执行一步更新
add_param_group(): 添加参数组, 我们知道优化器管理很多参数，这些参数是可以分组的，我们对不同组的参数可以设置不同的超参数，比如模型finetune中，我们希望前面特征提取的那些层学习率小一些，而后面我们新加的层学习率大一些更新快一点，就可以用这个方法。
state_dict(): 获取优化器当前状态信息字典
load_state_dict(): 加载状态信息字典，这两个方法用于模型断点的一个续训练，所以我们在模型训练的时候，一般多少个epoch之后就要保存当前的状态信息。
这里就是optimizer的__init__初始化部分了，可以看到上面介绍的那几个属性和它们的初始化方法，当然这里有个最重要的就是参数组的添加，我们看看是怎么添加的

这里重点说一下这个，我们还记得初始化SGD的时候传入了一个形参：optim.SGD(model.parameters(), lr=LR, momentum=0.9)，这里的model.parameters() 就是神经网络的每层的参数， SGD在初始化的时候，会把这些参数以参数组的方式再存起来，上图中的params就是神经网络每一层的参数。

def __init__(self, params, defaults):这里的params其实就是实参model.parameters() 传入进来的
这就是优化器的初始化工作了，初始化完了之后，我们就可以进行梯度清空，然后更新梯度即可：
在这里插入图片描述

动量

Momentum：结合当前梯度与上一次更新信息，用于当前更新。这么说可能有点抽象，那么我们可以举个比较形象的例子：
在这里插入图片描述

指数加权平均在时间序列中经常用于求取平均值的一个方法，它的思想是这样，我们要求取当前时刻的平均值，距离当前时刻越近的那些参数值，它的参考性越大，所占的权重就越大，这个权重是随时间间隔的增大呈指数下降，所以叫做指数滑动平均。公式如下：

在这里插入图片描述
vt 是当前时刻的一个平均值，这个平均值有两项构成

一项是当前时刻的参数值θt, 所占的权重是1 − β ，这个β是个参数。
另一项是上一时刻的一个平均值，权重是β。

假设我想求第100天温度的一个平均值，那么根据上面的公式：
在这里插入图片描述
我们发现，距离当前时刻越远的那些 θ 值，它的权重是越来越小的，因为 β 小于1，所以间隔越远，小于1的这些数连乘，权重越来越小，而且是呈指数下降，因为这里是βi 。

Momentum梯度下降：
当前梯度的更新量会考虑到之前梯度，上一时刻的梯度，前一时刻的梯度，这样一直往前，只不过越往前权重越小而已。

model.state_dict 和 optimizer.state_dict

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/931484.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

校对的力量：当专业遇上细节，文字焕发新生

校对的力量：当专业遇上细节，文字焕发新生

在这个信息爆炸的时代，文字成为了我们传达思想、展现形象的重要工具。从新闻稿、政府材料到商业文档，其背后的准确性和专业性往往决定了信息传递的效果。而保证这一切的，就是细致入微的校对工作。 1.错别字与校对：细节之美错别字…

阅读更多...

单机MySQL的演进

单机MySQL的演进

2、单机MySQL的演进我们当前处于大数据时代，大数据一般的数据库无法进行分析处理了！2006年发布了Hadoop 1、单机MySQL的年代某知名购物网站最开始就是到国外购买的PHP网站，拿过来就能直接使用，到后来也改成了Java。早期网站的数…

阅读更多...

【Flutter】Flutter 使用 just_audio 播放音频

【Flutter】Flutter 使用 just_audio 播放音频

【Flutter】Flutter 使用 just_audio 播放音频文章目录一、前言二、环境与版本信息三、安装和基本使用四、深入 just_audio五、实际业务中的用法六、完整示例七、总结一、前言今天，我要为你介绍一个非常实用的 Flutter 音频处理包——just_audio。这个包不仅功…

阅读更多...

IDEA软件安装包分享

IDEA软件安装包分享

目录一、软件简介二、软件下载一、软件简介 IntelliJ IDEA是一款流行的Java集成开发环境（IDE），由捷克软件开发公司JetBrains开发。它专为Java开发人员设计，提供了许多高级功能和工具，使得开发人员能够更高效地编写…

阅读更多...

《深入理解Java虚拟机》读书笔记：运行时栈帧结构

《深入理解Java虚拟机》读书笔记：运行时栈帧结构

代码编译的结果从本地机器码转变为字节码，是存储格式发展的一小步，却是编程语言发展的一大步。一、概述在Java虚拟机规范中制定了虚拟机字节码执行引擎的概念模型，这个概念模型成为各种虚拟机执行引擎的统一外观（Facade&#x…

阅读更多...

FrameWork之旅 -- Android_input浅析

FrameWork之旅 -- Android_input浅析

最近工作超级忙，周末了，看了下博客，今年居然没有更新过博客，看来还是搬砖太忙了。通过3个小时的代码梳理后，下图是个人对input的简单分析，后面如果有精力，会有更新。

阅读更多...

AcWing算法提高课-5.5.1可见的点

AcWing算法提高课-5.5.1可见的点

宣传一下算法提高课整理 CSDN个人主页：更好的阅读体验原题链接题目描述在一个平面直角坐标系的第一象限内，如果一个点 ( x , y ) (x,y) (x,y) 与原点 ( 0 , 0 ) (0,0) (0,0) 的连线中没有通过其他任何点，则称该点在原点处是可见的。…

阅读更多...

第一个react应用程序并添加样式

第一个react应用程序并添加样式

编写第一个react应用程序将目录下的文件、src文件夹、public文件夹清空，项目根目录下新建一个文件index.js 在文件中写入以下代码 import React from react import ReactDOM from react-dom ReactDOM.render(<h1>欢迎进入React的世界</h1>,document.…

阅读更多...

【LeetCode-中等题】54. 螺旋矩阵

【LeetCode-中等题】54. 螺旋矩阵

文章目录题目方法一：按层模拟题目方法一：按层模拟思路就是定义四个指针边界，按顺序扫完一遍，再缩小区域再扫描 public List<Integer> spiralOrder(int[][] matrix) {List<Integer> order new ArrayList<Int…

阅读更多...

【IO进程线程】使用标准IO函数完成用户的登录和注册

【IO进程线程】使用标准IO函数完成用户的登录和注册

1 实现登录功能自定义一个usr.txt，先手动输入其账户密码。格式：账户密码例： zhangsan 12345 lisi abcde wangwu abc123 需求如下： 1. 从终端获取账户密码，与文件中的账户密码比较； 2. 若终端输入的账户…

阅读更多...

胖小酱之麻雀虽小

胖小酱之麻雀虽小

麻雀虽小，五脏俱全的意思：比喻事物的体积或规模虽小，具备的内容却很齐全。释义：比喻事物体积或规模虽小，具备的内容却很齐全。出处：茹志娟《如愿》：你别看我们那个生产小组不大，麻雀…

阅读更多...

web自动化框架：selenium学习使用操作大全（Python版）

web自动化框架：selenium学习使用操作大全（Python版）

目录一、浏览器驱动下载二、selenium-python安装（打开网站、操作元素）三、网页解析（HTML、xpath）四、selenium基本操作1、元素定位八种方法2、元素动态定位3、iframe切换4、填充表单_填充文本框5、填充表单_单选按钮6、填充表单_…

阅读更多...

XGBoost,LightGBM

XGBoost,LightGBM

目录 XGBoost LightGBM Boosting 框架的主流集成算法，包括 XGBoost 和 LightGBM。送上完整的思维导图： XGBoost XGBoost 是大规模并行 boosting tree 的工具，它是目前最快最好的开源 boosting tree 工具包，比常见的工具包快 1…

阅读更多...

如何将多个网页合并成一个PDF文件？

如何将多个网页合并成一个PDF文件？

pdfFactory是一款PDF虚拟打印软件，但与其他虚拟打印机软件不同的是，它使用起来更加简单高效。由于无需Acrobat就能生成Adobe PDF文件，它可以帮助用户在系统没有连接打印机的情况下，将大部分支持打印的文档资料迅速转换成PDF文件&a…

阅读更多...

代码随想录第29天|491.递增子序列,46.全排列，47.全排列II

代码随想录第29天|491.递增子序列,46.全排列，47.全排列II

491.递增子序列 491. 递增子序列这道题的特点是有序的子序列(不能对原数组排序)，最终结果集res不能有重复子集。所以这道题又是子集又是去重回溯三部曲 1.递归函数参数本题求子序列，很明显一个元素不能重复使用，所以需要startIndex&a…

阅读更多...

无人机自主飞行实战入门-第一课（简介）

无人机自主飞行实战入门-第一课（简介）

研究的意义：对人类操作的严重依赖，严重阻碍了泛无人机行业的发展。飞行汽车（UAM）即将到来，不论是从成本还是安全考虑都需要自主飞行。传统飞控基于STM32架构设计，无法满足更智能功能所需的计算量&#xf…

阅读更多...

机器学习简介[01/2]：简单线性回归

机器学习简介[01/2]：简单线性回归

Python 中的机器学习简介：简单线性回归一、说明简单线性回归为机器学习提供了优雅的介绍。它可用于标识自变量和因变量之间的关系。使用梯度下降，可以训练基本模型以拟合一组点以供未来预测。二、技术背景这是涵盖回归、梯度下降、分类和机器学习的其…

阅读更多...

QT概括-Rainy

QT概括-Rainy

Qt 虽然经常被当做一个 GUI 库，用来开发图形界面应用程序，但这并不是 Qt 的全部；Qt 除了可以绘制漂亮的界面（包括控件、布局、交互），还包含很多其它功能，比如多线程、访问数据库、图像处理、音频…

阅读更多...

为Android做一个ShowModal窗口

为Android做一个ShowModal窗口

大家知道，用Delphi实现一个Form，并用ShowModal显示出来，在Android平台是非阻塞的，即执行了Form.ShowModal，代码会继续往下执行而不是等待，这跟在Windows平台是完全不一样的。如果我们需要类似阻塞的效果&am…

阅读更多...

使用eclipse编写Java代码：将缩进用空格，而不用Tab

使用eclipse编写Java代码：将缩进用空格，而不用Tab

在菜单中选择Window->Preferences： 选择Java下面的Formatter： 点击Edit按钮，在弹出窗口中，Tab policy选择Spaces only： 将Profile name改为一个其它的名字才能保存： 以后新创建的函数、类缩进就…

阅读更多...

推荐文章

最新文章