深度学习:调整学习率

news2024/9/30 4:53:56

目录

前言

一、什么是调整学习率?

二、调整学习率的作用

三、怎么调整学习率

1.有序调整

2.自适应调整

3.自定义调整

4.调整示例


前言

        在深度学习中,调整学习率是非常重要的,它对模型的训练效果和收敛速度有显著影响。

 

一、什么是调整学习率?

  1. 学习率是深度学习中一个关键的超参数,控制着模型在每次更新时权重的调整幅度。它决定了梯度下降算法在最小化损失函数时的步长。较大的学习率可能导致模型不收敛或震荡,而较小的学习率则可能使收敛速度过慢。因此,选择合适的学习率对于模型训练的成功至关重要。
  2. 常用的学习率有0.1、0.01以及0.001等,学习率越大则权重更新越快。一般来说,我们希望在训练初期学习率大一些,使得网络收敛迅速,在训练后期学习率小一些,使得网络更好的收敛到最优解。

 

二、调整学习率的作用

        调整学习率的目的是优化模型训练过程,提高收敛速度,并确保最终模型的性能。通过合理调整学习率,可以避免训练过程中的震荡或不收敛,帮助模型更有效地找到最优解,最终提升模型的泛化能力和准确性。

 

三、怎么调整学习率

  • Pytorch学习率调整策略通过 torch.optim.lr_sheduler 接口实现。

1.有序调整

  1. 等间隔调整(Step),
  2. 多间隔调整(MultiStep),
  3. 指数衰减(Exponential),
  4. 余弦退火(CosineAnnealing)

下图是不同方法的概念图:

代码展示:

"""有序调整学习率"""
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

"""等间隔调整"""
torch.optim.lr_scheduler.StepLR(optimizer, step_size=, gamma=0.1)
# optimizer: 神经网络训练中使用的优化器,
# step_size: 学习率下降间隔数,单位是epoch,而不是iteration.
# gamma:学习率调整倍数,默认为0.1
# 每训练step_size个epoch,学习率调整为lr=lr*gamma.

"""多间隔调整调整"""
torch.optim.lr_shceduler.MultiStepLR(optimizer, milestones=, gamma=0.1)
# milestone(list): 一个列表参数,表示多个学习率需要调整的epoch值,
# 如milestones=[10, 30, 80],即10轮时将gamma乘以学习率lr,30轮时、80轮时与10轮时操作一致

"""指数衰减"""
torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma=)
# gamma:学习率调整倍数的底数,指数为epoch,初始值为lr, 倍数为γepoch,每一轮都调整

"""余弦退火"""
torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=, eta_min=0)
# T_max:学习率下降到最小值时的epoch数,即当epoch=T_max时,学习率下降到余弦函数最小值,当epoch>T_max时,学习率将增大
# eta_min: 学习率调整的最小值,即epoch=T_max时,lr_min=eta_min, 默认为0.
 

 

2.自适应调整

  • 依训练状况伺机而变,通过监测某个指标的变化情况(loss、accuracy),当该指标不怎么变化时,就是调整学习率的时机(ReduceLROnPlateau)
"""根据指标调整学习率"""
torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1,patience=10,verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)
  • 参数解释:
  • optimizer: 需要调整学习率的优化器。
  • mode: 字符串,选择监控的指标类型。'min' 表示当被监控的指标停止下降时,学习率将减小; 'max' 表示当指标停止上升时减小学习率。
  • factor: 每次调整学习率时,学习率将乘以这个因子(通常在 0 到 1 之间)。例如,float = 0.1表示学习率减少到原来的 10%。
  • patience: 监控指标在没有改善时等待的 epochs 数。在这段时间内,如果指标没有改善,学习率将被调整。
  • verbose: 布尔值,是否在调整学习率时打印消息。
  • threshold: 改变学习率的最小阈值。如果变化小于该阈值,则认为没有改善。这个值可以是绝对值或相对值,具体取决于 threshold_mode
  • threshold_mode: 字符串, 'rel' 表示使用相对阈值(与当前值的比例), 'abs' 表示使用绝对阈值。
  • cooldown: 在学习率被减少后,允许继续训练的 epochs 数。在此期间,将不会调整学习率。
  • min_lr: 学习率的最小值,防止学习率降到过低。
  • eps: 一个很小的值,避免除以零的错误,通常在计算时用作保护。

 

3.自定义调整

  • 通过自定义关于epoch的lambda函数调整学习率(LambdaLR)。
torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda)
# 参数:
# lr_lambda(function or list): 自定义计算学习率调整倍数的函数,通常是epoch的函数,当有多个参数组时,设为list.

 

4.调整示例

  • 在每个epoch的训练中使用 scheduler.step() 即可进行学习率的更新
"""有序调整学习率"""
loss_fn = nn.CrossEntropyLoss()  # 处理多分类
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=5, gamma=0.5)  # 调整学习率

epochs = 50

for t in range(epochs):
    print(f"Epoch {t + 1}\n--------------")
    train(train_dataloader, model, loss_fn, optimizer)
    test(test_dataloader, model, loss_fn)
    scheduler.step()  # 在每个epoch的训练中.使用scheduler.step()语句进行学习率更新
print(best_acc)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2166849.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端问答:如何用 JavaScript 让 HTML Canvas全屏显示

哈喽,大家好!今天要跟大家分享一个非常实用的小技巧,适合那些正在学习前端开发的朋友们。你是不是也遇到过这样的问题:在制作一些网页小游戏、炫酷的网页动画或者数据可视化时,想让画布(Canvas)…

Ubuntu24.04 yum安装

安装yum: sudo apt-get install yum 执行报错 E: Package yum has no installation candidate 解决:更换镜像源,找到自己的系统版本(如本系统为Ubuntu24.04)用vim进行更换,网址: ubuntu | 镜…

26 基于STM32的智能门禁系统(指纹、蓝牙、刷卡、OLED、电机)

目录 一、主要功能 二、硬件资源 三、程序编程 四、实现现象 一、主要功能 基于STM32单片机,六个按键,分别代表指纹、蓝牙、刷卡的正确进门与错误进门; 比如第一个按键按下,表示指纹正确,OLED显示指纹正确&#x…

linux服务器部署filebeat

# 下载filebeat curl -L -O https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-7.17.23-linux-x86_64.tar.gz # 解压 tar xzvf filebeat-7.17.23-linux-x86_64.tar.gz# 所在位置(自定义) /opt/filebeat-7.17.23-linux-x86_64/filebeat.ym…

FreeRTOS——任务调度、任务状态

任务调度 调度器就是使用相关的调度算法来决定当前需要执行哪个任务。 FreeRTOS一共支持三种任务调度方式: 抢占式调度:主要是针对优先级不同的任务,每个任务都有一个优先级,优先级高的任务可以抢占优先级低的任务。&#xff08…

word批量裁剪图片,并调整图片大小,不锁定纵横比

在word中有若干图片待处理,裁剪出指定内容,调整成指定大小。如下是待处理的图片: 这时,选择视图,选择宏,查看宏 选择创建宏 添加cut_picture代码如下,其中上、下、左、右裁剪的橡塑尺寸根据自己…

【2】图像视频的加载和显示

文章目录 【2】图像视频的加载和显示一、代码在哪写二、创建和显示窗口(一)导入OpenCV的包cv2(二)创建窗口(三)更改窗口大小 & 显示窗口(四)等待用户输入补充:ord()函…

24最新ComfyUI搭建使用教程

前言 ComfyUI 是一个基于节点流程式的stable diffusion AI 绘图工具WebUI, 通过将stable diffusion的流程拆分成节点,实现了更加精准的工作流定制和完善的可复现性。 ComfyUI因为内部生成流程做了优化,生成图片时的速度相较于WebUI有10%~25…

关于字节 c++

字节的介绍 字节是计算机中最小的存储单位,通常由8个二进制位组成,用来存储一个字符。在C中,字节也是基本数据类型之一,用关键字"byte"来表示。字节主要用于存储一些较小的数据,如整数、字符等。字节的大小…

音频转MP3格式困难?如何轻松实现wav转mp3?

格式多样化为我们带来了灵活性和创意的无限可能,但同时,不同格式间的转换也成为了不少用户面临的难题。尤其是当你手握珍贵的WAV音频文件,却希望它们能在更多设备上流畅播放或节省存储空间时,wav转mp3的需求便应运而生。WAV以其无…

网络安全中的 EDR 是什么:概述和功能

专业知识:EDR、XDR、NDR 和 MDR_xdr edr ndr-CSDN博客 端点检测和响应 (EDR) 是一种先进的安全系统,用于检测、调查和解决端点上的网络攻击。它可以检查事件、检查行为并将系统恢复到攻击前的状态。EDR 使用人工智能、机器学习和威胁情报来避免再次发生攻…

c语言实现:链表创建、插入、删除、翻转

#include <stdio.h> #include <stdlib.h>// 链表创建 typedef struct Node{int data;struct Node* next; } Node;// 创建一个节点 Node* createNode(int data){Node* newNode (Node* )malloc(sizeof(Node));newNode->data data;newNode->next NULL;return…

35岁java转大模型笔记,大模型智能体(LLM Agent)学习笔记

\1. 什么是大模型&#xff1f; 大模型对应的英文是Large Language Model&#xff08;LLM&#xff09;&#xff0c;即大语言模型&#xff0c;简称大模型。技术层面讲&#xff0c;大模型是一种基于深度学习技术的机器学习模型。 为什么叫大模型呢&#xff1f;它是相对于小模型而…

万界星空科技铜拉丝行业MES系统,实现智能化转型

一、铜拉丝行业生产管理的难点主要体现在以下几个方面&#xff1a; 1、标准严格&#xff1a;铜线产品对质量的要求极高&#xff0c;特别是在电气性能、导电性、耐腐蚀性等方面&#xff0c;任何微小的瑕疵都可能影响产品的使用效果和安全性。 2、过程监控&#xff1a;生产过程…

点赞10万+,1分钟教会你,用AI生成的宠物带娃视频

今天刷到了这样的宠物带娃视频&#xff0c;最近这种视频爆火&#xff0c;出现了很多爆款&#xff0c;今天就拆解一下&#xff0c;教大家学会这种视频用AI如何生成。 我们先看一下这类视频的数据&#xff0c;很多账号都在做&#xff0c;对于不了解AI的人来说&#xff0c;会觉得…

轻松构建便民平台小程序源码系统 带完整的安装代码包以及搭建部署教程

系统概述 轻松构建便民平台小程序源码系统是一款集成了多项实用功能的模块化小程序开发框架。它基于当前最流行的小程序开发技术栈&#xff0c;如微信小程序、支付宝小程序等&#xff0c;通过预制的组件和模块&#xff0c;极大地简化了开发流程&#xff0c;降低了技术门槛。无…

Google BigTable架构详解

文章目录 什么是BigTable?架构图一、整体架构二、数据存储与索引存储模型 三、数据拆分与存储四、元数据管理五、读写流程 其他内容概览负载平衡其他存储和数据库选项 什么是BigTable? Bigtable是Google开发的一个高性能、可扩展的分布式存储系统&#xff0c;用于管理大规模…

Error running Application.Command line is too long

问题解析 本质上就是执行启动类Application的时候&#xff0c;执行的指令太长了&#xff0c;所以运行失败。 解决方案 1.打开Edit Configuration。 2.点击Modify options 3.勾选 Shorten command line 4.选择classpath file。 最终解决问题。

深入理解包管理工具

目录 引入npm配置文件常见属性版本理解package-lock.jsonnpm install其他命令发布自己的包 yarncnpmnpxpnpm安装和使用硬链接和软链接非扁平node\_modules存储store 引入 随着前端技术的发展&#xff0c;项目依赖的第三方库和工具越来越多&#xff08;例如&#xff1a;React、V…