深度学习模型训练中 学习率参数 设置大小问题及设置合适值

news2024/10/23 2:53:04

在这里插入图片描述

💪 专业从事且热爱图像处理,图像处理专栏更新如下👇:
📝《图像去噪》
📝《超分辨率重建》
📝《语义分割》
📝《风格迁移》
📝《目标检测》
📝《暗光增强》
📝《模型优化》
📝《模型实战部署》

😊总结不易,多多支持呀🌹感谢您的点赞👍收藏⭐评论✍️,您的三连是我持续更新的动力💖


在这里插入图片描述

目录

  • 一、学习率大小问题
    • 1.1 学习率太大问题
    • 1.2 学习率太小问题
  • 二、设置合适的学习率
    • 2.1 学习率预热和逐步衰减
    • 2.2 使用学习率调度器
      • 2.2.1 StepLR
      • 2.2.2 MultiStepLR
      • 2.2.3 ExponentialLR
      • 2.2.4 CosineAnnealingLR
      • 2.2.5 ReduceLROnPlateau
      • 2.2.6 CyclicLR
      • 2.2.7 OneCycleLR
      • 2.2.8 CosineAnnealingWarmRestarts
      • 2.2.9 LambdaLR
      • 2.2.10 PolynomialLR
      • 2.2.11 代码
    • 2.3 使用自适应学习率优化器
    • 2.4 学习率查找器
    • 2.5 经验和试验
    • 2.6 逐层调节学习率
  • 三、梯度裁剪
  • 四、总结

一、学习率大小问题

1.1 学习率太大问题

在深度学习训练过程中,如果设置的学习率过大,会导致以下几个问题:

训练过程不稳定
过大的学习率会导致权重更新幅度过大,使得损失函数的值在每次迭代中剧烈波动。模型的参数可能不断在损失函数的不同区域之间跳跃,导致训练过程不稳定,甚至可能出现发散的情况。

无法收敛
由于每次更新的步伐太大,模型可能永远无法到达或接近全局最优点或局部最优点。损失函数的值不会稳定在一个较低的范围内,模型的性能无法提高,训练也无法收敛。

梯度爆炸
在使用较大学习率时,可能会导致梯度爆炸的问题。梯度值会变得非常大,导致参数更新变得极其巨大。这不仅使得训练变得极其困难,还可能使参数达到极端值,进一步加剧训练的不稳定性。

性能不佳
即使模型勉强收敛,最终得到的模型性能也往往不佳。这是因为参数在损失函数表面上跳跃过大,无法精细调整到最优解附近,导致模型的泛化能力较差,表现不理想。

1.2 学习率太小问题

学习率衰减得太早,可能会导致以下几种情况:

训练过程变得缓慢
当学习率衰减得太早,模型参数更新的步伐变小,导致每次迭代的权重调整幅度减小。这可能会使得模型在全局最优解附近的搜索速度变得非常缓慢,导致训练时间大大增加。

模型可能会停留在局部最优
如果学习率衰减得太早,模型的参数更新步伐变小,可能会使得模型更容易陷入局部最优,而无法跳出这些局部最优去寻找全局最优解。这是因为较小的学习率降低了模型在损失函数表面进行大幅度搜索的能力。

未能充分利用初始高学习率阶段
在训练初期,较高的学习率有助于模型快速收敛,找到一个较优的解。如果学习率过早衰减,模型未能充分利用初始高学习率阶段的快速收敛特性,可能导致模型训练效率降低,甚至不能达到理想的初始收敛效果。

模型训练不充分
在训练的早期阶段,模型的参数还在快速调整过程中。如果此时学习率过早衰减,模型可能还没有充分训练到一个较好的状态,导致最终的模型性能不理想。早期的参数更新需要较大的步伐来适应复杂的损失表面结构,而过早衰减的学习率会限制这种能力。

二、设置合适的学习率

选择和调整合适的学习率是深度学习训练中至关重要的一部分。

2.1 学习率预热和逐步衰减

在训练开始时,使用较低的学习率,然后逐步增加到目标学习率(预热阶段),接着在训练过程中逐步衰减学习率。

具体实现代码见下:

import torch
import torch.nn as nn
import torch.optim as optim

# 假设我们有一个简单的神经网络
model = nn.Sequential(
    nn.Linear(10, 50),
    nn.ReLU(),
    nn.Linear(50, 1)
)

optimizer = optim.SGD(model.parameters(), lr=0.1)
criterion = nn.MSELoss()

# 使用 StepLR 和学习率预热
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1)

for epoch in range(100):
    optimizer.zero_grad()
    outputs = model(torch.randn(32, 10))
    loss = criterion(outputs, torch.randn(32, 1))
    loss.backward()
    optimizer.step()
    scheduler.step()  # 更新学习率
    
    print(f'Epoch {epoch+1}, Loss: {loss.item()}, LR: {scheduler.get_last_lr()[0]}')

2.2 使用学习率调度器

PyTorch 提供了多种学习率调度器,可以在训练过程中根据不同策略调整学习率。Pytorch提供的常用学习率调度器见下,这些调度器的具体使用代码见本小结最后。

2.2.1 StepLR

按照固定步长衰减学习率。

import torch.optim as optim

# StepLR: 每隔 step_size 个 epoch,学习率乘以 gamma
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1)

2.2.2 MultiStepLR

在预定义的 epoch 列表中进行学习率衰减。

# MultiStepLR: 在 milestones 列表中指定的 epoch,学习率乘以 gamma
scheduler = optim.lr_scheduler.MultiStepLR(optimizer, milestones=[30, 80], gamma=0.1)

2.2.3 ExponentialLR

以指数衰减的方式调整学习率。

# ExponentialLR: 每个 epoch,学习率乘以 gamma
scheduler = optim.lr_scheduler.ExponentialLR(optimizer, gamma=0.9)

2.2.4 CosineAnnealingLR

使用余弦退火方法调整学习率。

# CosineAnnealingLR: 在 T_max 个 epoch 内从初始学习率衰减到 eta_min
scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=50, eta_min=0)

2.2.5 ReduceLROnPlateau

当监控的指标停止改善时,降低学习率。也叫监控验证损失。

# ReduceLROnPlateau: 当指标(如验证损失)不再改善时降低学习率
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=True)

2.2.6 CyclicLR

在指定的范围内循环调整学习率。

# CyclicLR: 在 base_lr 和 max_lr 之间循环学习率
scheduler = optim.lr_scheduler.CyclicLR(optimizer, base_lr=0.001, max_lr=0.01, step_size_up=2000, mode='triangular')

2.2.7 OneCycleLR

在一个周期内调整学习率,适合于一种特定的学习率调整策略。

# OneCycleLR: 在一个周期内从初始学习率调整到 max_lr 再回到初始学习率
scheduler = optim.lr_scheduler.OneCycleLR(optimizer, max_lr=0.01, steps_per_epoch=len(dataloader), epochs=10)

2.2.8 CosineAnnealingWarmRestarts

使用余弦退火方法,并进行周期性重启。也叫热重启策略。

# CosineAnnealingWarmRestarts: 使用余弦退火并周期性重启
scheduler = optim.lr_scheduler.CosineAnnealingWarmRestarts(optimizer, T_0=10, T_mult=2)

2.2.9 LambdaLR

使用自定义的函数调整学习率。

# LambdaLR: 使用自定义函数调整学习率
lambda1 = lambda epoch: 0.65 ** epoch
scheduler = optim.lr_scheduler.LambdaLR(optimizer, lr_lambda=lambda1)

2.2.10 PolynomialLR

PolynomialLR调度器在 PyTorch 1.12 版本中引入,可以将学习率按多项式递减。

# PolynomialLR: 按多项式递减学习率
scheduler = optim.lr_scheduler.PolynomialLR(optimizer, total_iters=50, power=2.0)

2.2.11 代码

以下是一个使用这些调度器的示例:

import torch
import torch.nn as nn
import torch.optim as optim

# 定义一个简单的模型
model = nn.Sequential(
    nn.Linear(10, 50),
    nn.ReLU(),
    nn.Linear(50, 1)
)

# 使用 SGD 优化器
optimizer = optim.SGD(model.parameters(), lr=0.1)
criterion = nn.MSELoss()

# 选择一个学习率调度器
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1)

for epoch in range(100):
    optimizer.zero_grad()
    outputs = model(torch.randn(32, 10))
    loss = criterion(outputs, torch.randn(32, 1))
    loss.backward()
    optimizer.step()
    scheduler.step()  # 更新学习率
    
    print(f'Epoch {epoch+1}, Loss: {loss.item()}, LR: {scheduler.get_last_lr()[0]}')

输出见下:
在这里插入图片描述

2.3 使用自适应学习率优化器

自适应学习率优化器(如 Adam、RMSprop、Adagrad)能够根据梯度自动调整学习率,避免手动调整的麻烦。

具体实现代码见下:

import torch
import torch.nn as nn
import torch.optim as optim

model = nn.Sequential(
    nn.Linear(10, 50),
    nn.ReLU(),
    nn.Linear(50, 1)
)

# 使用 Adam 优化器
optimizer = optim.Adam(model.parameters(), lr=0.001)
criterion = nn.MSELoss()

for epoch in range(100):
    optimizer.zero_grad()
    outputs = model(torch.randn(32, 10))
    loss = criterion(outputs, torch.randn(32, 1))
    loss.backward()
    optimizer.step()
    
    print(f'Epoch {epoch+1}, Loss: {loss.item()}, LR: {optimizer.param_groups[0]["lr"]}')

2.4 学习率查找器

使用学习率查找器(如 fastai 提供的 LRFinder),可以通过线性增长学习率来找到一个合适的初始学习率。

from fastai.vision.all import *

# 假设我们有一个数据集和模型
dls = ImageDataLoaders.from_folder(path, valid_pct=0.2, item_tfms=Resize(224))
learn = cnn_learner(dls, resnet34, metrics=error_rate)

# 使用学习率查找器
learn.lr_find()

2.5 经验和试验

根据经验和实验选择合适的学习率,通常可以从一个较大的值(如 0.1)开始,观察损失和准确率的变化。如果模型发散(损失剧增),减小学习率;如果收敛很慢,增加学习率。

2.6 逐层调节学习率

在一些复杂的网络结构中,可以对不同层使用不同的学习率。例如,对较低层使用较低的学习率,对较高层使用较高的学习率。

实例代码见下:

import torch
import torch.nn as nn
import torch.optim as optim

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, 3, 1)
        self.conv2 = nn.Conv2d(32, 64, 3, 1)
        self.fc1 = nn.Linear(9216, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = torch.flatten(x, 1)
        x = self.fc1(x)
        x = self.fc2(x)
        return x

model = MyModel()

optimizer = optim.SGD([
    {'params': model.conv1.parameters(), 'lr': 0.01},
    {'params': model.conv2.parameters(), 'lr': 0.01},
    {'params': model.fc1.parameters(), 'lr': 0.1},
    {'params': model.fc2.parameters(), 'lr': 0.1}
], lr=0.1)

criterion = nn.CrossEntropyLoss()

for epoch in range(100):
    optimizer.zero_grad()
    outputs = model(torch.randn(32, 1, 28, 28))
    loss = criterion(outputs, torch.randint(0, 10, (32,)))
    loss.backward()
    optimizer.step()
    
    print(f'Epoch {epoch+1}, Loss: {loss.item()}')

三、梯度裁剪

梯度裁剪可以防止梯度爆炸。通过在每次反向传播后对梯度进行裁剪,确保其不会超过设定的阈值。

实例代码:

for epoch in range(100):
    optimizer.zero_grad()
    outputs = model(torch.randn(32, 10))
    loss = criterion(outputs, torch.randn(32, 1))
    loss.backward()
    
    # 梯度裁剪
    torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
    
    optimizer.step()
    
    print(f'Epoch {epoch+1}, Loss: {loss.item()}')

四、总结

以上就是深度学习模型训练中学习率参数设置大小问题及设置合适值的分析过程,总结了一部分,欢迎留言补充!

感谢您阅读到最后!😊总结不易,多多支持呀🌹 点赞👍收藏⭐评论✍️,您的三连是我持续更新的动力💖

关注公众号「视觉研坊」,获取干货教程、实战案例、技术解答、行业资讯!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1844300.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

对30年国债利率破2.5%的复盘反思

短期看,以月为维度,长端和超长端利率依然具有较强的向下突破的惯性;中期看,以季为维度,长端依然面临向下赔率不足的约束,但调整需要多重利空共振的契机。 短期看多,逢高配置”的四点逻辑 逻辑一…

SpringBoot:SpringBoot集成Druid监控慢SQL

一、前言 数据库连接池是一个至关重要的组成部分,一个优秀的数据库连接池可以显著提高应用程序的性能和可伸缩性。常见的连接池:Druid、HikariCP、C3P0、DBCP等等,不过目前大部分都是使用Druid或者SpringBoot默认的HikariCP! 本文…

计算机网络 交换机的基本配置

一、理论知识 1.三种模式: ①用户模式:当登录路由器后,系统自动进入用户EXEC命令模式。 例如: Router> 在用户模式状态下,用户只能查看路由器的连接状态和基本信息,访问其他网络和主机&#xff0c…

lombok常用注解使用与原理

什么是lombok 一个优秀的Java代码库&#xff0c;简化了Java的编码&#xff0c;为Java代码的精简提供了一种方式 使用方法&#xff1a;pom文件中引入依赖 <!--scope&#xff1a;provided&#xff0c;只在编译阶段生效&#xff0c;不需要打入包中--> <dependency>…

AI 编译器技术分享会:上海交大/中科院计算所/微软亚研/智源,他们来了!

4 场 Meetup、3 个城市、19 位嘉宾、1k 行业从业者、累计 100w 曝光&#xff0c; 2023 年 AI 编译器社区小小刷新了一下存在感&#xff0c;我们在非常细分的领域里找到了最为垂直的开发者和工程师&#xff0c;从 0 到 1 建立起一个个小据点&#xff0c;搭建交流平台、促成企内合…

求最小生成树的新算法

不管 prim 算法还是 kruskal 算法都基于 “当前可见最短边” 作贪心策略&#xff0c;但这并不适合分布式并行操作&#xff0c;比方说所有节点一起构建最小生成树&#xff0c;这些算法都显得同步开销过大&#xff0c;甚至导出错误的结果。 最近研究并构建最大流多路径传输协议的…

韩顺平0基础学Java——第27天

p548-568 明天开始坦克大战 Entry 昨天没搞明白的Map、Entry、EntrySet&#xff1a;//GPT教的 Map 和 Entry 的关系 1.Map 接口&#xff1a;它定义了一些方法来操作键值对集合。常用的实现类有 HashMap、TreeMap 等。 2. Entry接口&#xff1a;Entry 是 Map 接口的一个嵌…

【高等数学】傅里叶级数

最近刷了会抖音&#xff0c;看到一个非常有趣的现象&#xff1a;傅里叶级数&#xff0c;今天挑了几个视频来供大家学习。 1.傅里叶级数概念 【小崔说数】傅里叶级数专题https://www.bilibili.com/video/BV1Uq4y1q7xk?t117.4 2.傅里叶级数动画 【谜之舒适】12分钟的傅立叶级…

编译原理:语法分析(语法制导翻译)、语义分析(类型检查、中间代码生成)

编译器在做语法分析的过程中&#xff0c;除了回答程序代码的语法是否合法&#xff08;LL,LR能否接收&#xff09;外&#xff0c;还需要完成后续的工作&#xff08;包括构建语法树、类型检查、中间代码生成、目标代码生成&#xff09;&#xff0c;这些后续工作一般都可以通过语法…

国产芯片方案/血氧仪方案SIC88336

血氧仪是用来测量脉率、血氧浓度以及灌注指数的仪器设备&#xff0c;血氧浓度是临床医疗上重要的基础数据之一。如果有条件&#xff0c;人们应该时刻监测自己的血氧饱和度&#xff0c;对自己的健康更加有利。下面是详细知识说明。 一、血氧仪方案开发原理 该方案一种检测方式是…

SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion

SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion 文章目录 SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion1. 论文背景1.1 通道独立-通道依赖的区别1.2 论文贡献 2. 模型架构2.1 SOFTS的主要架构2.2 STAR 模…

家用洗地机哪个牌子的好用性价比高?热销品牌型号推荐

洗地机在市场上越来越受到人们的欢迎&#xff0c;它能够一次性完成吸尘、拖地和清洗的所有步骤&#xff0c;极大地提高了清洁效率&#xff0c;是减轻人们日常清洁负担的优秀家电&#xff0c;为了避免大家盲信挑选机器&#xff0c;我整理了一份洗地机选购指南&#xff0c;帮助大…

基于MATLAB的误码率与信噪比(附完整代码与分析)

目录 一. 写在前面 二. 如何计算误码率 三. 带噪声的误码率分析 3.1 代码思路 3.2 MATLAB源代码及分析 四. 总结 4.1 输入参数 4.2 规定比特长度 4.3 特殊形式比较 一. 写在前面 &#xff08;1&#xff09;本文章主要讨论如何仿真误码率随着信噪比变化的图像 &#…

原子性(juc编程)

原子性 概述&#xff1a;所谓的原子性是指在一次操作或者多次操作中&#xff0c;要么所有的操作全部都得到了执行并且不会受到任何因素的干扰而中断&#xff0c;要么所有的操作都不执行&#xff0c;多个操作是一个不可以分割的整体。 //比如说&#xff1a;你喂你女朋友吃冰淇…

户外LED显示屏的发展历程

户外LED显示屏自其问世以来&#xff0c;经历了显著的发展与变革。其技术不断进步&#xff0c;应用场景逐步扩大&#xff0c;并在广告、信息传播等领域发挥了重要作用。本文将梳理户外LED显示屏的发展历程&#xff0c;重点介绍其技术演进和应用拓展。 早期发展&#xff1a;直插式…

一文带你理清同源和跨域

1、概述 前后端数据交互经常会碰到请求跨域&#xff0c;什么是跨域&#xff0c;为什么需要跨域&#xff0c;以及常用有哪几种跨域方式&#xff0c;这是本文要探讨的内容。 同源策略(英文全称 Same origin policy)是浏览器提供的一个安全功能。同源策略限制了从同一个源加载的…

海外盲盒小程序搭建过程的最大挑战:文化差异与本地化

一、引言 随着全球化的深入发展&#xff0c;跨境电商和海外市场的拓展成为许多企业的重要战略方向。盲盒小程序作为一种新兴的消费模式&#xff0c;也在海外市场展现出巨大的潜力。然而&#xff0c;在海外搭建盲盒小程序并非易事&#xff0c;文化差异与本地化问题是其搭建过程…

计算最大数位-第13届蓝桥杯省赛Python真题精选

[导读]&#xff1a;超平老师的Scratch蓝桥杯真题解读系列在推出之后&#xff0c;受到了广大老师和家长的好评&#xff0c;非常感谢各位的认可和厚爱。作为回馈&#xff0c;超平老师计划推出《Python蓝桥杯真题解析100讲》&#xff0c;这是解读系列的第87讲。 计算最大数位&…

Qwen2大模型微调入门实战-命名实体识别(NER)任务(完整代码)

Qwen2是通义千问团队最近开源的大语言模型&#xff0c;由阿里云通义实验室研发。 以Qwen2作为基座大模型&#xff0c;通过指令微调的方式做高精度的命名实体识别&#xff08;NER&#xff09;&#xff0c;是学习入门LLM微调、建立大模型认知的非常好的任务。 使用LoRA方法训练&…

MySQL快速安装(mysql8.0.30区别之前yum安装)

目录 一.初始化环境并解压 二.创建程序用户管理 三.修改mysql目录和配置文件的权限 四.修改配置文件 五.设置环境变量&#xff0c;申明/宣告mysql命令便于系统识别 六.初始化数据库 七.设置系统识别&#xff0c;进行操作 八.初始化数据库密码 九.用户并设置密码 十.赋…