卷积神经网络-学习率

news2025/7/15 11:18:58

文章目录

一、学习率的定义
二、学习率的作用
三、学习率的调整方法
- 1.有序调整
- - (1).有序调整StepLR(等间隔调整学习率）
  - (2).有序调整MultiStepLR(多间隔调整学习率)
  - (3).有序调整ExponentialLR (指数衰减调整学习率)
  - (4).有序调整CosineAnnealing (余弦退火函数调整学习率)
- 2.自适应调整ReduceLROnPlateau (根据指标调整学习率)
- 3.自定义调整LambdaLR (自定义调整学习率)
四、学习率的设置建议
五、总结

卷积神经网络（CNN）中的学习率是一个至关重要的超参数，它决定了在训练过程中模型权值和偏置项更新的步长。以下是对学习率的详细解析：

一、学习率的定义

学习率是指在反向传播训练过程中，模型的权值和偏置项的更新步长。它控制着参数更新的幅度，进而影响模型学习的速度和效果。

二、学习率的作用

控制学习速度：学习率的大小决定了网络学习速度的快慢。较大的学习率可以加快网络的收敛速度，但也可能导致参数在最优解附近震荡，甚至错过最优解。相反，较小的学习率虽然可以避免错过最优点，但会使网络学习速度变慢。
影响收敛性：合适的学习率能够使代价函数以合适的速度收敛到最小值，从而得到最优的模型参数。

三、学习率的调整方法

Pytorch学习率调整策略通过 torch.optim.lr_sheduler 接口实现。并提供3种调整方法：

1.有序调整

(1).有序调整StepLR(等间隔调整学习率）

torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1)

参数：

optimizer: 神经网络训练中使用的优化器，如optimizer=torch.optim.Adam(…)
step_size(int): 学习率下降间隔数，单位是epoch，而不是iteration.
gamma(float):学习率调整倍数，默认为0.1
每训练step_size个epoch，学习率调整为lr=lr*gamma.

按照固定的间隔（step_size）调整学习率，每次调整时学习率都会乘以一个给定的衰减因子（gamma）。这种调度器适用于那些希望学习率在训练过程中逐渐降低，但又不想使用更复杂的衰减策略（如指数衰减或多项式衰减）的场景。

(2).有序调整MultiStepLR(多间隔调整学习率)

torch.optim.lr_shceduler.MultiStepLR(optimizer, milestones, gamma=0.1)

参数：

milestone(list): 一个列表参数，表示多个学习率需要调整的epoch值，如milestones=[10, 30, 80].

在这里插入图片描述

允许学习率在达到预设的“里程碑”（milestones）时进行调整。每当训练过程中的某个“里程碑”被触发时，学习率就会乘以一个给定的衰减因子（gamma）。

(3).有序调整ExponentialLR (指数衰减调整学习率)

torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma)

参数：

gamma (float): 学习率衰减的乘数因子。在每个epoch（或迭代）结束时，学习率会被更新为 lr = lr * gamma。

按照指数衰减的方式调整学习率。这种调度器在每个epoch（或迭代）结束时，将学习率乘以一个给定的衰减因子（gamma），从而实现学习率的指数级下降。

(4).有序调整CosineAnnealing (余弦退火函数调整学习率)

torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0)

参数：

Tmax(int):学习率下降到最小值时的epoch数，即当epoch=T_max时，学习率下降到余弦函数最小值，当epoch>T_max时，学习率将增大；
etamin: 学习率调整的最小值，即epoch=Tmax时，lrmin=etamin, 默认为0.

在这里插入图片描述

根据余弦退火（cosine annealing）策略调整学习率。在这种策略中，学习率随着每个epoch（或迭代）的增加而按照余弦函数周期性变化，从初始学习率减少到最小值eta_min，然后再增加回初始学习率（或接近初始学习率），如此循环，但周期长度逐渐减小。

2.自适应调整ReduceLROnPlateau (根据指标调整学习率)

torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode=‘min’, factor=0.1,
patience=10,verbose=False, threshold=0.0001, threshold_mode=‘rel’, cooldown=0, min_lr=0, eps=1e-08)

参数：