深度学习：Pytorch最全面学习率调整策略lr_scheduler

lr_scheduler.LambdaLR
lr_scheduler.MultiplicativeLR
lr_scheduler.StepLR
lr_scheduler.MultiStepLR
lr_scheduler.ConstantLR
lr_scheduler.LinearLR
lr_scheduler.ExponentialLR
lr_scheduler.PolynomialLR
lr_scheduler.CosineAnnealingLR
lr_scheduler.SequentialLR
lr_scheduler.ChainedScheduler
lr_scheduler.CyclicLR
lr_scheduler.OneCycleLR
lr_scheduler.CosineAnnealingWarmRestarts
lr_scheduler.ReduceLROnPlateau

此篇博客最全面地展现了pytorch各种学习率调整策略的参数、用法以及对应的示例曲线，学习率调整的策略主要分为四大类：指定方法调整（MultiStepLR、LinearLR、CosineAnnealingLR、OneCycleLR等）、组合调整（SequentialLR和ChainedScheduler）、自定义调整（LambdaLR和MultiplicativeLR）、自适应调整（ReduceLROnPlateau）。

所有示例的参数配置：初始的学习率均为1，epoch从0开始，直到第200次结束。

lr_scheduler.LambdaLR

LambdaLR 提供了更加灵活的方式让使用者自定义衰减函数，完成特定的学习率曲线。LambdaLR通过将lambda函数的乘法因子应用到初始LR来调整学习速率。

torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda, last_epoch=- 1, verbose=False)

参数：

optimizer (Optimizer) – 优化器
lr_lambda ( function or list ) – 一个计算乘法因子的函数，或此类函数的列表
last_epoch (int) – 最后一个epoch的索引，默认值：-1
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False

示例：
lambda1 = lambda epoch: np.cos(epoch/max_epoch*np.pi/2)
scheduler = LambdaLR(optimizer, lr_lambda=[lambda1])
在这里插入图片描述

lr_scheduler.MultiplicativeLR

MultiplicativeLR同样可以自定义学习率的变化，与LambdaLR不同的是MultiplicativeLR通过将lambda函数的乘法因子应用到前一个epoch的LR来调整学习速率。

torch.optim.lr_scheduler.MultiplicativeLR(optimizer, lr_lambda, last_epoch=- 1, verbose=False)

参数：

optimizer (Optimizer) – 优化器
lr_lambda (function or list) – A function which computes a multiplicative factor given an integer parameter epoch, or a list of such functions, one for each group in optimizer.param_groups.
last_epoch (int) – 最后一个epoch的索引，默认值：-1
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False

示例：
lmbda = lambda epoch: 0.95
scheduler = MultiplicativeLR(optimizer, lr_lambda=lmbda)
在这里插入图片描述

lr_scheduler.StepLR

每到达一定周期（step_size），学习率乘以一个系数 gamma。

torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=- 1, verbose=False)

参数：

optimizer (Optimizer) – 优化器
step_size (int) – 学习率衰减的周期
gamma (float) – 学习率衰减的乘法因子，默认值：0.1
last_epoch (int) – 最后一个epoch的索引，默认值：-1
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False

示例：scheduler = StepLR(optimizer, step_size=30, gamma=0.5)
在这里插入图片描述

lr_scheduler.MultiStepLR

StepLR 的 Step 是固定的，MultiStepLR 则可以设置每一个 step 的大小。

torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones, gamma=0.1, last_epoch=- 1, verbose=False)

参数：
optimizer (Optimizer) – 优化器
milestones (list) – epoch索引列表，必须增加
gamma (float) – 学习率衰减的乘法因子，默认值：0.1
last_epoch (int) – 最后一个epoch的索引，默认值：-1
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False

示例：MultiStepLR(optimizer, milestones=[30,80,150], gamma=0.5)
在这里插入图片描述

lr_scheduler.ConstantLR

在total_iters轮内将optimizer里面指定的学习率乘以factor,total_iters轮外恢复原学习率。

torch.optim.lr_scheduler.ConstantLR(optimizer, factor=0.3333333333333333, total_iters=5, last_epoch=- 1, verbose=False)

参数：

optimizer (Optimizer) – 优化器
factor (float) – 学习率衰减的常数因子，默认值：1./3.
total_iters (int) – 学习率衰减直到设定的epoch值，默认值：5.
last_epoch (int) – 最后一个epoch的索引，默认值：-1
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False

示例：scheduler = ConstantLR(optimizer, factor=0.5, total_iters=50)
在这里插入图片描述

lr_scheduler.LinearLR

线性改变每个参数组的学习率，直到 epoch 达到预定义的值（total_iters）。

torch.optim.lr_scheduler.LinearLR(optimizer, start_factor=0.3333333333333333, end_factor=1.0, total_iters=5, last_epoch=- 1, verbose=False)

参数：

optimizer (Optimizer) – 优化器
start_factor (float) – 在开始时，学习率的值。默认值：1./3
end_factor (float) – 在结束时，学习率的值。默认值：1.0
total_iters (int) – 学习率衰减率变为1时的epoch值，默认值：5.
last_epoch (int) – 最后一个epoch的索引，默认值：-1
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False

示例： scheduler = LinearLR(optimizer, start_factor=1, end_factor=1/2, total_iters=200)
在这里插入图片描述

lr_scheduler.ExponentialLR

每个时期将每个参数组的学习率衰减 gamma。

torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma, last_epoch=- 1, verbose=False)

参数：

optimizer (Optimizer) – 优化器
gamma (float) – 学习率衰减的乘法因子
last_epoch (int) – 最后一个epoch的索引，默认值：-1
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False

示例：scheduler = ExponentialLR(optimizer, gamma=0.9)
在这里插入图片描述

lr_scheduler.PolynomialLR

多项式函数衰减学习率。

torch.optim.lr_scheduler.PolynomialLR(optimizer, total_iters=5, power=1.0, last_epoch=- 1, verbose=False)

参数：

optimizer (Optimizer) – 优化器
total_iters (int) – 衰减学习率的步数，默认值：5
power (int) – The power of the polynomial. Default: 1.0.
last_epoch (int) – 多项式的幂，默认值：1.0
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False

示例：
scheduler = PolynomialLR(optimizer, total_iters=100, power=2)
在这里插入图片描述

lr_scheduler.CosineAnnealingLR

余弦学习率衰减方法相对于线性学习率衰减方法来说，可以更快地达到最佳效果，更好地保持模型的稳定性，同时也可以改善模型的泛化性能。余弦学习率衰减前期衰减慢，中期衰减快，后期衰减慢，和模型的学习有相似之处。

torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=- 1, verbose=False)

参数：

optimizer (Optimizer) – 优化器
T_max (int) – 最大迭代次数
eta_min (float) – 最小的学习率值. Default: 0.
last_epoch (int) – 最后一个epoch的索引，默认值：-1
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False

示例：scheduler = CosineAnnealingLR(optimizer, T_max=200, eta_min=0.5)
在这里插入图片描述

lr_scheduler.SequentialLR

可以将多种衰减方式以串联的方式进行组合。

torch.optim.lr_scheduler.SequentialLR(optimizer, schedulers, milestones, last_epoch=- 1, verbose=False)

参数：

optimizer (Optimizer) – 优化器
schedulers (list) – 学习率调整策略（scheduler）的列表
milestones (list) – 策略变化的epoch转折点，整数列表
last_epoch (int) – 最后一个epoch的索引，默认值：-1
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False

示例：
scheduler1 = LinearLR(optimizer, start_factor=1, end_factor=1/2, total_iters=100)
scheduler2 = CosineAnnealingLR(optimizer, T_max=100, eta_min=0.5)
schedulers = [scheduler1, scheduler2]
milestones = [100]
scheduler = SequentialLR(optimizer, schedulers, milestones)
在这里插入图片描述

lr_scheduler.ChainedScheduler

ChainedScheduler和SequentialLR类似，也是按照顺序调用多个串联起来的学习率调整策略，不同的是ChainedScheduler里面的学习率变化是连续的。

torch.optim.lr_scheduler.ChainedScheduler(schedulers)

参数：
schedulers (list) – 学习率调整策略（scheduler）的列表

示例：
scheduler1 = ConstantLR(optimizer, factor=0.1, total_iters=10)
scheduler2 = ExponentialLR(optimizer, gamma=0.9)
scheduler = ChainedScheduler([scheduler1,scheduler2])
在这里插入图片描述

lr_scheduler.CyclicLR

CyclicLR循环地调整学习率。

torch.optim.lr_scheduler.CyclicLR(optimizer, base_lr, max_lr, step_size_up=2000, step_size_down=None, mode='triangular', gamma=1.0, scale_fn=None, scale_mode='cycle', cycle_momentum=True, base_momentum=0.8, max_momentum=0.9, last_epoch=- 1, verbose=False)

参数：

optimizer (Optimizer) – 优化器
base_lr (float or list) – 初始学习率，它是每个循环中学习率的下限值
max_lr (float or list) – 每个循环中学习率的上限
step_size_up (int) – 递增周期中的训练迭代次数，默认值：2000
step_size_down (int) – 递减少周期中的训练迭代次数，如果step_size_down为None，则设置为step_size_up。默认值：无
mode (str) – {triangular, triangular2, exp_range}其中之一，学习率递增递减变化策略，如果scale_fn不是None，则忽略此参数。默认值：“triangular”
gamma (float) – ‘exp_range’ 缩放函数中的常量，默认值：1.0
scale_fn (function) – 由 lambda 函数定义的自定义衰减策略，其中 0 <= scale_fn(x) <= 1 对于所有 x >= 0。如果指定，则忽略 ‘mode’。默认值：无
scale_mode (str) – {‘cycle’, ‘iterations’}. 定义是否根据cycle或iterations（自循环开始以来的训练迭代）评估scale_fn。默认值：‘cycle’
cycle_momentum (bool) – 如果True，动量在 ‘base_momentum’ 和 ‘max_momentum’ 之间以与学习率相反的方向循环。默认值：True
base_momentum (float or list) – 每次循环中的动量下限，请注意，动量的循环与学习率成反比；在一个周期的峰值，动量为“base_momentum”，学习率为“max_lr”。默认值：0.8
max_momentum (float or list) – 每次循环中的动量上限，请注意，动量的循环与学习率成反比；在一个周期开始时，动量为“max_momentum”，学习率为“base_lr”，默认值：0.9
last_epoch (int) – 最后一个epoch的索引，该参数在恢复训练时使用，由于应在每个batch之后而不是每个epoch之后调用step() ，因此该数字表示计算的batch总数，而不是计算的epoch总数。当last_epoch=-1时，调度从头开始。默认值：-1
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False

示例
scheduler = CyclicLR(optimizer, base_lr=0.1, max_lr=1, step_size_up=50)
在这里插入图片描述

lr_scheduler.OneCycleLR

OneCycleLR是CyclicLR的一周期版本。

torch.optim.lr_scheduler.OneCycleLR(optimizer, max_lr, total_steps=None, epochs=None, steps_per_epoch=None, pct_start=0.3, anneal_strategy='cos', cycle_momentum=True, base_momentum=0.85, max_momentum=0.95, div_factor=25.0, final_div_factor=10000.0, three_phase=False, last_epoch=- 1, verbose=False)

参数：

optimizer (Optimizer) – 优化器
max_lr (float or list) – 最大学习率
total_steps (int) – 总的迭代次数，请注意，如果此处未提供值，则必须通过提供 epochs 和 steps_per_epoch 的值来推断，所以必须为total_steps 提供一个值，或者为epochs 和steps_per_epoch 提供一个值。，默认值：无
epochs (int) – 训练的 epoch 数，默认值：无
steps_per_epoch (int) – 每个epoch训练的步数，默认值：无
pct_start (float) – 学习率上升部分所占比例，默认值：0.3
anneal_strategy (str) – {‘cos’, ‘linear’} 指定退火策略：“cos”表示余弦退火，“linear”表示线性退火。默认值：‘cos’
cycle_momentum (bool) – 如果True，动量在 ‘base_momentum’ 和 ‘max_momentum’ 之间以与学习率相反的方向循环。默认值：True
base_momentum (float or list) – 每次循环中的动量下限，请注意，动量的循环与学习率成反比；在一个周期的峰值，动量为“base_momentum”，学习率为“max_lr”。默认值：0.85
max_momentum (float or list) – 每次循环中的动量上限，请注意，动量的循环与学习率成反比；在一个周期开始时，动量为“max_momentum”，学习率为“base_lr”，默认值：0.95
div_factor (float) – 通过initial_lr = max_lr/div_factor 确定初始学习率，默认值：25
final_div_factor (float) – 通过 min_lr = initial_lr/final_div_factor 确定最小学习率默认值：1e4
three_phase (bool) – 如果True，则使用计划的第三阶段根据 ‘final_div_factor’ 消除学习率，而不是修改第二阶段（前两个阶段将关于 ‘pct_start’ 指示的步骤对称）。默认值：False
last_epoch (int) – 最后一个epoch的索引，该参数在恢复训练时使用，由于应在每个batch之后而不是每个epoch之后调用step() ，因此该数字表示计算的batch总数，而不是计算的epoch总数。当last_epoch=-1时，调度从头开始。默认值：-1
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False

示例：
scheduler = OneCycleLR(optimizer, max_lr=1, steps_per_epoch=10, epochs=20)

在这里插入图片描述

lr_scheduler.CosineAnnealingWarmRestarts

CosineAnnealingWarmRestartsLR类似于CosineAnnealingLR，但它可以循环从初始LR重新开始LR的衰减。

torch.optim.lr_scheduler.CosineAnnealingWarmRestarts(optimizer, T_0, T_mult=1, eta_min=0, last_epoch=- 1, verbose=False)

参数：

optimizer (Optimizer) – 优化器
T_0 (int) – 重新开始衰减的epoch次数
T_mult (int, optional) – T_0的递增变化值，默认值：1
eta_min (float, optional) – 学习率下限，默认值：0
last_epoch (int) – 最后一个epoch的索引，默认值：-1
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False

示例：
scheduler = CosineAnnealingWarmRestarts(optimizer, T_0=30, T_mult=2)
在这里插入图片描述

lr_scheduler.ReduceLROnPlateau

当指度量指标（例如：loss、precision等）停止改进时，ReduceLROnPlateau会降低学习率。其功能是自适应调节学习率，它在step的时候会观察验证集上的loss或者准确率情况，loss当然是越低越好，准确率则是越高越好，所以使用loss作为step的参数时，mode为min，使用准确率作为参数时，mode为max。

torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08, verbose=False)

参数：

optimizer (Optimizer) – 优化器
mode (str) – min、max之一。在min模式下，当监测的数量停止减少时，lr将减少；在max模式下，当监控的数量停止增加时，lr将减少。默认值：“min”
factor (float) – 每次学习率下降的比例， new_lr = lr * factor. 默认值：0.1
patience (int) – patience是能够容忍的次数，当patience次后，网络性能仍未提升，则会降低学习率，默认值：10
threshold (float) – 测量最佳值的阈值，一般只关注相对大的性能提升，默认值：1e-4
threshold_mode (str) – 选择判断指标是否达最优的模式，有两种模式， rel 和 abs。
当 threshold_mode == rel，并且 mode == max 时， dynamic_threshold = best * ( 1 +threshold )；
当 threshold_mode == rel，并且 mode == min 时， dynamic_threshold = best * ( 1 -threshold )；
当 threshold_mode == abs，并且 mode== max 时， dynamic_threshold = best + threshold ；
当 threshold_mode == rel，并且 mode == max 时， dynamic_threshold = best - threshold；
cooldown (int) – 冷却时间，当调整学习率之后，让学习率调整策略保持不变，让模型再训练一定epoch后再重启监测模式。默认值：0
min_lr (float or list) – 最小学习率，默认值：0
eps (float) – lr 的最小衰减。如果新旧lr之差小于eps，则忽略更新，默认值：1e-8
verbose (bool) – 如果是True，则每次更新学习率会将消息打印到 stdout，默认值：False