深度学习-优化算法与梯度下降

news2025/3/4 7:02:50

文章目录

前置知识
- 指数移动平均EMA
- L2正则（L2 Regularization)
- 权重衰减（Weight Decay)
优化器
- SDG
- Momentum
- NAG
- Adagrad
- RMSProp
- AdaDelta
- Adam
- AdamW
- 综上
学习率
- StepLR
- MultiStepLR
- Exponential
- CosineAnealing
- RLROP（ReduceLRonPlateau)
- lambda
- 总结

前置知识

指数移动平均EMA

给予近期数据更高权重的平均方法
$V_t = \alpha \cdot x_t + (1 - \alpha) \cdot V_{t-1}$

L2正则（L2 Regularization)

约束 weights 不要太大
$L+\frac{1}{2}\lambda \cdot \sum_{i=1}^{n} w_t^2$

权重衰减（Weight Decay)

$w_t = (1 - \lambda) \cdot w_{t-1} - \mu \cdot g$

优化器

SDG

mini-batch gradient descent：随机选一批量
亲戚1：batch gradient descent：全部
亲戚2：stochatic gradient descent:随机选一个
$w_{t+1} = w_t - \eta \cdot \nabla J(w_t)$

Momentum

动量
利用EMA融入历史的梯度
原理：将历史梯度和当前梯度做合并
$v_{t} = \gamma \cdot v_{t-1} + (1-\gamma)* J(w_t)$
$w_{t} = w_{t-1} -\mu* v_{t}$

NAG

改进（Nesterov accelerated gradient)
原理：先按照历史梯度走一小步，然后再进行合并
$v_{t+1} = \gamma \cdot v_t + \nabla J(w_t - \alpha·\gamma \cdot v_t)$
$w_{t+1} = w_t - \alpha v_{t+1}$

Adagrad

历史梯度+当前梯度的平方
对学习率进行约束
前期较小的时候，r较大，能放大梯度
后期较大的时候，r较小，能约束梯度

$g_{t+1} = g_t + (\nabla J(w_t))^2$
$w_{t+1} = w_t - \frac{\eta}{\sqrt{g_{t+1} + \epsilon}} \cdot \nabla J(w_t)$

RMSProp

在Adagrad上加上EMA思想
$g_{t+1} = \rho g_t + (1 - \rho)(\nabla J(w_t))^2$
$w_{t+1} = w_t - \frac{\eta}{\sqrt{g_{t+1} + \epsilon}} \cdot \nabla J(w_t)$

AdaDelta

也是在Adagrad上进行改进，不需要提前设置学习率
原理尽可能听，听不懂也没关系

$\Delta w_t = -\frac{\sqrt{\Delta w_{t-1} + \epsilon}}{\sqrt{g_{t+1} + \epsilon}} \cdot \nabla J(w_t)$

Adam

用EMA更新梯度，用RMSProp更新学习率，然后进行修正，来避免冷启动，避免训练开始时梯度很小，参数更新很慢

$m_{t+1} = \beta_1 m_t + (1 - \beta_1) \nabla J(w_t)$
$v_{t+1} = \beta_2 v_t + (1 - \beta_2)(\nabla J(w_t))^2$
$\hat{m}_{t+1} = \frac{m{t+1}}{1 - \beta_1^{t+1}}$
$\hat{v}_{t+1} = \frac{v{t+1}}{1 - \beta_2^{t+1}}$
$w_{t+1} = w_t - \frac{\eta}{\sqrt{\hat{v}_{t+1}} + \epsilon} \cdot \hat{m}_{t+1}$