【机器学习300问】85、Adam梯度下降优化算法的原理是什么？

news2025/7/8 14:04:10

Adam优化算法取了两个算法名称的首字母——Adaptive Moment Estimation的缩写，结合了Momentum算法和RMSprop算法的优点。在Momentum中，会计算前一时刻的梯度，并将其用于当前时刻的梯度更新；而RMSprop会对梯度的大小进行自适应调整。Adam算法将这两种思想汇集于一体，通过计算梯度的一阶矩（即均值）和二阶矩（即方差），来调整参数更新的步长。

【机器学习300问】81、什么是动量梯度下降算法？http://t.csdnimg.cn/Kw6cf

【机器学习300问】82、RMSprop梯度下降优化算法的原理是什么？http://t.csdnimg.cn/pTxlo

一、 Adam算法的原理

Adam算法的更新规则如下

（1）计算梯度的一阶矩和二阶矩的指数移动平均值

$m_t = \beta_1 m_{t-1} + (1-\beta_1) g_t$

$v_t = \beta_2 v_{t-1} + (1-\beta_2) g_t^2$

一阶矩估计（动量项）

类似于动量梯度下降，Adam跟踪了梯度（即一阶导数）的指数加权移动平均，记作 $m_t$ 。这有助于捕捉梯度的方向并加速学习过程。其中 $g_t$ 是当前梯度， $\beta_1$ 是衰减因子（通常设置接近于0.9）

二阶矩估计（方差项）

Adam还计算了梯度平方的指数加权移动平均，记作 $v_t$ ，用来估计每个参数的方差，帮助调整学习率。这类似于RMSprop中的做法。其中 $\beta_2$ 是另一个衰减因子（通常设置接近于0.999）

（2）对m和v进行偏差修正

$\hat{m_t} = \frac{m_t}{1 - \beta_1^t}$

$\hat{v_t} = \frac{v_t}{1 - \beta_2^t}$

由于在算法初期 $m_t$ 和 $v_t$ 会有较大的偏置，为了应对算法在初始阶段的梯度估计不准确的问题在实际应用中通常会对其进行偏置修正。通过偏差修正，可以使得算法在初始阶段更快地适应真实的梯度均值和方差，从而避免了由于偏差造成的过小更新步长问题。随着迭代次数的增加，修正项趋于1，其影响逐渐减小，保证算法长期的稳定性和收敛性。

（3）更新参数

$\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v_t}} + \epsilon} \hat{m_t}$

$\epsilon$ 是一个非常小的数，防止除以零，默认为 $10^{-8}$ 。

符号	解释
$\theta_t$	在时刻 $t$ 的模型参数
$m_t$	在时刻 $t$ 的一阶矩估计，即过去梯度的指数移动平均值，可以视为动量项，初始值通常设为0
$v_t$	在时刻 $t$ 的二阶矩估计，即过去梯度平方的指数移动平均值，与RMSprop中的梯度平方累积相似，初始值通常设为0
$\hat{m_t}$	偏差校正后的一阶矩估计
$\hat{v_t}$	偏差校正后的二阶矩估计
$\beta_1$	一阶矩的指数衰减率，用于控制一阶矩估计的滑动更新，常设为0.9
$\beta_2$	二阶矩的指数衰减率，用于控制二阶矩估计的滑动更新，常设为0.999
$g_t$	在时刻 $t$ 的梯度，即损失函数对参数 $\theta_t$ 的导数
$\eta$	学习率，控制参数更新的步长
$\epsilon$	一个非常小的数值，用以防止在除法操作中分母为零，为了数值稳定性，常设为 $10^{-8}$
$t$	当前迭代次数或时刻