机器学习笔记之优化算法(十九)经典牛顿法的收敛性分析

news2025/1/16 5:07:07

机器学习笔记之优化算法——经典牛顿法的收敛性分析

  • 引言
    • 回顾:算法的收敛性分析
    • 经典牛顿法的收敛性分析
      • 收敛性定理介绍
      • 证明过程
      • 关于隐含条件的说明

引言

上一节整体介绍了经典牛顿法,并讨论了其更新方向 P k \mathcal P_k Pk是否为下降方向。本节将对经典牛顿法在迭代过程中的收敛性进行分析。

回顾:算法的收敛性分析

在这些迭代算法中,我们关注的重点在于算法在迭代过程中是否收敛,以及它的收敛速度

Wolfe \text{Wolfe} Wolfe准则的收敛性分析

简单认识 Wolfe Condition \text{Wolfe Condition} Wolfe Condition收敛性证明一节中,对于线搜索方法使用非精确搜索在迭代过程中使用 Wolfe \text{Wolfe} Wolfe准则选取优质步长,并证明该方法能够使目标函数结果 { f ( x k ) } k = 0 ∞ \{f(x_k)\}_{k=0}^{\infty} {f(xk)}k=0收敛到最优解 f ∗ f^* f。对应条件、结论表示如下:

条件:

  • 关于函数 f ( ⋅ ) f(\cdot) f(),需要满足向下有界,并且在其定义域内连续可微
  • 关于梯度函数 ∇ f ( ⋅ ) \nabla f(\cdot) f(),需要在定义域内满足 L \mathcal L L-利普希兹连续
  • 关于更新方向 P k ( k = 1 , 2 , ⋯   ) \mathcal P_k(k=1,2,\cdots) Pk(k=1,2,)至少是下降方向 ( Descent Direction ) (\text{Descent Direction}) (Descent Direction)
  • 迭代过程中选择的优质步长 α k ( k = 1 , 2 , ⋯   ) \alpha_k(k=1,2,\cdots) αk(k=1,2,)满足 Wolfe \text{Wolfe} Wolfe准则
    { f ( x k + 1 ) < f ( x k ) + C 1 ⋅ [ ∇ f ( x k ) ] T P k ⋅ α k [ ∇ f ( x k + 1 ) ] T P k ≥ C 2 ⋅ [ ∇ f ( x k ) ] T P k C 1 ∈ ( 0 , 1 ) C 2 ∈ ( C 1 , 1 ) \begin{cases} f(x_{k+1}) < f(x_ k) + \mathcal C_1 \cdot [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha_k \\ [\nabla f(x_{k+1})]^T \mathcal P_k \geq \mathcal C_2 \cdot [\nabla f(x_k)]^T \mathcal P_k \\ \mathcal C_1 \in (0,1) \\ \mathcal C_2 \in (\mathcal C_1,1) \end{cases} f(xk+1)<f(xk)+C1[f(xk)]TPkαk[f(xk+1)]TPkC2[f(xk)]TPkC1(0,1)C2(C1,1)

结论:关于 { f ( x k ) } k = 0 ∞ \{f(x_k)\}_{k=0}^{\infty} {f(xk)}k=0收敛到最优解 f ∗ f^* f延展性结果
∑ k = 0 + ∞ [ cos ⁡ θ k ] 2 ⋅ ∣ ∣ ∇ f ( x k ) ∣ ∣ 2 < + ∞ \sum_{k=0}^{+\infty} [\cos \theta_k]^2 \cdot ||\nabla f(x_k)||^2 < +\infty k=0+[cosθk]2∣∣∇f(xk)2<+

关于证明过程不再赘述,详见链接,后续同理。观察 Wolfe \text{Wolfe} Wolfe准则的收敛性定理,可以发现:

  • 该方法对于函数 f ( ⋅ ) f(\cdot) f()更新方向的约束是较宽松的 f ( ⋅ ) f(\cdot) f()有下界、可微、 ∇ f ( ⋅ ) \nabla f(\cdot) f()利普希兹连续;而且证明过程中使用的是较泛化的线搜索方法
  • 但对最终的收敛性仅仅证明了其可以收敛,但并没有描述具体的收敛速度

梯度下降法在凸函数的收敛性分析

在梯度下降法——凸函数上的收敛性一节中,使用梯度下降法更新方向 P k \mathcal P_k Pk确定为最速下降方向(负梯度方向)的条件下,对于凸函数 f ( ⋅ ) f(\cdot) f()选取优质步长,证明了目标函数结果 { f ( x k ) } k = 0 ∞ \{f(x_k)\}_{k=0}^{\infty} {f(xk)}k=0收敛至目标函数最优解 f ∗ f^* f,并以次线性收敛级别的收敛速度进行收敛。对应条件、结论表示如下:

条件:

  • 关于函数 f ( ⋅ ) f(\cdot) f()向下有界,在定义域内可微,并且 f ( ⋅ ) f(\cdot) f()凸函数
  • 关于梯度函数 ∇ f ( ⋅ ) \nabla f(\cdot) f()满足 L \mathcal L L-利普希兹连续
  • 在迭代过程中,关于步长 α k ( k = 1 , 2 , ⋯   ) \alpha_k(k=1,2,\cdots) αk(k=1,2,)存在明确的约束范围 α k ∈ ( 0 , 1 L ] \begin{aligned}\alpha_k \in \left(0,\frac{1}{\mathcal L}\right]\end{aligned} αk(0,L1]

结论:目标函数结果 { f ( x k ) } k = 0 ∞ \{f(x_k)\}_{k=0}^{\infty} {f(xk)}k=0 G ( k ) = C ⋅ 1 k \begin{aligned}\mathcal G(k) = \mathcal C \cdot \frac{1}{k}\end{aligned} G(k)=Ck1收敛类型 O ( 1 k ) \begin{aligned}\mathcal O \left(\frac{1}{k}\right)\end{aligned} O(k1)次线性收敛级别的收敛速度。
关于收敛速度的类型与级别,详见收敛速度的简单认识。

观察梯度下降法关于凸函数的收敛性定理,可以发现:

  • 相比于 Wolfe \text{Wolfe} Wolfe准则中线搜索方法对于更新方向 P k \mathcal P_k Pk下降方向的要求,梯度下降法关于更新方向的要求更加严格最速下降方向
  • 关于目标函数 f ( ⋅ ) f(\cdot) f()的要求也更加严格 f ( ⋅ ) f(\cdot) f()必须是凸函数
  • 相比于 Wolfe \text{Wolfe} Wolfe准则关于 α k \alpha_k αk的约束条件:
    关于 Wolfe \text{Wolfe} Wolfe准则关于步长的约束,这里使用图像进行示例表示。其中上界是 f ( x k + 1 ) < f ( x k ) + C 1 ⋅ [ ∇ f ( x k ) ] T P k ⋅ α k f(x_{k+1}) < f(x_ k) + \mathcal C_1 \cdot [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha_k f(xk+1)<f(xk)+C1[f(xk)]TPkαk(函数 L ( α ) \mathcal L(\alpha) L(α)所在斜线以下);下界是 [ ∇ f ( x k + 1 ) ] T P k ≥ C 2 ⋅ [ ∇ f ( x k ) ] T P k [\nabla f(x_{k+1})]^T \mathcal P_k \geq \mathcal C_2 \cdot [\nabla f(x_k)]^T \mathcal P_k [f(xk+1)]TPkC2[f(xk)]TPk(斜率大于绿色点的横坐标范围)
    Wolfe准则关于步长的约束范围
    由于 f ( ⋅ ) f(\cdot) f()凸函数,因而步长 α k \alpha_k αk的选择范围被限制在 ( 0 , 1 L ] \begin{aligned}\left(0,\frac{1}{\mathcal L}\right]\end{aligned} (0,L1]
    详见二次上界引理。
  • 从结论的角度,相比于 Wolfe \text{Wolfe} Wolfe准则,它有了明显的关于收敛速度的描述。

梯度下降法在强凸函数的收敛性分析

在梯度下降法——强凸函数的收敛性证明中,在 f ( ⋅ ) f(\cdot) f() m m m-强凸函数的基础上,选取优质步长 α k \alpha_k αk,证明了数值解序列 { x k } k = 0 ∞ \{x_k\}_{k=0}^{\infty} {xk}k=0收敛至最优数值解 x ∗ x^* x,并以 Q \mathcal Q Q-线性收敛级别的收敛速度进行收敛。对应条件、结论表示如下:

条件:

  • 关于函数 f ( ⋅ ) f(\cdot) f()向下有界,在其定义域内可微,并且 f ( ⋅ ) f(\cdot) f() m m m-强凸函数
  • 关于梯度函数 ∇ f ( ⋅ ) \nabla f(\cdot) f()满足 L \mathcal L L-利普希兹连续
  • 在迭代过程中,步长 α k ( k = 1 , 2 , 3 , ⋯   ) \alpha_k(k=1,2,3,\cdots) αk(k=1,2,3,)存在明确的约束范围 ( 0 , 2 L + m ) \begin{aligned}\left(0,\frac{2}{\mathcal L + m}\right)\end{aligned} (0,L+m2)

结论:数值解序列 { x k } k = 0 ∞ \{x_k\}_{k=0}^{\infty} {xk}k=0 Q \mathcal Q Q-线性收敛的收敛速度收敛于最优数值解 x ∗ x^* x

观察梯度下降法关于强凸函数的收敛性定理,可以发现:

  • 相比于凸函数的收敛性定理,关于目标函数 f ( ⋅ ) f(\cdot) f()的要求更加严格 m m m-强凸函数
  • 关于 α k \alpha_k αk的约束条件更加严格: ( 0 , 1 L ) ⇒ ( 0 , 2 L + m ) , 2 L + m ≤ 1 L \begin{aligned} \left(0,\frac{1}{\mathcal L}\right) \Rightarrow \left(0,\frac{2}{\mathcal L + m}\right),\frac{2}{\mathcal L + m} \leq \frac{1}{\mathcal L}\end{aligned} (0,L1)(0,L+m2),L+m2L1
  • 结论的角度,其收敛速度级别高于相应凸函数的收敛速度级别

经典牛顿法的收敛性分析

收敛性定理介绍

经典牛顿法收敛性定理的描述表示如下:

条件:

  • 关于函数 f ( ⋅ ) f(\cdot) f()在其定义域内二阶连续可微
    • 这意味着 Hessian Matrix ⇒ ∇ 2 f ( ⋅ ) \text{Hessian Matrix} \Rightarrow \nabla^2 f(\cdot) Hessian Matrix2f()不仅存在,并且函数 ∇ 2 f ( ⋅ ) \nabla^2 f(\cdot) 2f()在定义域内同样连续。
    • 个人关于 ∇ 2 f ( ⋅ ) \nabla^2 f(\cdot) 2f()的误区更正: ∇ 2 f ( ⋅ ) \nabla^2 f(\cdot) 2f()自身是一个函数,关于某向量 x ∈ R n x \in \mathbb R^n xRn的结果 [ ∇ 2 f ( x ) ] n × n [\nabla^2 f(x)]_{n \times n} [2f(x)]n×n是一个 Hessian Matrix \text{Hessian Matrix} Hessian Matrix矩阵。
  • 关于二阶梯度函数 ∇ 2 f ( ⋅ ) \nabla^2 f(\cdot) 2f()最优值 x ∗ x^* x N σ ( x ∗ ) \mathcal N_{\sigma}(x^*) Nσ(x)内满足 L \mathcal L L-利普希兹连续
    • 其中 N σ ( x ∗ ) \mathcal N_{\sigma}(x^*) Nσ(x)表示在最优值 x ∗ x^* x为中心的 σ \sigma σ邻域。如果 x ∗ x^* x是一维的,那么它的邻域可表示为 ( x − σ , x + σ ) (x-\sigma,x+\sigma) (xσ,x+σ)
    • 相比于条件 1 1 1,条件 2 2 2使 ∇ 2 f ( ⋅ ) \nabla^2 f(\cdot) 2f()在其定义域内连续的基础上,进一步增强了约束:使最优值的邻域满足 L \mathcal L L-利普希兹连续。关于连续、一致连续、 L \mathcal L L-利普希兹连续的强度差异,详见传送门
  • 关于梯度函数 x ∗ x^* x处的结果 ∇ f ( x ∗ ) = 0 \nabla f(x^*) = 0 f(x)=0,并且对应二阶梯度 x ∗ x^* x的结果 ∇ 2 f ( ⋅ ) ≻ 0 \nabla^2 f(\cdot) \succ 0 2f()0
    • 该条件是条件 x ∗ x^* x是函数 f ( ⋅ ) f(\cdot) f()极小值点的充分不必要条件。
    • 个人理解 -> 单看这一个条件,我们需要警惕的是:这里并没有说 f ( ⋅ ) f(\cdot) f()是一个凸函数/ m m m-强凸函数,它可能仅是一个普通的复杂函数。因而该条件仅能确定 x ∗ x^* x f ( ⋅ ) f(\cdot) f()极小值点中的某一个。

结论:
x 0 x_0 x0 x ∗ x^* x足够近,那么数值解序列 { x k } k = 0 ∞ \{x_k\}_{k=0}^{\infty} {xk}k=0 Q \mathcal Q Q-二次收敛的收敛速度收敛于最优数值解 x ∗ x^* x

  • 这里本质上说的是 x 0 x_0 x0,但实际上该结论要求数值解序列 { x k } k = 0 ∞ \{x_k\}_{k=0}^{\infty} {xk}k=0中的所有点都要离 x ∗ x^* x足够近。因为 x 0 x_0 x0是随机初始化的结果,如果 x 0 x_0 x0 x ∗ x^* x足够近,那么其他迭代点 x 1 , x 2 , ⋯ x_1,x_2,\cdots x1,x2,必然只会离 x ∗ x^* x足够近。
  • 根据 Q \mathcal Q Q-二次收敛的定义,需要满足:
    ∣ ∣ x k + 1 − x ∗ ∣ ∣ ∣ ∣ x k − x ∗ ∣ ∣ 2 ≤ C ∈ ( 0 , + ∞ ) \begin{aligned} \frac{||x_{k+1} - x^*||}{||x_k - x^*||^2} \leq \mathcal C \in (0, + \infty) \end{aligned} ∣∣xkx2∣∣xk+1x∣∣C(0,+)

证明过程

首先观察分子 ∣ ∣ x k + 1 − x ∗ ∣ ∣ ||x_{k+1} - x^*|| ∣∣xk+1x∣∣,关于 x k + 1 x_{k+1} xk+1,在经典牛顿法中,它的步长 α k = 1 \alpha_k = 1 αk=1;假设在 x k x_k xk点处的 Hessian Matrix ⇒ ∇ 2 f ( x k ) \text{Hessian Matrix} \Rightarrow \nabla^2 f(x_k) Hessian Matrix2f(xk)正定的,根据牛顿方程,当前迭代步骤的最优方向 P k \mathcal P_k Pk表示为:
实际上,整个迭代过程,每个步骤产生的 x k x_k xk对应的 ∇ 2 f ( x k ) \nabla^2 f(x_k) 2f(xk)都被认为是正定的。
{ x k + 1 = x k + 1 ⋅ P k P k = − [ ∇ 2 f ( x k ) ] − 1 ∇ f ( x k ) \begin{cases} x_{k+1} = x_k + 1 \cdot \mathcal P_k \\ \mathcal P_k = -[\nabla^2 f(x_k)]^{-1} \nabla f(x_k) \end{cases} {xk+1=xk+1PkPk=[2f(xk)]1f(xk)
那么最终分子部分可表示为:

  • [ ∇ 2 f ( x k ) ] [\nabla^2 f(x_k)] [2f(xk)]提出来,由于 x k + 1 , x ∗ x_{k+1},x^* xk+1,x的系数都是单位矩阵 I \mathcal I I,因此根据 I = [ ∇ 2 f ( x k ) ] − 1 [ ∇ 2 f ( x k ) ] \mathcal I = [\nabla^2 f(x_k)]^{-1} [\nabla^2 f(x_k)] I=[2f(xk)]1[2f(xk)],从而提出公因式 [ ∇ 2 f ( x k ) ] − 1 [\nabla^2 f(x_k)]^{-1} [2f(xk)]1
  • 为了与 ( x k − x ∗ ) (x_k - x^*) (xkx)的格式匹配,并且根据条件: ∇ f ( x ∗ ) = 0 \nabla f(x^*) = 0 f(x)=0,因此在末尾添加一个 ∇ f ( x ∗ ) \nabla f(x^*) f(x)并不影响等号的变化。
    ∥ x k + 1 − x ∗ ∥ = ∥ x k − [ ∇ 2 f ( x k ) ] − 1 ∇ f ( x k ) − x ∗ ∥ = ∥ [ ∇ 2 f ( x k ) ] − 1 [ ∇ 2 f ( x k ) ] x k ⏟ x k − [ ∇ 2 f ( x k ) ] − 1 ∇ f ( x k ) − [ ∇ 2 f ( x k ) ] − 1 [ ∇ 2 f ( x k ) ] x ∗ ⏟ x ∗ ∥ = ∥ [ ∇ 2 f ( x k ) ] − 1 [ ∇ 2 f ( x k ) ⋅ ( x k − x ∗ ) − ∇ f ( x k ) ] ∥ = ∥ [ ∇ 2 f ( x k ) ] − 1 [ ∇ 2 f ( x k ) ⋅ ( x k − x ∗ ) − ( ∇ f ( x k ) − ∇ f ( x ∗ ) ⏟ ∇ f ( x k ) ; ∇ f ( x ∗ ) = 0 ) ] ∥ \begin{aligned} \|x_{k+1} - x^*\| & = \left\|x_k - [\nabla^2 f(x_k)]^{-1} \nabla f(x_k) - x^* \right\| \\ & = \left\Vert\underbrace{[\nabla^2 f(x_k)]^{-1} [\nabla^2 f(x_k)] x_k}_{x_k} - [\nabla^2 f(x_k)]^{-1} \nabla f(x_k) - \underbrace{[\nabla^2 f(x_k)]^{-1} [\nabla^2 f(x_k)] x^*}_{x^*}\right\Vert \\ & = \left\|[\nabla^2 f(x_k)]^{-1} \left[\nabla^2 f(x_k) \cdot (x_k - x^*) - \nabla f(x_k)\right]\right\| \\ & = \left\|[\nabla^2 f(x_k)]^{-1} \left[\nabla^2 f(x_k) \cdot (x_k - x^*) - (\underbrace{\nabla f(x_k) - \nabla f(x^*)}_{\nabla f(x_k);\nabla f(x^*) = 0})\right]\right\| \end{aligned} xk+1x= xk[2f(xk)]1f(xk)x = xk [2f(xk)]1[2f(xk)]xk[2f(xk)]1f(xk)x [2f(xk)]1[2f(xk)]x = [2f(xk)]1[2f(xk)(xkx)f(xk)] = [2f(xk)]1 2f(xk)(xkx)(f(xk);f(x)=0 f(xk)f(x))

观察项: ∇ f ( x k ) − ∇ f ( x ∗ ) \nabla f(x_k) - \nabla f(x^*) f(xk)f(x),它本质上是:函数一阶梯度 ∇ f ( ⋅ ) \nabla f(\cdot) f() x k , x ∗ x_k,x^* xk,x两点处的差值。而条件大多在二阶梯度上存在约束性。因此,这里通过技巧 ∇ f ( x k ) − ∇ f ( x ∗ ) \nabla f(x_k) - \nabla f(x^*) f(xk)f(x)进行转化

  • 对于 ∀ x , y ∈ R n \forall x,y \in \mathbb R^n x,yRn,可以令 λ ∈ [ 0 , 1 ] \lambda \in [0,1] λ[0,1],将 ∇ f ( y ) − ∇ f ( x ) \nabla f(y) - \nabla f(x) f(y)f(x)转化成如下形式:
    • λ = 0 \lambda=0 λ=0时, x + λ ⋅ ( y − x ) = x ; x + \lambda \cdot (y - x) = x; x+λ(yx)=x;同理,当 λ = 1 \lambda=1 λ=1时, x + λ ⋅ ( y − x ) = y x + \lambda \cdot (y - x) = y x+λ(yx)=y
    • 将最终结果表示成二阶梯度的定积分形式。
      ∇ f ( y ) − ∇ f ( x ) = ∇ f [ x + λ ⋅ ( y − x ) ] ∣ λ = 0 1 = ∫ 0 1 ∇ 2 f [ x + λ ⋅ ( y − x ) ] ⋅ ( y − x ) d λ \begin{aligned} \nabla f(y) - \nabla f(x) & = \nabla f[x + \lambda \cdot (y - x)] \vert_{\lambda = 0}^1 \\ & = \int_{0}^1 \nabla^2 f[x + \lambda \cdot (y - x)] \cdot (y - x) d \lambda \end{aligned} f(y)f(x)=f[x+λ(yx)]λ=01=012f[x+λ(yx)](yx)dλ
  • 令上例中 y = x ∗ , x = x k y = x^*,x = x_k y=x,x=xk,从而有:
    ∇ f ( x k ) − ∇ f ( x ∗ ) = ∫ 0 1 ∇ 2 f [ x k + λ ⋅ ( x ∗ − x k ) ] ⋅ ( x k − x ∗ ) d λ \nabla f(x_k) - \nabla f(x^*) = \int_{0}^1 \nabla^2 f[x_k + \lambda \cdot (x^* -x_k)] \cdot(x_k - x^*) d\lambda f(xk)f(x)=012f[xk+λ(xxk)](xkx)dλ

基于此,上述分子部分 ∥ x k + 1 − x ∗ ∥ \|x_{k+1} - x^*\| xk+1x可继续整理为:

  • 由于项 ∇ 2 f ( x k ) ⋅ ( x k − x ∗ ) \nabla^2 f(x_k) \cdot (x_k - x^*) 2f(xk)(xkx)中不含 λ \lambda λ,可以将这一项继续改写成积分形式,从而进行合并。
  • 在合并过程中,提出 x k − x ∗ x_k - x^* xkx
    ∥ x k + 1 − x ∗ ∥ = ∥ [ ∇ 2 f ( x k ) ] − 1 ⋅ [ ∇ 2 f ( x k ) ⋅ ( x k − x ∗ ) − ∫ 0 1 ∇ 2 f [ x k + λ ⋅ ( x ∗ − x k ) ] ( x k − x ∗ ) d λ ] ∥ = ∥ [ ∇ 2 f ( x k ) ] − 1 ⋅ [ ∫ 0 1 ∇ 2 f ( x k ) ⋅ ( x k − x ∗ ) d λ ⏟ ∇ 2 f ( x k ) ⋅ ( x k − x ∗ ) − ∫ 0 1 ∇ 2 f [ x k + λ ⋅ ( x ∗ − x k ) ] ( x k − x ∗ ) d λ ] ∥ = ∥ [ ∇ 2 f ( x k ) ] − 1 ⋅ [ ∫ 0 1 ( x k − x ∗ ) ⋅ [ ∇ 2 f ( x k ) − ∇ 2 f [ x k + λ ⋅ ( x ∗ − x k ) ] ] d λ ] ∥ \begin{aligned} \|x_{k+1} - x^*\| & = \left\| [\nabla^2 f(x_k)]^{-1} \cdot \left[ \nabla^2 f(x_k) \cdot (x_k - x^*) - \int_{0}^1 \nabla^2 f[x_k + \lambda \cdot (x^* - x_k)](x_k - x^*) d\lambda \right] \right\| \\ & = \left\| [\nabla^2 f(x_k)]^{-1} \cdot \left[\underbrace{\int_0^1\nabla^2 f(x_k) \cdot (x_k - x^*) d \lambda}_{\nabla^2 f(x_k) \cdot (x_k - x^*)} - \int_{0}^1 \nabla^2 f[x_k + \lambda \cdot (x^* - x_k)](x_k - x^*) d\lambda \right] \right\| \\ & = \left\|[\nabla^2 f(x_k)]^{-1} \cdot \left[\int_0^1 (x_k - x^*) \cdot \left[\nabla^2 f(x_k) - \nabla^2 f[x_k + \lambda \cdot (x^* - x_k)] \right] d \lambda \right] \right\| \end{aligned} xk+1x= [2f(xk)]1[2f(xk)(xkx)012f[xk+λ(xxk)](xkx)dλ] = [2f(xk)]1 2f(xk)(xkx) 012f(xk)(xkx)dλ012f[xk+λ(xxk)](xkx)dλ = [2f(xk)]1[01(xkx)[2f(xk)2f[xk+λ(xxk)]]dλ]

接下来,根据柯西施瓦茨不等式积分的范数小于等于范数的积分两种方式对上式进行放缩
关于积分的范数小于范数的积分的证明过程,这里推荐一篇文章,链接见文章末尾。
∥ x k + 1 − x ∗ ∥ = ∥ [ ∇ 2 f ( x k ) ] − 1 ⋅ [ ∫ 0 1 ( x k − x ∗ ) ⋅ [ ∇ 2 f ( x k ) − ∇ 2 f [ x k + λ ⋅ ( x ∗ − x k ) ] ] d λ ] ∥ ≤ ∥ ∇ 2 f ( x k ) ] − 1 ∥ ⋅ ∥ ∫ 0 1 ( x k − x ∗ ) ⋅ [ ∇ 2 f ( x k ) − ∇ 2 f [ x k + λ ⋅ ( x ∗ − x k ) ] ] d λ ∥ ≤ ∥ ∇ 2 f ( x k ) ] − 1 ∥ ⋅ ∫ 0 1 ∥ ( x k − x ∗ ) ⋅ [ ∇ 2 f ( x k ) − ∇ 2 f [ x k + λ ⋅ ( x ∗ − x k ) ] ] ∥ d λ ≤ ∥ ∇ 2 f ( x k ) ] − 1 ∥ ⋅ ∫ 0 1 ∥ x k − x ∗ ∥ ⋅ ∥ ∇ 2 f ( x k ) − ∇ 2 f [ x k + λ ⋅ ( x ∗ − x k ) ] ∥ d λ \begin{aligned} \|x_{k+1} - x^*\| & = \left\|[\nabla^2 f(x_k)]^{-1} \cdot \left[\int_0^1 (x_k - x^*) \cdot \left[\nabla^2 f(x_k) - \nabla^2 f[x_k + \lambda \cdot (x^* - x_k)] \right] d \lambda \right] \right\| \\ & \leq \left\|\nabla^2 f(x_k)]^{-1} \right\| \cdot \left\| \int_0^1 (x_k - x^*) \cdot \left[\nabla^2 f(x_k) - \nabla^2 f[x_k + \lambda \cdot (x^* - x_k)] \right] d \lambda\right\| \\ & \leq \left\|\nabla^2 f(x_k)]^{-1} \right\| \cdot \int_0^1 \left\|(x_k - x^*) \cdot \left[\nabla^2 f(x_k) - \nabla^2 f[x_k + \lambda \cdot (x^* - x_k)] \right] \right\| d\lambda \\ & \leq \left\|\nabla^2 f(x_k)]^{-1} \right\| \cdot \int_0^1 \left\|x_k - x^*\right\| \cdot \left\| \nabla^2 f(x_k) - \nabla^2 f[x_k + \lambda \cdot (x^* - x_k)] \right\| d\lambda \end{aligned} xk+1x= [2f(xk)]1[01(xkx)[2f(xk)2f[xk+λ(xxk)]]dλ] 2f(xk)]1 01(xkx)[2f(xk)2f[xk+λ(xxk)]]dλ 2f(xk)]1 01 (xkx)[2f(xk)2f[xk+λ(xxk)]] dλ 2f(xk)]1 01xkx 2f(xk)2f[xk+λ(xxk)] dλ
观察上式中积分号第二项 ∥ ∇ 2 f ( x k ) − ∇ 2 f [ x k + λ ⋅ ( x ∗ − x k ) ] ∥ \left\| \nabla^2 f(x_k) - \nabla^2 f[x_k + \lambda \cdot (x^* - x_k)] \right\| 2f(xk)2f[xk+λ(xxk)] 它明显是一个二阶梯度减法的范数形式。根据条件: ∇ 2 f ( ⋅ ) \nabla^2 f(\cdot) 2f() x ∗ x^* x σ \sigma σ邻域 N σ ( x ∗ ) \mathcal N_{\sigma}(x^*) Nσ(x)内满足 L \mathcal L L-利普希兹连续,将该项继续进行放缩

  • 它实际上描述的是点 x k x_k xk x k , x ∗ x_k,x^* xk,x之间某一点两者的二阶梯度减法的范数,根据结论中描述的:如果 x 0 x_0 x0 x ∗ x^* x足够接近,那么 x k x_k xk必然与 x ∗ x^* x足够接近,从而 x k + λ ⋅ ( x ∗ − x k ) x_k + \lambda \cdot (x^* - x_k) xk+λ(xxk)同样距离 x ∗ x^* x足够接近。那么利普希兹连续的条件自然就满足了。
  • 在本步骤中所描述的接近自然是指: ∣ ∣ x k − x ∗ ∣ ∣ ≤ σ ||x_k - x^*|| \leq \sigma ∣∣xkx∣∣σ
  • 关于 ∥ x k − x ∗ ∥ = ∥ x ∗ − x k ∥ \left\|x_k - x^*\right\| = \left\|x^* - x_k\right\| xkx=xxk,掉换一下位置并不影响范数的结果。并且 λ ∈ ( 0 , 1 ) \lambda \in (0,1) λ(0,1),将其提到范数外面。
    { ∥ ∇ 2 f ( x k ) − ∇ 2 f [ x k + λ ⋅ ( x ∗ − x k ) ] ∥ ≤ L ∥ [ x k + λ ( x ∗ − x k ) ] − x k ∥ = L ∣ ∣ λ ⋅ ( x ∗ − x k ) ∣ ∣ = L ⋅ λ ∥ x k − x ∗ ∥ ∥ x k + 1 − x ∗ ∥ ≤ ∥ ∇ 2 f ( x k ) ] − 1 ∥ ⋅ ∫ 0 1 ∥ x k − x ∗ ∥ ⋅ L ⋅ λ ∥ x k − x ∗ ∥ d λ = ∥ ∇ 2 f ( x k ) ] − 1 ∥ ⋅ ∥ x k − x ∗ ∥ 2 ⋅ L ∫ 0 1 λ d λ = ∥ ∇ 2 f ( x k ) ] − 1 ∥ ⋅ ∥ x k − x ∗ ∥ 2 ⋅ L 2 \begin{cases} \begin{aligned} \left\| \nabla^2 f(x_k) - \nabla^2 f[x_k + \lambda \cdot (x^* - x_k)] \right\| & \leq \mathcal L \left\|[x_k + \lambda (x^* - x_k)] - x_k\right\| \\ & = \mathcal L ||\lambda \cdot (x^* - x_k)|| \\ & = \mathcal L \cdot \lambda \left\|x_k - x^*\right\| \\ \|x_{k+1} - x^*\| & \leq \left\|\nabla^2 f(x_k)]^{-1} \right\| \cdot \int_0^1 \left\|x_k - x^*\right\| \cdot \mathcal L \cdot \lambda \left\|x_k - x^*\right\| d\lambda \\ & = \left\|\nabla^2 f(x_k)]^{-1} \right\| \cdot \left\|x_k - x^*\right\|^2 \cdot \mathcal L \int_0^1 \lambda d\lambda \\ & = \left\|\nabla^2 f(x_k)]^{-1} \right\| \cdot \left\|x_k - x^*\right\|^2 \cdot \frac{\mathcal L}{2} \end{aligned} \end{cases} 2f(xk)2f[xk+λ(xxk)] xk+1xL[xk+λ(xxk)]xk=L∣∣λ(xxk)∣∣=Lλxkx 2f(xk)]1 01xkxLλxkxdλ= 2f(xk)]1 xkx2L01λdλ= 2f(xk)]1 xkx22L

至此,我们已经归纳出 ∥ x k + 1 − x ∗ ∥ \|x_{k+1} - x^*\| xk+1x ∥ x k − x ∗ ∥ 2 \left\|x_k - x^*\right\|^2 xkx2之间的关系。只需要证明:它们的比值 ≤ C ∈ ( 0 , + ∞ ) \leq \mathcal C \in (0,+\infty) C(0,+)即可。但项中 ∥ [ ∇ 2 f ( x k ) ] − 1 ∥ \left\|[\nabla^2 f(x_k)]^{-1}\right\| [2f(xk)]1 是与 x k x_k xk相关的量,它并不是常数。因此需要借助条件,将其放缩到某常数。

由于函数 f ( ⋅ ) f(\cdot) f()在其定义域二阶连续可微,那么二阶梯度函数 ∇ 2 f ( ⋅ ) \nabla^2 f(\cdot) 2f()在该定义域上连续。根据连续的定义,有: ∀ ϵ > 0 , ∃ γ > 0 \forall \epsilon > 0,\exist \gamma > 0 ϵ>0,γ>0,当 ∥ x k − x ∗ ∥ ≤ γ \left\|x_k - x^*\right\| \leq \gamma xkxγ时, ∣ ∥ ∇ 2 f ( x k ) ∥ − ∥ ∇ 2 f ( x ∗ ) ∥ ∣ ≤ ϵ \left\vert \|\nabla^2 f(x_k)\| - \|\nabla^2 f(x^*)\| \right\vert \leq \epsilon 2f(xk)2f(x) ϵ

去掉绝对值符号,关于范数 ∥ ∇ 2 f ( x k ) ∥ \|\nabla^2 f(x_k)\| 2f(xk)的范围可表示为:
∥ ∇ 2 f ( x ∗ ) ∥ − ϵ ≤ ∥ ∇ 2 f ( x k ) ∥ ≤ ∥ ∇ 2 f ( x ∗ ) ∥ + ϵ \|\nabla^2 f(x^*)\| - \epsilon \leq\|\nabla^2 f(x_k)\| \leq \|\nabla^2 f(x^*)\| + \epsilon 2f(x)ϵ2f(xk)2f(x)+ϵ

由于 ϵ \epsilon ϵ可以在 ( 0 , + ∞ ) (0,+\infty) (0,+)任意取值,因而不妨令 ϵ = 1 2 ∣ ∣ ∇ 2 f ( x ∗ ) ∣ ∣ \begin{aligned}\epsilon = \frac{1}{2}||\nabla^2 f(x^*)||\end{aligned} ϵ=21∣∣2f(x)∣∣,从而有:
这里之所以设置系数 1 2 \begin{aligned}\frac{1}{2}\end{aligned} 21,目的是消除原式中 L 2 \begin{aligned}\frac{\mathcal L}{2}\end{aligned} 2L内的 1 2 \begin{aligned}\frac{1}{2}\end{aligned} 21
∣ ∣ ∇ 2 f ( x k ) ∣ ∣ ≥ 1 2 ∣ ∣ ∇ 2 f ( x ∗ ) ∣ ∣ ||\nabla^2 f(x_k)|| \geq \frac{1}{2}||\nabla^2 f(x^*)|| ∣∣2f(xk)∣∣21∣∣2f(x)∣∣
由于 x ∗ x^* x是目标函数的最优解,它是一个不发生变化的常量,因此 1 2 ∣ ∣ ∇ 2 f ( x ∗ ) ∣ ∣ \begin{aligned}\frac{1}{2}||\nabla^2 f(x^*)||\end{aligned} 21∣∣2f(x)∣∣也同样是一个常量。因此,有:
∥ [ ∇ 2 f ( x k ) ] − 1 ∥ = 1 ∥ [ ∇ 2 f ( x k ) ] ∥ ≤ 2 ⋅ 1 ∣ ∣ ∇ 2 f ( x ∗ ) ∣ ∣ \left\|[\nabla^2 f(x_k)]^{-1}\right\| = \frac{1}{\left\|[\nabla^2 f(x_k)]\right\|} \leq 2 \cdot \frac{1}{||\nabla^2 f(x^*)||} [2f(xk)]1 =[2f(xk)]12∣∣2f(x)∣∣1
回归原式,有:
∥ x k + 1 − x ∗ ∥ ≤ ∥ ∇ 2 f ( x k ) ] − 1 ∥ ⋅ ∥ x k − x ∗ ∥ 2 ⋅ L 2 ≤ 2 ⋅ 1 ∣ ∣ ∇ 2 f ( x ∗ ) ∣ ∣ ⋅ ∣ ∣ x k − x ∗ ∣ ∣ 2 ⋅ L 2 = ∣ ∣ x k − x ∗ ∣ ∣ 2 ⋅ L ⋅ 1 ∣ ∣ ∇ 2 f ( x ∗ ) ∣ ∣ \begin{aligned}\|x_{k+1} - x^*\| & \leq \left\|\nabla^2 f(x_k)]^{-1} \right\| \cdot \left\|x_k - x^*\right\|^2 \cdot \frac{\mathcal L}{2} \\ & \leq 2 \cdot \frac{1}{||\nabla^2 f(x^*)||} \cdot ||x_k - x^*||^2 \cdot \frac{\mathcal L}{2} \\ & = ||x_k - x^*||^2 \cdot \mathcal L \cdot \frac{1}{||\nabla^2 f(x^*)||} \end{aligned} xk+1x 2f(xk)]1 xkx22L2∣∣2f(x)∣∣1∣∣xkx22L=∣∣xkx2L∣∣2f(x)∣∣1
最终,有:
∣ ∣ x k + 1 − x ∗ ∣ ∣ ∣ ∣ x k − x ∗ ∣ ∣ 2 ≤ L ∣ ∣ ∇ 2 f ( x ∗ ) ∣ ∣ ∈ ( 0 , + ∞ ) \frac{||x_{k+1} - x^*||}{||x_k - x^*||^2} \leq \frac{\mathcal L}{||\nabla^2 f(x^*)||} \in (0,+\infty) ∣∣xkx2∣∣xk+1x∣∣∣∣2f(x)∣∣L(0,+)
得证。

关于隐含条件的说明

在上述证明过程中,我们令 ϵ = 1 2 ∣ ∣ ∇ 2 f ( x ∗ ) ∣ ∣ \begin{aligned}\epsilon = \frac{1}{2}||\nabla^2 f(x^*)||\end{aligned} ϵ=21∣∣2f(x)∣∣,但真的可以这样取吗 ? ? ?换句话说:之所以可以这样取,是因为条件中存在隐含的嵌套条件,支持我们这样去取值

观察条件 1 1 1函数 f ( ⋅ ) f(\cdot) f()在定义域内二阶连续可微,可以知道 ∇ 2 f ( ⋅ ) \nabla^2 f(\cdot) 2f()在定义域内连续;
但又因为条件 2 2 2,使得: ∇ 2 f ( ⋅ ) \nabla^2 f(\cdot) 2f() x ∗ x^* x的邻域 N σ ( x ∗ ) \mathcal N_{\sigma}(x^*) Nσ(x)内不仅连续,而且还是更强的 L \mathcal L L-利普希兹连续
根据 L \mathcal L L-利普希兹连续柯西施瓦茨不等式,可以得到如下的大小关系:
∣ ∥ ∇ 2 f ( x k ) ∥ − ∥ ∇ 2 f ( x ∗ ) ∥ ∣ ≤ ∥ ∇ 2 f ( x k ) − ∇ 2 f ( x ∗ ) ∥ ≤ L ⋅ ∥ x k − x ∗ ∥ \left\vert \|\nabla^2 f(x_k)\| - \|\nabla^2 f(x^*)\| \right\vert \leq \|\nabla^2 f(x_k) - \nabla^2 f(x^*)\| \leq \mathcal L \cdot \|x_k - x^*\| 2f(xk)2f(x) 2f(xk)2f(x)Lxkx

因此,我们选择的用于约束 ∣ ∥ ∇ 2 f ( x k ) ∥ − ∥ ∇ 2 f ( x ∗ ) ∥ ∣ ≤ ϵ \left\vert \|\nabla^2 f(x_k)\| - \|\nabla^2 f(x^*)\| \right\vert \leq \epsilon 2f(xk)2f(x) ϵ ϵ \epsilon ϵ结果绝对不能比 L ⋅ ∥ x k − x ∗ ∥ \mathcal L \cdot \|x_k - x^*\| Lxkx
如果出现 ϵ < L ⋅ ∥ x k − x ∗ ∥ \epsilon < \mathcal L \cdot \|x_k - x^*\| ϵ<Lxkx,那么意味着邻域范围内并不都是 L \mathcal L L-利普希兹连续,从而条件 2 2 2不成立。

因此, ϵ \epsilon ϵ的选择应当满足:
L ⋅ ∥ x k − x ∗ ∥ ≤ ϵ = 1 2 ∥ ∇ 2 f ( x ∗ ) ∥ \mathcal L \cdot \|x_k - x^*\| \leq \epsilon = \frac{1}{2}\|\nabla^2 f(x^*)\| Lxkxϵ=212f(x)
即:
∥ x k − x ∗ ∥ ≤ ∥ ∇ 2 f ( x ∗ ) ∥ 2 L \|x_k - x^*\| \leq \frac{\|\nabla^2 f(x^*)\|}{2\mathcal L} xkx2L2f(x)
因此,在迭代过程中,只有同时满足条件以及隐藏条件
∥ x k − x ∗ ∥ = min ⁡ { σ , γ , ∣ ∣ ∇ 2 f ( x ∗ ) ∣ ∣ 2 L } \|x_k - x^*\| = \min \left\{\sigma,\gamma,\frac{||\nabla^2 f(x^*)||}{2\mathcal L} \right\} xkx=min{σ,γ,2L∣∣2f(x)∣∣}
才能够证明数值解序列 { x k } k = 0 ∞ Q \{x_k\}_{k=0}^{\infty} \mathcal Q {xk}k=0Q-二次收敛于最优数值解 x ∗ x^* x

相关参考:
【优化算法】经典牛顿法-收敛性分析
复变函数中为什么积分的模小于等于模的积分?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/914787.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring之域对象共享数据

文章目录 前言一、requset域1.使用ServletAPI向request域对象共享数据2.使用ModelAndView向request域对象共享数据3.使用Model向request域对象共享数据4.使用map向request域对象共享数据5.使用ModelMap向request域对象共享数据6.Model、ModelMap、Map的关系 二、session域向ses…

语谱图(一) Spectrogram 的定义与机理

1. 语谱图 spectrogram 在音频、语音信号处理领域&#xff0c;我们需要将信号转换成对应的语谱图(spectrogram)&#xff0c;将语谱图上的数据作为信号的特征。 语谱图的横坐标是时间&#xff0c;纵坐标是频率&#xff0c;坐标点值为语音数据能量。由于是采用二维平面表达三维…

UE4 材质学习笔记

CheapContrast与CheapContrast_RGB都是提升对比度的&#xff0c;一个是一维输入&#xff0c;一个是三维输入&#xff0c;让亮的地方更亮&#xff0c;暗的地方更暗&#xff0c;不像power虽然也是提升对比度&#xff0c;但是使用过后的结果都是变暗或者最多不变&#xff08;值为1…

国标视频云服务平台EasyGBS国标平台内网访问正常但公网无法访问的问题解决方案

国标视频云服务平台EasyGBS可支持通过国标GB28181协议&#xff0c;接入多路视频源设备&#xff0c;实现视频流的接入、转码、处理与分发等功能&#xff0c;对外输出的视频流格式包括RTSP、RTMP、FLV、HLS、WebRTC等。平台视频能力丰富灵活&#xff0c;包括监控直播、视频分发、…

Maven 配置文件修改及导入第三方jar包

设置java和maven的环境变量 修改maven配置文件 &#xff08;D:\app\apache-maven-3.5.0\conf\settings.xml&#xff0c;1中环境变量对应的maven包下的conf&#xff09; 修改131行左右的mirror&#xff0c;设置阿里云的仓库地址 <mirror> <id>alimaven</id&g…

如何选择合适的量化交易服务器

数量技术宅团队在CSDN学院推出了量化投资系列课程 欢迎有兴趣系统学习量化投资的同学&#xff0c;点击下方链接报名&#xff1a; 量化投资速成营&#xff08;入门课程&#xff09; Python股票量化投资 Python期货量化投资 Python数字货币量化投资 C语言CTP期货交易系统开…

sql入门-多表查询

案例涉及表 ----------------------------------建表语句之前翻看之前博客文章 多表查询 -- 学生表 create table studen ( id int primary key auto_increment comment id, name varchar(50) comment 姓名, no varchar(10) comment 学号 ) comment 学生表; insert…

ES基础操作

1.创建索引 在 Postman 中&#xff0c;向 ES 服务器发 PUT 请求 &#xff1a; http://127.0.0.1:9200/shopping 后台日志 重复发送 PUT 请求添加索引 &#xff1a; http://127.0.0.1:9200/shopping &#xff0c;会返回错误信息 : 2.获取单个索引相关信息 在 Postman 中&#…

【SpringSecurity】三、访问授权

文章目录 1、配置用户权限2、针对URL授权3、针对方法的授权 1、配置用户权限 继续上一章&#xff0c;给在内存中创建两个用户配置权限。配置权限有两种方式&#xff1a; 配置roles配置authorities //哪个写在后面哪个起作用 //角色变成权限后会加一个ROLE_前缀&#xff0c;比…

Flask狼书笔记 | 03_模板

文章目录 3 模板3.1 模板基本使用3.2 模板结构组织3.3 模板进阶 3 模板 模板&#xff08;template&#xff09;&#xff1a;包含固定内容和动态部分的可重用文件。Jinja2模板引擎可用于任何纯文本文件。 3.1 模板基本使用 HTML实体&#xff1a;https://dev.w3.org/html5/htm…

启动Vue项目踩坑记录

前言 在启动自己的Vue项目时&#xff0c;遇到一些报错&#xff0c;当时很懵&#xff0c;解决了以后豁然开朗&#xff0c;特写此博客记录一下。 一、<template>里多加了个div标签 [vite] Internal server error: At least one <template> or <script> is req…

EureKa快速入门

EureKa快速入门 远程调用的问题 多个服务有多个端口&#xff0c;这样的话服务有多个&#xff0c;硬编码不太适合 eureKa的作用 将service的所有服务的端口全部记录下来 想要的话 直接从注册中心查询对于所有服务 每隔一段时间需要想eureKa发送请求 保证服务还存活 动手实践 …

odoo安装启动遇到的问题

问题&#xff1a;在第一次加载odoo配置文件的时候&#xff0c;启动失败 方法&#xff1a; 1、先检查odoo.conf的内容&#xff0c;尤其是路径 [options] ; This is the password that allows database operations: ; admin_passwd admin db_host 127.0.0.1 db_port 5432 d…

kotlin协程flow任务意外结束未emit数据retryWhen onEmpty(5)

kotlin协程flow任务意外结束未emit数据retryWhen onEmpty&#xff08;5&#xff09; import kotlinx.coroutines.delay import kotlinx.coroutines.flow.* import kotlinx.coroutines.runBlocking import kotlinx.coroutines.withTimeoutOrNullfun main(args: Array<String&…

【Java】基础练习(九)

1.结婚 创建一个Person类&#xff0c;如下: public class Person{private String name;private Character gender;private Integer age;private Boolean marry;// 省略 getter / settter / 构造 / toString / hashCode / equals }有一个类CAB&#xff0c;有一个canMarry方…

SpringBoot(二)

###SpringBoot原理分析 ###SpringBoot监控 ###SpringBoot项目部署 #SpringBoot自动配置 Condition&#xff1a;&#xff08;条件&#xff09; Condition是在Spring4.0增加的条件判断功能&#xff0c;通过这个功能可以实现选择性的创建Bean操作 SpringBoot是如何知道要创建…

如何在服务器上用kaggle下载数据集

S1 服务器上安装kaggle cli工具 pip install --user kaggleS2 服务器上创建kaggle目录 mkdir ~/.kaggleS3 进入kaggle账户创建token 生成token 点击右上角头像&#xff0c;选择setting 点击create new token 进入你的浏览器下载页&#xff0c;可以看到有了一个kaggle.jso…

快速了解什么是Cookie

&#x1f600;前言 本篇博文是关于Web 开发会话技术 -Cookie的介绍&#xff0c;希望你能够喜欢&#x1f60a; &#x1f3e0;个人主页&#xff1a;晨犀主页 &#x1f9d1;个人简介&#xff1a;大家好&#xff0c;我是晨犀&#xff0c;希望我的文章可以帮助到大家&#xff0c;您的…

Elasticsearch 入门安装

1.Elasticsearch 是什么 The Elastic Stack, 包括 Elasticsearch、 Kibana、 Beats 和 Logstash&#xff08;也称为 ELK Stack&#xff09;。能够安全可靠地获取任何来源、任何格式的数据&#xff0c;然后实时地对数据进行搜索、分析和可视化。 Elaticsearch&#xff0c;简称为…

0822|C++day2 引用+函数重载

一、左值引用(reference) 如果想要实现两个数据的交换&#xff0c;值传递不能交换实参&#xff0c;地址传递可以交换实参&#xff0c;会额外开辟空间 【1】概念 引用其实就是给变量起了一个别名&#xff0c;孙悟空(齐天大圣)C对C的一个最重要的扩充 【2】定义 数据类型 &am…