无约束优化：修正阻尼牛顿法

梯度法的困难

无约束优化：线搜索最速下降

对于光滑函数而言，当函数的曲率很大或者条件数 $\kappa \approx \operatorname{cond}\left(\nabla^2 f(x)\right)$ 很大时，最速梯度下降法的效果很差。最速梯度下降法只利用了函数的一阶信息即梯度，而曲率或条件数是二阶信息。因此，如果函数 $f (x)$ 足够光滑，我们可以利用 $f (x)$ 的二阶信息改进下降方向，以加速算法的迭代。

经典牛顿法

定义

经典牛顿法利用二阶信息，其实际表现会比梯度法要好，但该方法对函数 $f (x)$ 的要求较高，需要二阶连续可微。

在这里插入图片描述

下面考虑多维情况（N>1），对于二阶连续可微函数 $f (x)$ ，考虑 $f (x)$ 在迭代点 $x^k$ 处二阶泰勒展开：
$f\left(x^k+d^k\right)=f\left(x^k\right)+\nabla f\left(x^k\right)^{\mathrm{T}} d^k+\frac{1}{2}\left(d^k\right)^{\mathrm{T}} \nabla^2 f\left(x^k\right) d^k+o\left(\left\|d^k\right\|^2\right) .$
忽略上式的高阶项 $o\left(\left\|d^k\right\|^2\right)$ ，并将等式右边看成关于 $d^k$ 的函数求其稳定点（驻点），可以得到：
$\nabla^2 f\left(x^k\right) d^k=-\nabla f\left(x^k\right)$
当Hessian矩阵 $\nabla^2 f\left(x^k\right)$ 非奇异时，更新方向 $d^k=-\nabla^2 f\left(x^k\right)^{-1} \nabla f\left(x^k\right)$ ，因此经典牛顿法的迭代格式如下：
$x^{k+1}=x^k-\nabla^2 f\left(x^k\right)^{-1} \nabla f\left(x^k\right)$
由上式可以看出，迭代步长恒为1，即不用额外考虑步长的选取，也称该方法为经典牛顿法。

在这里插入图片描述

收敛性证明

在这里插入图片描述

证明过程见教科书。从收敛性结论可以分析得出，经典牛顿法是收敛速度很快的算法，尤其是当目标函数为二次函数时，由于二次泰勒展开函数与原目标函数不是近似而是完全相同的二次式，Hessian矩阵退化成一个常数矩阵，只需要一步迭代就可以达到极小值点，但收敛性是有条件的：

初值敏感，即初值 $x^0$ 必须距离问题的解充分近，只具有局部收敛性，当初值距离问题的解较远时，经典牛顿算法多数情况下失败。因此实际应用时经常先用梯度类算法先求得较低精度的解，然后再用牛顿加速获得高精度解；
Hessian矩阵 $\nabla^2 f\left(x^k\right)$ 需要为正定矩阵，非正定条件下可能迭代发散，下面会对该结论进行详细解释；更不用说Hessian矩阵奇异了。
条件数 $\kappa \approx \operatorname{cond}\left(\nabla^2 f(x)\right)$ 很大时，对初值的要求会更高。

为什么Hessian矩阵 $\nabla^2 f\left(x^k\right)$ 非正定，经典牛顿迭代可能会发散？

收敛的前提是算法的搜索方向得让函数下降，搜索方向一定与负梯度方向之间的夹角为锐角，将搜索方向与当前点梯度做内积：
$\nabla f(x)^T d^k=-\nabla f(x)^T \nabla^2 f(x)^{-1} \nabla f(x)$
要求左边小于0，也就是要求：
$\nabla f(x)^T \nabla^2 f(x)^{-1} \nabla f(x)>0$
这恰好是Hessian矩阵 $\nabla^2 f\left(x^k\right)$ 正定的充要条件。因此对于经典牛顿法，如果Hessian矩阵非正定，则搜索方向可能会使函数上升。

修正阻尼牛顿法

考虑修正阻尼牛顿法的起因

综上，经典牛顿法缺陷如下：

（1）每一步迭代都需要求解一个n维线性方程组 $\left[\nabla^2 f(\boldsymbol{x})\right] \boldsymbol{d}=-\nabla f(\boldsymbol{x})$ ，计算量大，Hessian矩阵 $\nabla^2 f\left(x^k\right)$ 既不容易计算也不容易存储；

（2）Hessian矩阵 $\nabla^2 f\left(x^k\right)$ 奇异或非正定， $d^k$ 不一定是下降方向，经典牛顿迭代可能会发散；

（3）当迭代点距离较远时，直接选取步长 $a_k=1$ 会使得迭代极其不稳定，在有些情况甚至造成迭代点序列发散。

因此，从以下三点考虑修正阻尼牛顿法：

构造一个严格正定（所有特征值大于0）的矩阵 $M$ （修正 $\nabla^2 f\left(x^k\right)$ ），使其尽可能接近Hessian矩阵 $\nabla^2 f\left(x^k\right)$ ，且条件数较低；
通过 $Md=-\nabla f(\boldsymbol{x})$ 的形式解线性方程组求出d，而不是通过求逆运算；
用线搜索确定步长来增加算法稳定性（阻尼法）。

在这里插入图片描述

在这三点中，线搜索优化算法稳定性之前有讲过，这里不再赘述。此处的核心问题是如何选取修正矩阵M，下面介绍两种实用方法。

如何构造修正矩阵M

当函数 $f (x)$ 为凸函数时

此时Hessian矩阵 $\nabla^2 f\left(x^k\right)$ 肯定是半正定矩阵，可采用如下方法构造M：
$\boldsymbol{M}=\nabla^2 f(\boldsymbol{x})+\epsilon \boldsymbol{I}, \epsilon=\min \left(1,\|\nabla f(\boldsymbol{x})\|_{\infty}\right) / 10$
因为 $\nabla^2 f\left(x^k\right)$ 半正定，即对于 $\forall x \neq \bf0$ ，有 $x^T \nabla^2 f\left(x\right) x \geq 0$ 。对于构造的矩阵M，对于 $\forall x \neq \bf0$ ，有 $x^{\top} \epsilon x+x^T \nabla^{2} f(x) x > 0$ 恒成立，因此M为对称正定矩阵，且当梯度 $\nabla f(\boldsymbol{x}) \to \bf0$ 时 $\epsilon \to 0$ 可保证整个算法的收敛性。对于对称正定线性方程组 $\boldsymbol{M} \boldsymbol{d}=-\nabla f(\boldsymbol{x})$ 而言，可采用Cholesky分解对下降方向d进行快速求解。