数值优化基础

凸集 Convex Sets

凸集的定义

令X是线性空间。如果对于X的子集S中的所有x和y，并且在区间 [0,1]中的所有t，点 $(1 - t) x + t y$ 也属于S，则S称为凸集。
不失一般性，对于所有的凸集，其线性组合点都位于凸集内部：
$\sum \theta_{i} x_{i} \in X \\ \sum \theta_i = 1, \theta_i \geq 0, \forall \theta_i$

凸集的性质

任意凸集之交为凸集。
X的子空间为凸集。若S为凸集，则对X中任何x，x+S亦为凸集。
如果除了端点之外的连接x和y的线段上的每个点都在C的内部，则C是严格凸起的。
凸集相加为凸集
$A+B=\{x+y \mid x \in A, y \in B\}$
凸集相乘为凸集
$\times B=\{x \times y \mid x \in A, y \in B\}$
凸集相交不为凸集

High-Order Info of Functions

Functions $f(x)=f\left(x_1, x_2, x_3\right)$

Gradient $\nabla f(x)=\left(\begin{array}{l}\partial_1 f(x) \\ \partial_2 f(x) \\ \partial_3 f(x)\end{array}\right)$

Hessian $\nabla^2 f(x)=\left(\begin{array}{ccc}\partial_1^2 f(x) & \partial_1 \partial_2 f(x) & \partial_1 \partial_3 f(x) \\ \partial_2 \partial_1 f(x) & \partial_2^2 f(x) & \partial_2 \partial_3 f(x) \\ \partial_3 \partial_1 f(x) & \partial_3 \partial_2 f(x) & \partial_3^2 f(x)\end{array}\right)$

在0点处的近似：泰勒展开
$\quad f(x)=f(0)+x^T \nabla f(0)+\frac{1}{2} x^T \nabla^2 f(0) x+O\left(\left\|x-x_0\right\|^3\right)$
现在拓展概念，设将 $f (x)$ 为维度从n维到m维的映射，即 $\mathbb{R}^n \rightarrow \mathbb{R}^m$ ，则有Jacobian矩阵
在这里插入图片描述

矩阵和向量微分规则与表格

在这里插入图片描述

一些有用的性质

$0\\ d(\alpha X) = \alpha (dX)\\ d(AXB) = A(dX)B\\ d(X+Y) = dX + dY\\ d(X^T) = (dX)^T\\ d(XY) = (dX)Y + X(dY)\\ d<X,Y> = <dX,Y> + <X,dY>\\ d(\frac{X}{\phi}) = \frac{\phi dX - (d\phi)X}{\phi^2}\\ dtrX = I\\ df(g(x)) = \frac{f}{g} \dot dg(x)$
规则可以参考wikipedia网站MATRIX CALCULUS

凸函数的性质 Convex Functions

Jensen不等式

凸函数满足Jensen不等式，如下所示
$f(\theta x+(1-\theta) y) \leq \theta f(x)+(1-\theta) f(y)$
在这里插入图片描述

一阶条件 First-order conditions

$\geq f(x)+\nabla f(x)^T(y-x)$
当 $\nabla f(x)^T=0$ 时，有 $\geq f(x)$

二阶条件 Second-order conditions

一个光滑函数为凸函数，当且仅当
$\nabla^2 f(x) \succeq 0, \forall x$
即函数的二阶导数半正定
对于非凸函数，局部最小值满足
$\nabla^2 f(x^*) \succeq 0,$
在这里插入图片描述

强凸性 strong convexity

$\geq f(x)+(y-x)^T \nabla f(x)+\frac{m}{2}\|y-x\|^2$
式中前两部分对所有凸函数适用，第三部分也就是最后一部分为min curvature
当 $f (x)$ 有Hessian阵时，有
$\begin{aligned} f(y) & \approx f(x)+(y-x)^T \nabla f(x)+\frac{1}{2}(y-x)^T \nabla^2 f(x)(y-x) \\ & \geq f(x)+(y-x)^T \nabla f(x)+\frac{\lambda_{\min }}{2}\|y-x\|^2 \end{aligned}$
则有
$\nabla^2 f(x) \succeq m I$

Lipchitz常数

Lipchitz常数满足
$\|\nabla f(x)-\nabla f(y)\| \leq M\|y-x\|$
由近似展开可以得到
$\leq f(x)+(y-x)^T \nabla f(x)+\frac{M}{2}\|y-x\|^2$
有
$f(y)-f\left(x^{\star}\right) \geq \frac{m}{2}\left\|y-x^{\star}\right\|^2$
$f(y)-f\left(x^{\star}\right) \leq \frac{M}{2}\left\|y-x^{\star}\right\|^2$

条件数 condition number

对于任何函数，有 $\kappa=\frac{major \quad axis}{minor \quad axis}$
对于光滑函数，有 $\kappa \approx cond(\nabla^2f(x))$
对于可微函数，有 $\kappa = M/m$

Sub-differential

对于不光滑的函数，其导数在一点左右不相等，我们称之为sub differential
在这里插入图片描述

记为 $\partial f(x)=\left\{g: f(y)>f(x)+(y-x)^T g, \forall y\right\}$
在这里插入图片描述

sub-differential的方向不唯一，但是最速下降的方向是负sub-diff中模长最小的方向

单调性Monotonicity

无约束非凸函数优化

$\min f(x)\\ x = (x_1,...,x_n) \in \mathbb{R}^n : optimization variables\\ f:\mathbb{R}^n \rightarrow \mathbb{R} : objective function$

线性搜索最速梯度下降 Line-Search Steepest Gradient Descent

在这里插入图片描述

最速梯度下降的迭代形式如下所示
$x^{k+1}=x^k-\tau \nabla f\left(x^k\right)$
其中 $\tau$ 为步长。
选择步长的方法有多种，如下所示

1.常数 constant step size
$\tau = c$
2.随着时间减小 diminishing step size
$\tau = c/k$
3.精确线性搜索 exact line search
$\tau = \arg \min_{\alpha} f(x^k + \alpha d)$
4.非精确线性搜索 inexact line search
$\tau \in\left\{\alpha \mid f\left(x^k\right)-f\left(x^k+\alpha d\right) \geq-c \cdot \alpha d^{\mathrm{T}} \nabla f\left(x^k\right)\right\}$
其中方法1过于代办，方法2需要满足robbins-monro规则，方法3不具备可行性，方法4需要满足Armijo条件，较为容易满足

Backtracking/Armijo line search

选择搜索方向： $d=-\nabla f\left(x^k\right)$
当 $f\left(x^k+\tau d\right)>f\left(x^k\right)+c \cdot \tau d^T \nabla f\left(x^k\right)$ 时，重复 $\tau \leftarrow \tau/2$
迭代 $x^{k+1}=x^k+\tau d$

重复直至梯度很小或者sub-diff包含0时。

改进牛顿法 Modified Damped Newton’s Method

根据泰勒二阶展开，有
$\approx \hat{f}(x) = f(x_k) + \nabla f(x_k)^T(x - x_k) + \frac{1}{2}(x-x_k)^T \nabla^2 f(x_k)(x-x_k)$
最小化二阶近似
$\nabla \hat{f}(x) = \nabla^2 f(x_k)(x - x_k) + \nabla f(x_k) = 0$
得到给定 $\nabla^2 f(x_k) \succ 0$ 时，有
$x_k - [\nabla^2 f(x_k)]^{-1} \nabla f(x_k)$
牛顿步骤为
$x_{k+1} = x_k - [\nabla^2 f(x_k)]^{-1} \nabla f(x_k)$