凸优化学习PART1

一、引言：优化问题简介

优化问题的定义

凸优化是优化的一种，是优化中比较容易的问题。在讲解优化问题前，首先说明什么是优化/数学规划（Optimization/Mathematical Planning）。

优化：从一个可行解的集合中寻找出最优的元素

三个要素：

可行解的集合
最优的标准
寻找的方案

优化问题的形式

$minimize\ f_0(X)\\ subject\ to\ f_i(X)\leq b_i,i=1,……M\\ 其中X=[x_1,x_2,...,x_n]^T$

$f_0$ ：目标函数，为n维空间到一维空间的映射， $R^n\to R$ ——最优的准则

$f_i$ ：不等式约束，为n维空间到一维空间的映射， $R^n\to R$ ——以此找出可行解的集合

$X^*$ ：最优解，等价于 $\forall z,z\in \{f_i(z)\leq b_i,i=1,...,m \},f(X^*)\leq f(z)$ ，其中z所属的集合即为可行解集合（feasible set）

例：

优化问题例子

数据拟合问题

若我们知道 $a, b, c$ 中某些数的取值范围，那么这样一个优化问题就会变成一个有约束的优化问题。

线性二次调节器：LQR

控制中描述离散动态系统的简单形式：
$X_k=AX_{k-1}+Bu_k$
$X_k$ ：系统在k时刻的状态

$X_k$ ：系统在k时刻的状态

A：状态转移矩阵

$u_k$ ：k时刻的输入

$B$ ：输入矩阵

有下面的目标函数：
$\min_{u_k}=\sum_{k=1}^N(X_k^TQX_k+u_k^TRu_k)$
——标准的凸优化问题

多用户的能量控制问题

通信中的问题：三维空间中有很多的发送者和接收者，发送者记做 $T_x$ ，接收者称作 $R_x$ 。

每个用户都以能量 $p_i$ 发送信号， $0\leq p_i\leq b_i$ 。

空间中一个用户的发送会对另一个用户的接收产生干扰，其中用户 $i$ 对用户 $j$ 产生的干扰记做 $\alpha_{ij}$ 。

通信链路存在噪声，高斯白噪声的噪声方差记做 $\delta_i^2$

信噪比SINR定义为： $SINR=\frac{p_i}{\delta_i^2+\sum_{j\neq1}p_j}$

通信码率 $f_i\sim log(1+\frac{p_i}{\delta_i+\sum_{j\neq i}p_i})$ ——香农定理

作为运营商，我们希望码率尽可能大，那么优化目标可以记做如下形式：
$\max \sum_{i=1}^Nf_i\\ s.t. 0\leq p_i\leq b_i$

最短路径问题

定义下面的优化目标：

$$ \min \sum w_{ij}x_{ij}\\ x_{ij}\in[0,1]\\ \sum_{j}x_{ij}-\sum_{j}x_{ji}= \begin{cases}1,\quad i=S\\ -1,\quad i=D\\ 0,\quad otherwise\\ \end{cases} $$

优化问题的分类

方式1：线性规划/非线性规划

线性规划： $f_0,f_1,...,f_M$ 都为线性函数

线性的概念：
$f_i(\alpha x+\beta y)=\alpha f_i(x)+\beta f_i(y)，\quad \forall i=0,...,M\tag{1}$
线性规划的可行解集合是一个多边形组成的区域，最优解一定是在顶点上。
非线性规划：存在 $f_i$ 为非线性函数

方式2：凸规划/非凸规划

凸规划： $f_i$ 都要是凸函数

凸函数的定义：
$f_i(\alpha x+\beta y)\leq \alpha f_i(x)+\beta f_i(y),\quad \forall i \quad i=0,1,...,M\tag{2}$
凸函数和非凸函数的定义后续再详细说明，这里给出两个直观的认识：
- 凸函数有且只有一个全局最优解
- 非凸函数可能有多个局部最优解
同时易知，任何线性规划问题都是凸优化问题。【满足等式必然满足不等式】
非凸规划：存在 $f_i$ 不是凸函数

一般来说，凸规划是比较容易求解的问题，非凸规划是较难解决的问题。

方式3：光滑/非光滑

光滑与非光滑是针对 $f_0(x)$ 而言的，光滑即函数在任意一点都是无穷阶可微的。光滑问题是较简单的问题。但光滑与非光滑对于优化问题的难度来说不是一个本质上的难度划分标准，凸与非凸才是。

方式4：连续/离散

离散问题是难问题，一般来说都属于难问题。但连续问题不一定是凸问题，即不一定是非难的。

连续问题与离散问题的可行域如下：

方式5：单目标/多目标

一般通过加权的方式将多目标转换为单目标。

课程目标与内容

课程目标

简单问题的求解：凸优化问题求解、单目标规划问题
困难问题如何转换为简单问题：非凸问题转化为凸问题
优化算法

主要内容

凸集、凸函数、凸优化
凸优化理论
凸优化算法若干

二、凸集 Convex Sets

优化问题的一般形式：
$\min f_0(x)\\ s.t.\quad f_i(x)\leq b_i,i=1,...,m\\ x=[x_1,...,x_n]^T$

仿射集（Affine Set）

直线与线段

空间中的两个点： $x_1\neq x_2 \in R^n$ ，那么过两点的唯一直线可以用参数 $\theta$ 表示
$y=\theta x_1+(1-\theta)x_2=x_2+\theta(x_1-x_2)$
过 $x_1$ 和 $x_2$ 的线段可以表示为：
$y=\theta x_1+(1-\theta)x_2=x_2+\theta(x_1-x_2)\\ \theta\in[0,1]$

仿射集合

定义1

仿射集：如果通过集合 $C\subseteq R^n$ 中任意两个不同点的直线仍然在集合C中,那么称集合C是仿射的。 $\Leftrightarrow \forall x_1,x_2\in C,\theta\in R$ 有 $\theta x_1+(1-\theta)x_2\in C$ 。换而言之，C包含了C中任意两点的系数之和为1的线性组合。

直线是仿射集吗？——是，直线是点的集合
线段是仿射集吗？——不是，连接的直线可能超出该线段
二维空间是仿射集吗？——是
空间中的正方形是仿射集吗？——不是

定义2

仿射集的数学定义：

设 $x_1,x_2,...,x_k\in C，\theta_1,\theta_2,....,\theta_k\in R,\theta_1+\theta_2+...+\theta_k=1$ ，有下面的定义：

仿射组合：具有 $\theta_1x_1+\theta_2x_2+...+\theta_kx_k$ 形式的点是 $x_1,x_2,...,x_k$ 的仿射组合
一个仿射集合包含任意点的放射组合，即如果C是仿射集合， $x_1,x_2,...,x_k\in C$ ，并且 $\theta_1+\theta_2+...+\theta_k=1$ ，那么任意仿射组合 $\theta_1x_1+\theta_2x_2+...+\theta_kx_k\in C$

满足这样条件的集合C是仿射集。

易知，当 $k = 2$ 时，退化为定义1，其实定义2是最初定义1的泛化。

定义等价性证明

假设已有定义1，尝试将2个点的情况推广到3个点

有仿射集C， $x_1,x_2,x_3\in C, \theta_1+\theta_2+\theta_3=1$ ，有下面的仿射组合：
$\frac{\theta_1}{\theta_1+\theta_2}x_1+\frac{\theta_2}{\theta_1+\theta_2}x_2\in C\\ (\theta_1+\theta_2)(\frac{\theta_1}{\theta_1+\theta_2}x_1+\frac{\theta_1}{\theta_2+\theta_2}x_2)+(1-\theta_1-\theta_2)x_3\in C\\ \Rightarrow \theta_1x_1+\theta_2x_2+\theta_3x_3\in C$

假设已经有定义2，能不能推出定义1

由上面退化的说法，知成立。

子空间

定义3

与C相关的子空间：如果C是一个仿射集合，且 $x_0\in C$ ，则集合
$V=C-x_0=\{x-x_0|x\in C\}$
是一个子空间，即关于加法和数乘是封闭的。

将仿射集C相对于 $x_0$ 做平移

证明1：证明V是一个仿射集
证明2：证明V是一个特殊的满足对任意 $\alpha x_1+\beta x_2\in V$ 的特殊仿射集

需证1和2，即需证：设 $\forall v_1,v_2\in V,\forall \alpha,\beta\in R\Rightarrow \alpha v_1+\beta v_2\in V$
要证…即证： $\forall v_1,v_2\in V,\forall \alpha,\beta\in R\Rightarrow \alpha v_1+\beta v_2 +x_0\in C$

$x_0$ 的选择是任意的。

另一种理解：x是直线上的点， $x_0$ 也是直线上的点，不管 $x_0$ 取多少，总存在一个x和 $x_0$ 是一个点，那么就平移到了原点。所以必然过原点，即满足 $\alpha v_1+\beta v_2\in V$

即，任意一个仿射集可以导出一个性质更好的仿射集。新的仿射集称为原仿射集的子空间。

例2.1 线性方程组的解集。

任何一个线性方程组的解集必然是仿射集。

由任意一个仿射集可以构造一个子空间来看，上述的线性方程组的解构成的仿射集也可以产生一个子空间。
$C=\{x|Ax=b\},Ax_0=b\\ V=C-x_0=\{x-x_0|A(x-x_0)=0\}=\{y|Ay=0\}$
该集合称为A的化零空间。（齐次线性方程组）

命题：任何一个仿射集都可以写成一个线性方程组的解集。

仿射包

任意集合C，构造尽可能小的仿射集。

首先引入仿射包的概念：我们称由集合 $C\subseteq R^n$ 中所有点的仿射组合组成的集合为C的仿射包，记为aff C
$aff\ C=\{\theta_1x_1+\theta_2x_2+...+\theta_kx_k|x_1,x_2,...,x_k\in C,\theta_1+\theta_2+...+\theta_k=1\}$
仿射包是包含C的最小仿射集，也就是说：如果S是满足 $C\subseteq S$ 的仿射集合，那么 $aff\ C\subseteq S$ 。

凸集（Convex Set）

凸集的概念

定义1

集合C是凸集，当任意两点间的线段仍在C中，即对于任意 $x_1,x_2\in C$ 和满足 $0\leq \theta\leq 1$ 的 $\theta$ 都有：
$\theta x_1+(1-\theta)x_2\in C$

仿射集一定是凸集，仿射集是凸集的特例。

定义2

凸组合：任意 $x_1,x_2,...,x_k\in C,\theta_1,\theta_2,...,\theta_k\in [0,1]$ 且 $\theta_1+\theta_2+...+\theta_k=1$ ，那么称 $\theta_1x_1+\theta_2x_2+...+\theta_kx_k$ 为凸组合。

点的凸组合可以看做他们的混合或者加权平均。

定义3

C为凸集 $\Leftrightarrow$ 任意凸组合属于C

定义4

凸包：C是凸集， $x_1,x_2,...,x_k\in C,\theta_1,\theta_2,..,\theta_k\in [0,1]$ ，那么凸包为：
$\{\theta_1x_1+\theta_2x_2+...+\theta_kx_k|\forall x_1,x_2,...,x_k\in C,\theta_1,\theta_2,..,\theta_k\in [0,1],\theta_1+\theta_2+...+\theta_k=1\}$

图形表示

凸集和非凸集的图形展示：

我们可以在非凸集的基础上构造他的凸包。

上述的集合都是连续的元素，有离散的元素构成的凸集：

锥（Cone）

锥不一定是个凸集，但是我们可以从锥中找到一些特殊的元素是凸集，称其为凸锥。

锥的定义

定义1

C是锥 $\Leftrightarrow \forall x\in C，\theta x\in C$

定义2

C是凸锥 $\Leftrightarrow \forall x_1,x_2\in C，\theta_1,\theta_2\geq 0,有\theta_1 x_1+\theta_2x_2\in C$

定义3

锥组合：具有 $\theta_1x_1+\theta_2x_2+...+\theta_kx_k,\theta_1,\theta_2,...,\theta_k\geq 0$ 形式的点的组合称为 $x_1,x_2,...,x_k$ 的锥组合。（或非负线性组合）

定义4

锥包：
$\{\theta_1x_1+\theta_2x_2+...+\theta_kx_k|\forall x_1,x_2,...,x_k\in C,\theta_1,\theta_2,..,\theta_k\geq 0\}$

小结

重要概念

空集 $\empty$ 、任意的一个点都是仿射集的子集
任意直线是仿射的，如果直线通过原点，则是子空间，因此，也是凸锥
一条线段是凸的，但不是仿射的
一条射线，即具有形式 $\{x_0+\theta v|\theta\geq0\},v\neq 0$ 的集合，是凸的，但不是仿射的；如果射线的基点 $x_0$ 是原点，那么它是凸锥
任意子空间是仿射的、凸锥（自然是凸的）

空间一定要有原点，其次需要对加法和数乘封闭
任意线段
- 一定是凸集
- 当是一个点时，是仿射集
- 当是一个点且是原点时，是凸锥

超平面与半空间

超平面的定义

超平面是具有下面形式的集合：
${x|a^Tx=b\}$
其中 $a\in R^n,a\neq 0$ 且 $b\in R$ 。超平面是关于x的非平凡线性方程的解空间（因此是一个仿射集合）。

因此也是个凸集。另外，当b=0时，是一个凸锥。

考虑最简单的情况，二维空间中的条直线是超平面；三维空间中的一个平面是超平面；四维空间中的一个三维立体是超平面……超平面不一定是二维的，可以是一维、二维、三维、无穷维的。

几何解释：超平面可以看做法向量为 $\bold{a}$ 的平面，平移 $x_0$ 得到的。推导如下：

半空间的定义

超平面将二维空间分成两个半空间。

半空间是一个凸集，不是仿射集，不一定是凸锥（当b=0时是凸锥）。

Euclid球和椭球

Euclid球的定义

$R^n$ 中的空间Euclid球具有下面的形式：
$B(x_c,r)=\{x|||x-x_c||_2\leq r\}=\{x|(x-x_c)^T(x-x_c)\leq r^2\}$
其中r>0， $_2$ 代表Euclid范数，即 $u||_2=(u^Tu)^{1/2}$ 。 $x_c$ 是球心，标量r是半径。

Euclid球是凸集的证明

在球中任意选取两个点 $x_1,x_2$ ，则满足： $||x_1-x_c||_c\leq r,||x_2-x_c||_c\leq r$ ，并且 $\theta\in[0,1]$ ，那么要证明Euclid球是凸集，即需要证明任意的两个点的线性组合 $\theta x_1+(1-\theta)x_2$ 仍在球内，即：
$||\theta x_1+(1-\theta)x_2-x_c||_2\leq r$

利用三角不等式，得证。

椭球的定义

$\epsilon=\{x|(x-x_c)^TP^{-1}(x-x_c)\leq 1\}$

其中 $x_c\in R^n,P\in S^{n}_{++}$ ，即P是n维对称正定矩阵。 $x_c$ 是椭球的中心。矩阵P决定了椭球从 $x_c$ 向各个方向扩展的幅度。 $\epsilon$ 的半周长由 $\sqrt{\lambda_i}$ 给出，这里 $\sqrt{\lambda_i}$ 为P的特征值。

多面体

多面体被定义为有限个线性等式和不等式的解集
$P=\{x|a_j^Tx\leq b_j,j=1,...,m,c_j^Tx=d_j,j=1,...,p\}$
多面体是有限个半空间和超平面的交集。仿射集合（例如子空间、超平面、直线）、射线、线段和半空间是多面体。可使用紧凑的表达式：

注意

多面体未必是有界的，比如一个半空间。

$\begin{cases}有界多面体\\无界多面体\end{cases}$

超平面和半空间都是凸集，所以他们的交集：多面体一定是凸集

单纯形

单纯形是一种特殊的多面体。

单纯形的定义

定义： $R^n$ 空间中选择 $v_0,v_1...,v_k$ 共k+1个点， $v_1-v_0,...,v_k-v_0$ 线性无关，则与上述点相关的单纯形为：
$C=\bold{conv}\{v_0,...,v_k\}=\{\theta_0v_0+...+\theta_k v_k|\theta\geq 0,\bold{1}^T\theta=1\}$
其中1表示所有分量均为1的向量。这个单纯形的仿射维数为k，因此也称为 $R^n$ 空间的k维单纯形。

k一定小于n，因为k>n时，k个n维向量一定线性相关。

如上图，二维空间的单纯形只有两种情形：

一条线段
一个三角形

二维空间中的单纯形一定不可能是四边形，因为无法找到4个点构成的向量是线性无关的。

类比可知，三维空间中的单纯形可以是线段、三角形、四面体。

单纯形是多面体的证明

半正定锥

对称矩阵集合： $S^n=\{x\in R^{n\times n}|x=x^T\}$

对称半正定矩阵集合： $S^n_+=\{x\in R^{n\times n}|x=x^T,x\succeq 0\}$

$x\succeq 0$ 表示矩阵的奇异值大于等于0

对称正定矩阵矩阵： $S^n_{++}=\{x\in R^{n\times n}|x=x^T,x\succ 0\}$

a. 证明： $S_+^n$ 是凸锥（Convex Cone）

$\forall \theta_1,\theta_2\geq 0,\forall A,B\in S_+^n$ ，证明 $\theta_1A+\theta_2B\in S_n^+$

对称性：易证明
半正定：要证明矩阵A是半正定矩阵，即证明
$\forall x\in R^n，X^TAX\geq 0$
B同理。

那么证明 $\theta_1 A+\theta_2B$ 是半正定的，即证明：
$\forall x\in R^n，X^T(\theta_1A+\theta_2B)X\geq 0$
又有：
$X^T(\theta_1A+\theta_2B)X=\theta_1 X^TAX+\theta_2X^TB\\ ∵矩阵A和矩阵B是半正定的，\\∴\theta_1 X^TAX+\theta_2X^TB\geq 0成立$
即，对称半正定矩阵是一个凸锥，故也一定是一个凸集。

b. 证明： $S^n$ 是凸锥（Convex Cone）

证明 $S_n$ 是凸锥，即证明 $\forall A,B\in S^n,\theta_1,\theta_2\geq 0,\theta_1A+\theta_2B\in S^n$ ，即证明 $(\theta_1A+\theta_2B)^T=\theta_1A+\theta_2B$ ，易知，结论成立。

c. 证明： $S_{++}^n$ 是凸集（Convex Sets）

证明 $S_n$ 是凸集，即证明 $\forall A,B\in S_{++}^n,\theta_1,\theta_2\in [0,1],\theta_1+\theta_2=1,\theta_1A+\theta_2B\in S_{++}^n$ ，即证明
$(\theta_1A+\theta_2B)^T=\theta_1A+\theta_2B\tag{1}\\ X^T(\theta_1A+\theta_2B)X=\theta_1X^TAX+\theta_2X^TBX>0$
(1)成立，证毕。

保凸运算

交集

若 $S_1,S_2$ 是凸集，那么 $S_1\cap S_2$ 为凸。该结论可以拓展到无穷个集合的交：如果对于任意 $\alpha\in \mathcal{A}，S_{\alpha}$ 都是凸的，那么 $\bigcap_{\alpha\in \mathcal{A}}S_{\alpha}$ 也是凸集。

两个集合的交集是凸集，但是两个集合的并集并不一定是凸集：

仿射函数

函数 $f$ ： $R^n\rightarrow R^m$ 是仿射的，如果他是一个线性函数和一个常数的和，即具有 $f (x) = A x + b$ 的形式，其中 $A\in R^{m\times n}，b\in R^m$ 。假设 $S\subseteq R^n$ 是凸的，并且 $f:R^n\rightarrow R^m$ 是仿射函数。那么S在 $f$ 下的象
$f(S)=\{f(x)|x\in S\}$
是凸的。

如果一个集合是凸集的话，那么他经过一个仿射函数的变换，结果仍是一个凸集。

g： $R^n\rightarrow R^m$ 为仿射， $g^{-1}(S)=\{x|f(x)\in S\}$

仿射应用的例子

如果一个集合是凸集，那么进行缩放与移位后，得到的集合仍是凸性的。即：缩放和移位保持凸性。

缩放：
$\alpha S=\{\alpha x| x\in S\}$
移位：
$S+a=\{x+a|x\in S\}$
集合的和：

两个凸集的和是凸的，集合的和可以定义为：
$S_1+S_2=\{x+y|x\in S_1,y\in S_2\}$

注意集合的和与并集的区别

仿射映射其实考虑的是从一个集合映射到另一个集合，但集合的和是从两个集合到一个集合了，那么如何从仿射的角度去理解呢？尝试下面的定义方式：
$S_1\times S_2=\{(x,y)|x\in S_1,y\in S_2\}$
如果 $S_1$ 和 $S_2$ 是凸集，那么 $S_1\times S_2$ 也是凸集。

从这个角度去理解加法：
$f(x,y)=x+y=(1,1)(x,y)^T$
即，两个集合是凸集，那么求和之后的结果仍是凸集。

凸集+非凸集，结果可能是凸集，无法保证

例：线性矩阵不等式的解：
$A(x)=X_1A_1+......+X_nA_n\preceq B$
称为关于 $x$ 的线性矩阵不等式（LMI），其中 $B,A_i,X_i\in \bold{S}^m$ ，**线性矩阵不等式的解 $\{x|A(x)\preceq B\}$ 是凸集。**上式可以转换为：
$(A(x)-B)\leq 0$
即 $(A (x) - B)$ 是一个半负定的矩阵。

每个x是由n个对称的矩阵构成。

例：椭球是球的仿射映射
$\epsilon=\{x|(x-x_c)^TP^{-1}(x-x_c)\leq 1\}，P\in S_{++}^n$
如何映射，考虑单位球：
$\{u|\ ||u||_2\leq 1\}$
考虑仿射映射：
$f(u)=P^{\frac{1}{2}}u+X_c$
那么从球映射到椭球可以表示为：
$\{f(u)|\ ||u||_2\leq 1\}\\ =\{P^{\frac{1}{2}}u+X_c|\ ||u||_2\leq 1\}\\$
变量替换，定义：
$X=P^{\frac{1}{2}}u+X_c$
那么：
$u=P^{-\frac{1}{2}}(X-X_c)$
代入：
$\{f(u)|\ ||u||_2\leq 1\}\\ =\{P^{\frac{1}{2}}u+X_c|\ ||u||_2\leq 1\}\\ =\{X|\ ||P^{-\frac{1}{2}}(X-X_c)||_2\leq 1\}\\ =\{X|(X-X_c)^TP^{-1}(X-X_c)\leq 1\}$
得证。

透视函数

$R^{n+1}\rightarrow R^n$

从n+1维到n维的降维，定义域：
$dom\ P=R^n\times R_{++}$
前最后一个数必须是正数。

透视函数为：
$P(z,t)=\frac{z}{t},z\in R^n,t\in R_{++}$
结论：任何一个凸集，经过透视函数变换后得到的结果仍是一个凸集。

任意凸集的反透视映射仍是凸集。
$P^{-1}(C)=\{(x,t)\in R^{n+1}| \frac{x}{t}\in C,t>0\}$
证明：

$(x_1,t_1)\in P^{-1},(x_2,t_2)\in P^{-1}$ ，要证 $P^{-1}(C)$ 是凸集，即证 $\theta (x_1,t_1)+(1-\theta)(x_2,t_2)\in P^{-1}(C)$ ，即证 $\frac{\theta (x_1,t_1)}{(1-\theta)(x_2,t_2)}\in C$

线性分式函数

线性分式函数是由透视函数和仿射函数复合而成。设 $g:R^n\rightarrow R^{m+1}$ 是仿射的，即

其中 $A\in \bold{R}^{m\times n},b\in R^m,c\in R^n,d\in R$ ，上述映射是一个仿射映射。

$f=P\circ g$ 给出的函数 $f:R^n\rightarrow R^m$
$f(x)=(Ax+b)/(c^Tx+d),\bold{dom}f=\{x|c^Tx+d>0\}$
称为线性分式（或投射）函数。如果c=0, d>0，则f的定义域为 $R^n$ ，并且 $f$ 是仿射函数。因此将仿射函数和线性函数视为特殊的线性分式函数。