凸优化理论学习二|凸函数及其相关概念

系列文章目录

凸优化理论学习一|最优化及凸集的基本概念

文章目录

系列文章目录
一、凸函数
- （一）凸集
- （二）凸函数的定义及举例
- （三）凸函数的证明
- - 1、将凸函数限制在一条直线上
  - 2、判断函数是否为凸函数的一阶条件
  - 3、判断函数是否为凸函数的二阶条件
- （四）下水平集和表观
- （五）詹森不等式
二、函数的保凸运算
- （一）证明一个函数是凸函数
- （二）保留凸性的运算
- - 1、非负缩放、总和、积分
  - 2、与仿射函数的复合
  - 3、逐点最大值
  - 4、逐点取上界
  - 5、取下确界
  - 6、与标量函数复合
  - 7、与向量函数复合
三、构造性凸分析
四、透视与共轭
- （一）透视函数
- （二）共轭函数
五、拟凸性
- （一）拟凸函数(quasiconvex function) 定义
- （二）常见的拟凸、拟凹、拟线性函数
- （三）拟凸函数的性质

一、凸函数

（一）凸集

设 $S$ 为 $n$ 维欧氏空间 $R^n$ 中一个集合，若对 $S$ 中任意两点，连接他们的线段仍属于 $S$ ；换言之，对 $S$ 中任意两点 $x^{(1)}$ ， $x^{(2)}$ 及每个实数 $\lambda\in[0,1]$ ，都有：
$\lambda x^{(1)}+(1-\lambda)x^{(2)}\in S$
则称 $S$ 为凸集，其中 $x^{(1)}$ ， $x^{(2)}$ 表示向量， $\lambda x^{(1)}+(1-\lambda)x^{(2)}$ 称为 $x^{(1)}$ ， $x^{(2)}$ 的凸组合。

（二）凸函数的定义及举例

设 $S$ 为 $n$ 维欧氏空间 $R^n$ 中的非空凸集， $f$ 是定义在 $S$ 上的实函数，如果对任意的 $x,y\in S$ 及 $0\leq \theta \leq 1$ ，有：
$f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y)$
则称 $f$ 为 $S$ 上的凸函数。（这里的凸函数与高数里面定义的凸函数则恰恰相反。）

如果 -f 是凸的，则 f 是凹的
当不需要满足等号条件时， $f$ 为严格凸函数

标量/一维空间内的凸函数：

仿射集：在实数域的所有 $ax+b,a,b\in R$
指数函数： $e^{a x},a\in R$
幂函数： $x^{\alpha},\alpha\geq1$ 或 $\alpha\leq0$
幂函数的绝对值： $|x|^p,p\geq1$
负熵函数： $x l o gx$ ，定义域 $R_{++}$

标量/一维空间内的凹函数：

仿射集：在实数域的所有 $ax+b,a,b\in R$
幂函数： $x^{\alpha},0\leq\alpha\leq1$
熵函数： $- x l o gx$ ，定义域 $R_{++}$

n 维欧几里得空间的凸函数：

仿射函数： $f(x)=a^Tx+b$
任意范式： $||x||_p=(|x_1|^p+..._|x_n|^p)^{1/p} \ for\ p\geq1$ 、 $x||_∞=max\{|x_1|,...,|x_2|\}$
平方和： $x||^2_2=x_1^2+...+x_n^2$
最大值函数： $max(x)=max\{x_1,x_2,...,x_n\}$
softmax函数或log-sum-exp函数： $log(exp\ x_1+...+exp\ x_n)$

矩阵空间上的凸函数：

仿射函数： $f(X)=tr(A^TX)+b=\sum_{i=1}^m\sum_{j=1}^nA_{ij}X_{ij}+b$ ，其中 $A\in R^{m\times n},b\in R$
谱范数（最大奇异值）是凸的： $f(X)=||X||_2=\sigma_{max}(X)=(\lambda_{max}(X^TX))^{1/2}$
对数行列式： $X\in S^n_{++},f(X)=log\ det\ X$

（三）凸函数的证明

在判断函数是凸函数还是凹函数的时候，不管是一阶还是二阶条件，必须满足函数f的定义域domf必须是凸集这个前提条件

1、将凸函数限制在一条直线上

如果能够把一个凸函数限制到一条直线上后仍是凸的，就可以判定这个凸函数是凸的：

数学表达式理解：函数 $f:R^n\rightarrow R$ 是凸函数当且仅当对于任意的 $x\in dom \ f$ 和任意向量 $v\in R^n$ ，函数 $g(t)=f(x+tv),dom\ g=\{t|x+tv\in dom\ f\}$ 为凸函数。
通俗理解：将n维空间的函数映射到一维平面上，问题就转换为判断一维空间中的函数 $g (t)$ 是否为凸函数。

应用示例：

2、判断函数是否为凸函数的一阶条件

假设函数 $f$ 可微，其梯度 $\Delta f$ 在开集定义域中处处存在，则函数f是凸函数的充要条件是定义域为凸集，且对任意 $x,y\in dom\ f$ ，下式成立：
$f(y)\geq f(x)+\Delta f(x)^T(y-x)$
梯度定义为：
$\Delta f(x)=(\frac{\partial f(x)}{\partial x_1},\frac{\partial f(x)}{\partial x_2},...,\frac{\partial f(x)}{\partial x_n})$
在这里插入图片描述

3、判断函数是否为凸函数的二阶条件

假设函数 $f$ 二阶可微，则对于函数 $f$ 的开集定义域dom内的任意一点，它的Hessian矩阵或者二阶导数 $\Delta^2f$ 存在，函数 $f$ 是凸函数的充要条件是其Hessian矩阵为半正定矩阵：
$\Delta^2 f(x)_{ij}=\frac{\partial^2 f(x)}{\partial x_i\partial y_j},i,j=1,...,n,\Delta^2 f(x)\geq0,∀x\in dom\ f$

其梯度 $\Delta f$ 在开集定义域中处处存在，则函数f是凸函数的充要条件是定义域为凸集，且对任意 $x,y\in dom\ f$ ，下式成立：
$f(y)\geq f(x)+\Delta f(x)^T(y-x)$
梯度定义为：
$\Delta f(x)=(\frac{\partial f(x)}{\partial x_1},\frac{\partial f(x)}{\partial x_2},...,\frac{\partial f(x)}{\partial x_n})$

应用示例：

（四）下水平集和表观

Epigraph和α-sublevel set的联系是对于任意一个t，都对应一个α-sublevel set。

下水平集α-sublevel set：

函数 $f:R^n\rightarrow R$ 的α-下水平集定义为：
$C_{\alpha}=\{x\in dom\ f|f(x)\leq\alpha\}$
对于任何的值，凸函数的下水平集仍然是凸集，但反之不一定正确，即某函数的所有下水平集都是凸集，但是这个函数可能不是凸函数

表观Epigraph：

f 是凸的当且仅当其表观是凸集
函数 $f:R^n\rightarrow R$ 的图像定义为：（是 $R^{n+1}$ 空间的一个子集）
$\{(x,f(x))|x\in dom\ f\}$
函数 $f:R^n\rightarrow R$ 的表观定义为：
$epif=\{(x,t)\in R^{t+1}|x\in dom\ f\,f(x)\leq t\}$

（五）詹森不等式

基本不等式：如果 $f$ 是凸的，对于 $x,y\in dom\ f，0\leq\theta\leq1$ ，有：
$f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y)$

应用示例：

拓展：如果 $f$ 是凸的，并且 $z$ 是 $d o m f$ 上的一个随机向量，则有：
$f(Ez)\leq Ef(z)$
基本不等式在离散分布的特殊情况：
$prob(z=x)=\theta,\ prob(z=y)=1-\theta$

二、函数的保凸运算

（一）证明一个函数是凸函数

根据凸优化理论学习一|最优化及凸集的基本概念可知：证明集合 C 是凸集的方法：

基于定义：如果 $x_1,x_2\in C,0\leq\theta\leq 1$ ，则有 $\theta x_1+(1-\theta)x_2\in C$ ；
使用凸函数；
表明 C 是通过保留凸性的操作从简单凸集（超平面、半空间、范数球……）获得的，这里保留凸性的操作有：交运算、仿射映射、透视函数、线性分数函数等。

基于定义（通常通过将凸函数限制在一条直线上来简化）
基于凸函数的一、二阶条件
证明函数f是通过保留凸性的操作从简单的凸函数获得的，这里保留凸性的操作有：非负加权和、与仿射函数的复合、逐点极大值和上确值、与标量或向量函数的复合、取下确界、透视函数等。

（二）保留凸性的运算

1、非负缩放、总和、积分

非负倍数：如果 $f$ 是凸函数，且 $\alpha\geq 0$ ，则 $\alpha f$ 是凸函数

和：如果 $f_1,f_2$ 均为凸函数，则 $f_1+f_2$ 也为凸函数

无穷总和：如果 $f_1,f_2,...$ 均为凸函数，则 $\sum_{i=1}^∞f_i$ 也为凸函数

积分：如果 $f(x,\alpha)$ 对于每一个 $\alpha\in A$ 是凸函数，那么 $\int_{\alpha\in A} {f(x,\alpha)} \,{\rm d}\alpha$ 也为凸函数

2、与仿射函数的复合

具有仿射函数的（预）组合：如果 $f$ 是凸函数，则 $f (A x + b)$ 也是凸函数。即自变量先进行仿射变换，再代入函数后仍会保持凸性。

证明：

线性不等式的对数障碍函数： $f(x)=-\sum_{i=1}^m log(b_i-a_i^Tx),dom \ f=\{x|a_i^T<b,i=1,2,...,m\}$
仿射函数的任意范数： $f (x) = ∣∣ A x + b ∣∣$

3、逐点最大值

若 $f_{1},f_{2},...,f_{m}$ 是凸函数，则 $f(x)=max\{f_{1},f_{2},...,f_{m}\}$ 是凸函数。

证明：（以两个函数为例）

分段线性函数： $f(x)=\mathop{max}\limits_{i=1,2,...,m}(a_{i}^{T}x+b_{i})$ 是凸函数
$x\in \R^{n}$ 的前 $r$ 个最大分量之和是凸函数： $f(x)=x_{[1]}+x_{[2]}+...+x_{[r]}$ （ $x_{[i]}$ 为 $x$ 的从大到小排列的第 $i$ 个分量）

4、逐点取上界

如果对于每个 $y \in A$ ， $f (x, y)$ 是关于 $x$ 的凸函数，则 $g(x) = {sup}_{y∈A} f (x, y)$ 是凸函数。

集合 $C$ 的支撑函数： $S_{C}(x)=\mathop{sup}\limits_{y\in C}y^{T}x$ 是凸函数
集合 $C$ 点到给定点 $x$ 的最远距离： $f(x)=\mathop{sup}\limits_{y\in C}||x-y||$
对称矩阵 $X\in S^{n}$ 的最大特征值： $\lambda_{max}(X)=\mathop{sup}\limits_{||y||_{2}=1}y^{T}Xy$

5、取下确界

若 $f (x, y)$ 关于 $(x, y)$ 整体是凸函数， $C$ 是凸集，则 $g(x)=\mathop{inf}\limits_{y\in C}f(x,y)$ 是凸函数

点 $x$ 到凸集 $S$ 的距离 $dist(x,S)=\mathop{inf}\limits_{y\in S}||x-y||$ 是凸函数

6、与标量函数复合

给定函数 $g:\R^{n}\rightarrow \R$ 和 $h:\R \rightarrow\R$ ，有 $f (x) = h (g (x))$ ，有以下4条结论成立：

h为凸， $\tilde{h}$ 不降， $g$ 为凸，则 $f$ 为凸
h为凸， $\tilde{h}$ 不增， $g$ 为凹，则 $f$ 为凸
h为凹， $\tilde{h}$ 不降， $g$ 为凹，则 $f$ 为凹
h为凹， $\tilde{h}$ 不增， $g$ 为凸，则 $f$ 为凹

$\tilde{h}$ 是 $h$ 的 Legendre 变换，对于一个函数 $h:\R \rightarrow\R$ ，它的Legendre变换定义为：
$\tilde{h}(t)=sup_{s\in R}\{ts-h(s)\}$

推论

如果 $g$ 是凸函数，则 $e^{g(x)}$ 是凸函数
如果 $g$ 是正值凹函数，则 $\frac{1}{g(x)}$ 是凸函数

7、与向量函数复合

给定函数 $g:\R^{n}\rightarrow \R^{k}$ 和 $h:\R^{k} \rightarrow\R$ ，有 $f(x)=h(g(x))=h(g_{1}(x),g_{2}(x),...,g_{k}(x))$ ，有以下4条结论成立：

h为凸， $\tilde{h}$ 每个分量不降， $g$ 为凸，则 $f$ 为凸
h为凸， $\tilde{h}$ 每个分量不增， $g$ 为凹，则 $f$ 为凸
h为凹， $\tilde{h}$ 每个分量不降， $g$ 为凹，则 $f$ 为凹
h为凹， $\tilde{h}$ 每个分量不增， $g$ 为凸，则 $f$ 为凹

推论

如果 $g_i$ 是凸函数，则 $log\sum_{i=1}^m e^{g(x)}$ 是凸函数
如果 $g_i$ 是正值凹函数，则 $\sum_{i=1}^mlog{g_i(x)}$ 是凹函数

三、构造性凸分析

从作为表达式给出的函数 f 开始
为表达式构建解析树
- 叶子是变量或常量
- 节点是子表达式的函数
使用组合规则将子表达式标记为凸、凹、仿射或无
如果根节点标记为凸（凹），则 f 为凸（凹）

四、透视与共轭

（一）透视函数

定义 $f:\R^{n}\rightarrow \R$ 和 $g:\R^{n}×\R \rightarrow\R$ ，且

$g(x,t)=tf(\frac{x}{t}),\quad domg=\{(x,t)|\frac{x}{t}\in domf,t>0\}$

若 $f$ 是凸函数，则 $g$ 是凸函数。

$f(x)=x^{T}x$ 是凸函数，因此 $g(x,t)=\frac{x^{T}x}{t}$ 是区域 ${(x,t)|t>0\}$ 上的凸函数
$f (x) = - l o gx$ 是凸函数，因此相对熵函数 $g (x, t) = tl o g t - tl o gx$ 是 $R^{2}_{++}$ 上的凸函数
若 $f$ 是凸函数，那么 $g(x)=(c^{T}x+d)f(\frac{Ax+b}{c^{T}x+d})$ 是区域 $\{x|c^{T}x+d>0,\frac{Ax+b}{c^{T}x+d}\in domf\}$ 上的凸函数

（二）共轭函数

任一适当函数 $f$ 的共轭函数定义为：
$f^∗(y)=sup_{x∈dom\ f} \{y^Tx−f(x)\}$
对任意函数 $f$ 都可以定义为共轭函数，也即不要求 $f$ 是凸的（因为共轭函数是一组仿射函数的上界，因此不论 $f$ 凹凸性， $f^{*}$ 必为凸函数）

根据凸性充要条件， $f (x)$ 在 $\forall x\in D\subset\R$ 的切线都是对 $f (x)$ 的下界，即 $f(x)\geq f(x_{0})+f^{'}(x_{0})(x-x_{0})=f^{'}(x_{0})x+f(x_{0})-f^{'}(x_{0})x_{0}$
反过来，如果确定斜率 $k$ ，就可以得到一组平行线 $\{kx+b:b\in \R\}$ ，从 $-\infty$ 增大 $b$ ，直到直线与 $f (x)$ 相切时有 $f(x)\geq kx+b$ ，也即 $-b\geq kx- f(x)$ ，此不等式在 $D$ 上恒成立，并且能够取相等，因此 $-b=\mathop{sup}\limits_{x\in D}(kx-f(x))=f^{*}(y)$

$f^*(y)$ 给出了斜率为 $y$ 且与 $f (x)$ 相切直线截距的相反数，或者说共轭函数 $f^*(y)$ 表示了线性函数 $y^Tx$ 和 $f (x)$ 之间的最大差异。
在这里插入图片描述

五、拟凸性

（一）拟凸函数(quasiconvex function) 定义

若 $\text{dom}f$ 为凸集，且对任意的 $\alpha$ ，其下水平集 $S_\alpha = \{x\in\text{dom}f | f(x)\le\alpha\}$ 都是凸集，则 $f$ 为拟凸函数。

如果 $f$ 是拟凸的，那么 $- f$ 就是拟凹函数
如果一个函数既是拟凸函数又是拟凹函数，那么它是拟线性(quasilinear) 的

（二）常见的拟凸、拟凹、拟线性函数

拟凸函数：

$f(x)=\sqrt{|x|}$
$f(x)=\frac{||x-1||_2}{||x-b||_2},domf=\{x|\ ||x-a||_2\leq||x-b||_2\}$

拟凹函数：

$f(x)=x_1x_2\ on\ R^2$

拟线性函数：

$ceil(x)=inf\{z\in Z|z\geq x\}$
$log\ x\ on\ R_{++}$
线性微分函数 $f(x)=\frac{a^Tx+b}{c^Tx+d},domf=\{c^Tx+d>0\}$

（三）拟凸函数的性质

修正 Jensen 不等式：函数 $f$ 为拟凸的等价于：定义域为凸集，且
$0\le\theta\le1 \Longrightarrow f(\theta x+(1-\theta)y)\le\max\{f(x),f(y)\}$
一阶条件：具有凸域的可微 f 是拟凸当且仅当：
$f(y)\leq f(x) \Longrightarrow \Delta f(x)^T(y-x)\leq 0$
拟凸函数之和不一定是拟凸函数