系列文章目录
凸优化理论学习一|最优化及凸集的基本概念
文章目录
- 系列文章目录
- 一、凸函数
- (一)凸集
- (二)凸函数的定义及举例
- (三)凸函数的证明
- 1、将凸函数限制在一条直线上
- 2、判断函数是否为凸函数的一阶条件
- 3、判断函数是否为凸函数的二阶条件
- (四)下水平集和表观
- (五)詹森不等式
- 二、函数的保凸运算
- (一)证明一个函数是凸函数
- (二)保留凸性的运算
- 1、非负缩放、总和、积分
- 2、与仿射函数的复合
- 3、逐点最大值
- 4、逐点取上界
- 5、取下确界
- 6、与标量函数复合
- 7、与向量函数复合
- 三、构造性凸分析
- 四、透视与共轭
- (一)透视函数
- (二)共轭函数
- 五、拟凸性
- (一)拟凸函数(quasiconvex function) 定义
- (二)常见的拟凸、拟凹、拟线性函数
- (三)拟凸函数的性质
一、凸函数
(一)凸集
设
S
S
S为
n
n
n维欧氏空间
R
n
R^n
Rn中一个集合,若对
S
S
S中任意两点,连接他们的线段仍属于
S
S
S;换言之,对
S
S
S中任意两点
x
(
1
)
x^{(1)}
x(1),
x
(
2
)
x^{(2)}
x(2)及每个实数
λ
∈
[
0
,
1
]
\lambda\in[0,1]
λ∈[0,1],都有:
λ
x
(
1
)
+
(
1
−
λ
)
x
(
2
)
∈
S
\lambda x^{(1)}+(1-\lambda)x^{(2)}\in S
λx(1)+(1−λ)x(2)∈S
则称
S
S
S为凸集,其中
x
(
1
)
x^{(1)}
x(1),
x
(
2
)
x^{(2)}
x(2)表示向量,
λ
x
(
1
)
+
(
1
−
λ
)
x
(
2
)
\lambda x^{(1)}+(1-\lambda)x^{(2)}
λx(1)+(1−λ)x(2)称为
x
(
1
)
x^{(1)}
x(1),
x
(
2
)
x^{(2)}
x(2)的凸组合。
(二)凸函数的定义及举例
设
S
S
S为
n
n
n维欧氏空间
R
n
R^n
Rn中的非空凸集,
f
f
f是定义在
S
S
S上的实函数,如果对任意的
x
,
y
∈
S
x,y\in S
x,y∈S及
0
≤
θ
≤
1
0\leq \theta \leq 1
0≤θ≤1,有:
f
(
θ
x
+
(
1
−
θ
)
y
)
≤
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y)
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
则称
f
f
f为
S
S
S上的凸函数。(这里的凸函数与高数里面定义的凸函数则恰恰相反。)
- 如果 -f 是凸的,则 f 是凹的
- 当不需要满足等号条件时,
f
f
f为严格凸函数
标量/一维空间内的凸函数:
- 仿射集:在实数域的所有 a x + b , a , b ∈ R ax+b,a,b\in R ax+b,a,b∈R
- 指数函数: e a x , a ∈ R e^{a x},a\in R eax,a∈R
- 幂函数: x α , α ≥ 1 x^{\alpha},\alpha\geq1 xα,α≥1或 α ≤ 0 \alpha\leq0 α≤0
- 幂函数的绝对值: ∣ x ∣ p , p ≥ 1 |x|^p,p\geq1 ∣x∣p,p≥1
- 负熵函数: x l o g x xlogx xlogx,定义域 R + + R_{++} R++
标量/一维空间内的凹函数:
- 仿射集:在实数域的所有 a x + b , a , b ∈ R ax+b,a,b\in R ax+b,a,b∈R
- 幂函数: x α , 0 ≤ α ≤ 1 x^{\alpha},0\leq\alpha\leq1 xα,0≤α≤1
- 熵函数: − x l o g x -xlogx −xlogx,定义域 R + + R_{++} R++
n 维欧几里得空间的凸函数:
- 仿射函数: f ( x ) = a T x + b f(x)=a^Tx+b f(x)=aTx+b
- 任意范式: ∣ ∣ x ∣ ∣ p = ( ∣ x 1 ∣ p + . . . ∣ x n ∣ p ) 1 / p f o r p ≥ 1 ||x||_p=(|x_1|^p+..._|x_n|^p)^{1/p} \ for\ p\geq1 ∣∣x∣∣p=(∣x1∣p+...∣xn∣p)1/p for p≥1、 ∣ ∣ x ∣ ∣ ∞ = m a x { ∣ x 1 ∣ , . . . , ∣ x 2 ∣ } ||x||_∞=max\{|x_1|,...,|x_2|\} ∣∣x∣∣∞=max{∣x1∣,...,∣x2∣}
- 平方和: ∣ ∣ x ∣ ∣ 2 2 = x 1 2 + . . . + x n 2 ||x||^2_2=x_1^2+...+x_n^2 ∣∣x∣∣22=x12+...+xn2
- 最大值函数: m a x ( x ) = m a x { x 1 , x 2 , . . . , x n } max(x)=max\{x_1,x_2,...,x_n\} max(x)=max{x1,x2,...,xn}
- softmax函数或log-sum-exp函数: l o g ( e x p x 1 + . . . + e x p x n ) log(exp\ x_1+...+exp\ x_n) log(exp x1+...+exp xn)
矩阵空间上的凸函数:
- 仿射函数: f ( X ) = t r ( A T X ) + b = ∑ i = 1 m ∑ j = 1 n A i j X i j + b f(X)=tr(A^TX)+b=\sum_{i=1}^m\sum_{j=1}^nA_{ij}X_{ij}+b f(X)=tr(ATX)+b=∑i=1m∑j=1nAijXij+b,其中 A ∈ R m × n , b ∈ R A\in R^{m\times n},b\in R A∈Rm×n,b∈R
- 谱范数(最大奇异值)是凸的: f ( X ) = ∣ ∣ X ∣ ∣ 2 = σ m a x ( X ) = ( λ m a x ( X T X ) ) 1 / 2 f(X)=||X||_2=\sigma_{max}(X)=(\lambda_{max}(X^TX))^{1/2} f(X)=∣∣X∣∣2=σmax(X)=(λmax(XTX))1/2
- 对数行列式: X ∈ S + + n , f ( X ) = l o g d e t X X\in S^n_{++},f(X)=log\ det\ X X∈S++n,f(X)=log det X
(三)凸函数的证明
在判断函数是凸函数还是凹函数的时候,不管是一阶还是二阶条件,必须满足函数f的定义域domf必须是凸集这个前提条件
1、将凸函数限制在一条直线上
如果能够把一个凸函数限制到一条直线上后仍是凸的,就可以判定这个凸函数是凸的:
- 数学表达式理解:函数 f : R n → R f:R^n\rightarrow R f:Rn→R是凸函数当且仅当对于任意的 x ∈ d o m f x\in dom \ f x∈dom f和任意向量 v ∈ R n v\in R^n v∈Rn,函数 g ( t ) = f ( x + t v ) , d o m g = { t ∣ x + t v ∈ d o m f } g(t)=f(x+tv),dom\ g=\{t|x+tv\in dom\ f\} g(t)=f(x+tv),dom g={t∣x+tv∈dom f}为凸函数。
- 通俗理解:将n维空间的函数映射到一维平面上,问题就转换为判断一维空间中的函数 g ( t ) g(t) g(t)是否为凸函数。
应用示例:
2、判断函数是否为凸函数的一阶条件
假设函数
f
f
f可微,其梯度
Δ
f
\Delta f
Δf在开集定义域中处处存在,则函数f是凸函数的充要条件是定义域为凸集,且对任意
x
,
y
∈
d
o
m
f
x,y\in dom\ f
x,y∈dom f,下式成立:
f
(
y
)
≥
f
(
x
)
+
Δ
f
(
x
)
T
(
y
−
x
)
f(y)\geq f(x)+\Delta f(x)^T(y-x)
f(y)≥f(x)+Δf(x)T(y−x)
梯度定义为:
Δ
f
(
x
)
=
(
∂
f
(
x
)
∂
x
1
,
∂
f
(
x
)
∂
x
2
,
.
.
.
,
∂
f
(
x
)
∂
x
n
)
\Delta f(x)=(\frac{\partial f(x)}{\partial x_1},\frac{\partial f(x)}{\partial x_2},...,\frac{\partial f(x)}{\partial x_n})
Δf(x)=(∂x1∂f(x),∂x2∂f(x),...,∂xn∂f(x))
3、判断函数是否为凸函数的二阶条件
假设函数
f
f
f二阶可微,则对于函数
f
f
f的开集定义域dom内的任意一点,它的Hessian矩阵或者二阶导数
Δ
2
f
\Delta^2f
Δ2f存在,函数
f
f
f是凸函数的充要条件是其Hessian矩阵为半正定矩阵:
Δ
2
f
(
x
)
i
j
=
∂
2
f
(
x
)
∂
x
i
∂
y
j
,
i
,
j
=
1
,
.
.
.
,
n
,
Δ
2
f
(
x
)
≥
0
,
∀
x
∈
d
o
m
f
\Delta^2 f(x)_{ij}=\frac{\partial^2 f(x)}{\partial x_i\partial y_j},i,j=1,...,n,\Delta^2 f(x)\geq0,∀x\in dom\ f
Δ2f(x)ij=∂xi∂yj∂2f(x),i,j=1,...,n,Δ2f(x)≥0,∀x∈dom f
其梯度
Δ
f
\Delta f
Δf在开集定义域中处处存在,则函数f是凸函数的充要条件是定义域为凸集,且对任意
x
,
y
∈
d
o
m
f
x,y\in dom\ f
x,y∈dom f,下式成立:
f
(
y
)
≥
f
(
x
)
+
Δ
f
(
x
)
T
(
y
−
x
)
f(y)\geq f(x)+\Delta f(x)^T(y-x)
f(y)≥f(x)+Δf(x)T(y−x)
梯度定义为:
Δ
f
(
x
)
=
(
∂
f
(
x
)
∂
x
1
,
∂
f
(
x
)
∂
x
2
,
.
.
.
,
∂
f
(
x
)
∂
x
n
)
\Delta f(x)=(\frac{\partial f(x)}{\partial x_1},\frac{\partial f(x)}{\partial x_2},...,\frac{\partial f(x)}{\partial x_n})
Δf(x)=(∂x1∂f(x),∂x2∂f(x),...,∂xn∂f(x))
应用示例:
(四)下水平集和表观
Epigraph和α-sublevel set的联系是对于任意一个t,都对应一个α-sublevel set。
下水平集α-sublevel set:
- 函数
f
:
R
n
→
R
f:R^n\rightarrow R
f:Rn→R的α-下水平集定义为:
C α = { x ∈ d o m f ∣ f ( x ) ≤ α } C_{\alpha}=\{x\in dom\ f|f(x)\leq\alpha\} Cα={x∈dom f∣f(x)≤α} - 对于任何的值,凸函数的下水平集仍然是凸集,但反之不一定正确,即某函数的所有下水平集都是凸集,但是这个函数可能不是凸函数
表观Epigraph:
- f 是凸的当且仅当其表观是凸集
- 函数
f
:
R
n
→
R
f:R^n\rightarrow R
f:Rn→R的图像定义为:(是
R
n
+
1
R^{n+1}
Rn+1空间的一个子集)
{ ( x , f ( x ) ) ∣ x ∈ d o m f } \{(x,f(x))|x\in dom\ f\} {(x,f(x))∣x∈dom f} - 函数
f
:
R
n
→
R
f:R^n\rightarrow R
f:Rn→R的表观定义为:
e p i f = { ( x , t ) ∈ R t + 1 ∣ x ∈ d o m f f ( x ) ≤ t } epif=\{(x,t)\in R^{t+1}|x\in dom\ f\,f(x)\leq t\} epif={(x,t)∈Rt+1∣x∈dom ff(x)≤t}
(五)詹森不等式
基本不等式:如果
f
f
f是凸的,对于
x
,
y
∈
d
o
m
f
,
0
≤
θ
≤
1
x,y\in dom\ f,0\leq\theta\leq1
x,y∈dom f,0≤θ≤1,有:
f
(
θ
x
+
(
1
−
θ
)
y
)
≤
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y)
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
应用示例:
拓展:如果
f
f
f是凸的,并且
z
z
z是
d
o
m
f
dom f
domf上的一个随机向量,则有:
f
(
E
z
)
≤
E
f
(
z
)
f(Ez)\leq Ef(z)
f(Ez)≤Ef(z)
基本不等式在离散分布的特殊情况:
p
r
o
b
(
z
=
x
)
=
θ
,
p
r
o
b
(
z
=
y
)
=
1
−
θ
prob(z=x)=\theta,\ prob(z=y)=1-\theta
prob(z=x)=θ, prob(z=y)=1−θ
二、函数的保凸运算
(一)证明一个函数是凸函数
根据凸优化理论学习一|最优化及凸集的基本概念可知:证明集合 C 是凸集的方法:
- 基于定义:如果 x 1 , x 2 ∈ C , 0 ≤ θ ≤ 1 x_1,x_2\in C,0\leq\theta\leq 1 x1,x2∈C,0≤θ≤1,则有 θ x 1 + ( 1 − θ ) x 2 ∈ C \theta x_1+(1-\theta)x_2\in C θx1+(1−θ)x2∈C;
- 使用凸函数;
- 表明 C 是通过保留凸性的操作从简单凸集(超平面、半空间、范数球……)获得的,这里保留凸性的操作有:交运算、仿射映射、透视函数、线性分数函数等。
- 基于定义(通常通过将凸函数限制在一条直线上来简化)
- 基于凸函数的一、二阶条件
- 证明函数f是通过保留凸性的操作从简单的凸函数获得的,这里保留凸性的操作有:非负加权和、与仿射函数的复合、逐点极大值和上确值、与标量或向量函数的复合、取下确界、透视函数等。
(二)保留凸性的运算
1、非负缩放、总和、积分
非负倍数: 如果 f f f是凸函数,且 α ≥ 0 \alpha\geq 0 α≥0,则 α f \alpha f αf是凸函数
和: 如果 f 1 , f 2 f_1,f_2 f1,f2均为凸函数,则 f 1 + f 2 f_1+f_2 f1+f2也为凸函数
无穷总和: 如果 f 1 , f 2 , . . . f_1,f_2,... f1,f2,...均为凸函数,则 ∑ i = 1 ∞ f i \sum_{i=1}^∞f_i ∑i=1∞fi也为凸函数
积分: 如果 f ( x , α ) f(x,\alpha) f(x,α)对于每一个 α ∈ A \alpha\in A α∈A是凸函数,那么 ∫ α ∈ A f ( x , α ) d α \int_{\alpha\in A} {f(x,\alpha)} \,{\rm d}\alpha ∫α∈Af(x,α)dα也为凸函数
2、与仿射函数的复合
具有仿射函数的(预)组合:如果 f f f 是凸函数,则 f ( A x + b ) f (Ax + b) f(Ax+b) 也是凸函数。即自变量先进行仿射变换,再代入函数后仍会保持凸性。
证明:
- 线性不等式的对数障碍函数: f ( x ) = − ∑ i = 1 m l o g ( b i − a i T x ) , d o m f = { x ∣ a i T < b , i = 1 , 2 , . . . , m } f(x)=-\sum_{i=1}^m log(b_i-a_i^Tx),dom \ f=\{x|a_i^T<b,i=1,2,...,m\} f(x)=−∑i=1mlog(bi−aiTx),dom f={x∣aiT<b,i=1,2,...,m}
- 仿射函数的任意范数: f ( x ) = ∣ ∣ A x + b ∣ ∣ f(x)=||Ax+b|| f(x)=∣∣Ax+b∣∣
3、逐点最大值
若 f 1 , f 2 , . . . , f m f_{1},f_{2},...,f_{m} f1,f2,...,fm是凸函数,则 f ( x ) = m a x { f 1 , f 2 , . . . , f m } f(x)=max\{f_{1},f_{2},...,f_{m}\} f(x)=max{f1,f2,...,fm}是凸函数。
证明:(以两个函数为例)
- 分段线性函数: f ( x ) = m a x i = 1 , 2 , . . . , m ( a i T x + b i ) f(x)=\mathop{max}\limits_{i=1,2,...,m}(a_{i}^{T}x+b_{i}) f(x)=i=1,2,...,mmax(aiTx+bi)是凸函数
- x ∈ R n x\in \R^{n} x∈Rn的前 r r r个最大分量之和是凸函数: f ( x ) = x [ 1 ] + x [ 2 ] + . . . + x [ r ] f(x)=x_{[1]}+x_{[2]}+...+x_{[r]} f(x)=x[1]+x[2]+...+x[r]( x [ i ] x_{[i]} x[i]为 x x x的从大到小排列的第 i i i个分量)
4、逐点取上界
如果对于每个 y ∈ A y ∈ A y∈A, f ( x , y ) f (x, y) f(x,y) 是关于 x x x的凸函数,则 g ( x ) = s u p y ∈ A f ( x , y ) g(x) = {sup}_{y∈A} f (x, y) g(x)=supy∈Af(x,y) 是凸函数。
- 集合 C C C的支撑函数: S C ( x ) = s u p y ∈ C y T x S_{C}(x)=\mathop{sup}\limits_{y\in C}y^{T}x SC(x)=y∈CsupyTx是凸函数
- 集合 C C C点到给定点 x x x的最远距离: f ( x ) = s u p y ∈ C ∣ ∣ x − y ∣ ∣ f(x)=\mathop{sup}\limits_{y\in C}||x-y|| f(x)=y∈Csup∣∣x−y∣∣
- 对称矩阵 X ∈ S n X\in S^{n} X∈Sn的最大特征值: λ m a x ( X ) = s u p ∣ ∣ y ∣ ∣ 2 = 1 y T X y \lambda_{max}(X)=\mathop{sup}\limits_{||y||_{2}=1}y^{T}Xy λmax(X)=∣∣y∣∣2=1supyTXy
5、取下确界
若 f ( x , y ) f(x,y) f(x,y)关于 ( x , y ) (x,y) (x,y)整体是凸函数, C C C是凸集,则 g ( x ) = i n f y ∈ C f ( x , y ) g(x)=\mathop{inf}\limits_{y\in C}f(x,y) g(x)=y∈Cinff(x,y)是凸函数
点 x x x到凸集 S S S的距离 d i s t ( x , S ) = i n f y ∈ S ∣ ∣ x − y ∣ ∣ dist(x,S)=\mathop{inf}\limits_{y\in S}||x-y|| dist(x,S)=y∈Sinf∣∣x−y∣∣是凸函数
6、与标量函数复合
给定函数 g : R n → R g:\R^{n}\rightarrow \R g:Rn→R和 h : R → R h:\R \rightarrow\R h:R→R,有 f ( x ) = h ( g ( x ) ) f(x)=h(g(x)) f(x)=h(g(x)),有以下4条结论成立:
- h为凸, h ~ \tilde{h} h~不降, g g g为凸,则 f f f为凸
- h为凸, h ~ \tilde{h} h~不增, g g g为凹,则 f f f为凸
- h为凹, h ~ \tilde{h} h~不降, g g g为凹,则 f f f为凹
- h为凹, h ~ \tilde{h} h~不增, g g g为凸,则 f f f为凹
h ~ \tilde{h} h~是 h h h 的 Legendre 变换,对于一个函数 h : R → R h:\R \rightarrow\R h:R→R,它的Legendre变换定义为:
h ~ ( t ) = s u p s ∈ R { t s − h ( s ) } \tilde{h}(t)=sup_{s\in R}\{ts-h(s)\} h~(t)=sups∈R{ts−h(s)}
推论
- 如果 g g g是凸函数,则 e g ( x ) e^{g(x)} eg(x)是凸函数
- 如果 g g g是正值凹函数,则 1 g ( x ) \frac{1}{g(x)} g(x)1是凸函数
7、与向量函数复合
给定函数 g : R n → R k g:\R^{n}\rightarrow \R^{k} g:Rn→Rk和 h : R k → R h:\R^{k} \rightarrow\R h:Rk→R,有 f ( x ) = h ( g ( x ) ) = h ( g 1 ( x ) , g 2 ( x ) , . . . , g k ( x ) ) f(x)=h(g(x))=h(g_{1}(x),g_{2}(x),...,g_{k}(x)) f(x)=h(g(x))=h(g1(x),g2(x),...,gk(x)),有以下4条结论成立:
- h为凸, h ~ \tilde{h} h~每个分量不降, g g g为凸,则 f f f为凸
- h为凸, h ~ \tilde{h} h~每个分量不增, g g g为凹,则 f f f为凸
- h为凹, h ~ \tilde{h} h~每个分量不降, g g g为凹,则 f f f为凹
- h为凹, h ~ \tilde{h} h~每个分量不增, g g g为凸,则 f f f为凹
推论
- 如果 g i g_i gi是凸函数,则 l o g ∑ i = 1 m e g ( x ) log\sum_{i=1}^m e^{g(x)} log∑i=1meg(x)是凸函数
- 如果 g i g_i gi是正值凹函数,则 ∑ i = 1 m l o g g i ( x ) \sum_{i=1}^mlog{g_i(x)} ∑i=1mloggi(x)是凹函数
三、构造性凸分析
- 从作为表达式给出的函数 f 开始
- 为表达式构建解析树
- 叶子是变量或常量
- 节点是子表达式的函数
- 使用组合规则将子表达式标记为凸、凹、仿射或无
- 如果根节点标记为凸(凹),则 f 为凸(凹)
四、透视与共轭
(一)透视函数
定义 f : R n → R f:\R^{n}\rightarrow \R f:Rn→R 和 g : R n × R → R g:\R^{n}×\R \rightarrow\R g:Rn×R→R,且
g ( x , t ) = t f ( x t ) , d o m g = { ( x , t ) ∣ x t ∈ d o m f , t > 0 } g(x,t)=tf(\frac{x}{t}),\quad domg=\{(x,t)|\frac{x}{t}\in domf,t>0\} g(x,t)=tf(tx),domg={(x,t)∣tx∈domf,t>0}
若 f f f是凸函数,则 g g g是凸函数。
- f ( x ) = x T x f(x)=x^{T}x f(x)=xTx是凸函数,因此 g ( x , t ) = x T x t g(x,t)=\frac{x^{T}x}{t} g(x,t)=txTx是区域 { ( x , t ) ∣ t > 0 } \{(x,t)|t>0\} {(x,t)∣t>0}上的凸函数
- f ( x ) = − l o g x f(x)=-logx f(x)=−logx是凸函数,因此相对熵函数 g ( x , t ) = t l o g t − t l o g x g(x,t)=tlogt-tlogx g(x,t)=tlogt−tlogx是 R + + 2 \R^{2}_{++} R++2上的凸函数
- 若 f f f是凸函数,那么 g ( x ) = ( c T x + d ) f ( A x + b c T x + d ) g(x)=(c^{T}x+d)f(\frac{Ax+b}{c^{T}x+d}) g(x)=(cTx+d)f(cTx+dAx+b)是区域 { x ∣ c T x + d > 0 , A x + b c T x + d ∈ d o m f } \{x|c^{T}x+d>0,\frac{Ax+b}{c^{T}x+d}\in domf\} {x∣cTx+d>0,cTx+dAx+b∈domf}上的凸函数
(二)共轭函数
任一适当函数
f
f
f的共轭函数定义为:
f
∗
(
y
)
=
s
u
p
x
∈
d
o
m
f
{
y
T
x
−
f
(
x
)
}
f^∗(y)=sup_{x∈dom\ f} \{y^Tx−f(x)\}
f∗(y)=supx∈dom f{yTx−f(x)}
对任意函数
f
f
f都可以定义为共轭函数,也即不要求
f
f
f是凸的(因为共轭函数是一组仿射函数的上界,因此不论
f
f
f凹凸性,
f
∗
f^{*}
f∗必为凸函数)
- 根据凸性充要条件, f ( x ) f(x) f(x)在 ∀ x ∈ D ⊂ R \forall x\in D\subset\R ∀x∈D⊂R的切线都是对 f ( x ) f(x) f(x)的下界,即 f ( x ) ≥ f ( x 0 ) + f ′ ( x 0 ) ( x − x 0 ) = f ′ ( x 0 ) x + f ( x 0 ) − f ′ ( x 0 ) x 0 f(x)\geq f(x_{0})+f^{'}(x_{0})(x-x_{0})=f^{'}(x_{0})x+f(x_{0})-f^{'}(x_{0})x_{0} f(x)≥f(x0)+f′(x0)(x−x0)=f′(x0)x+f(x0)−f′(x0)x0
- 反过来,如果确定斜率 k k k,就可以得到一组平行线 { k x + b : b ∈ R } \{kx+b:b\in \R\} {kx+b:b∈R},从 − ∞ -\infty −∞ 增大 b b b,直到直线与 f ( x ) f(x) f(x)相切时有 f ( x ) ≥ k x + b f(x)\geq kx+b f(x)≥kx+b,也即 − b ≥ k x − f ( x ) -b\geq kx- f(x) −b≥kx−f(x),此不等式在 D D D上恒成立,并且能够取相等,因此 − b = s u p x ∈ D ( k x − f ( x ) ) = f ∗ ( y ) -b=\mathop{sup}\limits_{x\in D}(kx-f(x))=f^{*}(y) −b=x∈Dsup(kx−f(x))=f∗(y)
f
∗
(
y
)
f^*(y)
f∗(y)给出了斜率为
y
y
y且与
f
(
x
)
f(x)
f(x)相切直线截距的相反数,或者说共轭函数
f
∗
(
y
)
f^*(y)
f∗(y)表示了线性函数
y
T
x
y^Tx
yTx和
f
(
x
)
f(x)
f(x)之间的最大差异。
五、拟凸性
(一)拟凸函数(quasiconvex function) 定义
若 dom f \text{dom}f domf为凸集,且对任意的 α \alpha α,其下水平集 S α = { x ∈ dom f ∣ f ( x ) ≤ α } S_\alpha = \{x\in\text{dom}f | f(x)\le\alpha\} Sα={x∈domf∣f(x)≤α}都是凸集,则 f f f为拟凸函数。
- 如果 f f f是拟凸的,那么 − f -f −f就是拟凹函数
- 如果一个函数既是拟凸函数又是拟凹函数,那么它是拟线性(quasilinear) 的
(二)常见的拟凸、拟凹、拟线性函数
拟凸函数:
- f ( x ) = ∣ x ∣ f(x)=\sqrt{|x|} f(x)=∣x∣
- f ( x ) = ∣ ∣ x − 1 ∣ ∣ 2 ∣ ∣ x − b ∣ ∣ 2 , d o m f = { x ∣ ∣ ∣ x − a ∣ ∣ 2 ≤ ∣ ∣ x − b ∣ ∣ 2 } f(x)=\frac{||x-1||_2}{||x-b||_2},domf=\{x|\ ||x-a||_2\leq||x-b||_2\} f(x)=∣∣x−b∣∣2∣∣x−1∣∣2,domf={x∣ ∣∣x−a∣∣2≤∣∣x−b∣∣2}
拟凹函数:
- f ( x ) = x 1 x 2 o n R 2 f(x)=x_1x_2\ on\ R^2 f(x)=x1x2 on R2
拟线性函数:
- c e i l ( x ) = i n f { z ∈ Z ∣ z ≥ x } ceil(x)=inf\{z\in Z|z\geq x\} ceil(x)=inf{z∈Z∣z≥x}
- l o g x o n R + + log\ x\ on\ R_{++} log x on R++
- 线性微分函数 f ( x ) = a T x + b c T x + d , d o m f = { c T x + d > 0 } f(x)=\frac{a^Tx+b}{c^Tx+d},domf=\{c^Tx+d>0\} f(x)=cTx+daTx+b,domf={cTx+d>0}
(三)拟凸函数的性质
-
修正 Jensen 不等式:函数 f f f为拟凸的等价于:定义域为凸集,且
0 ≤ θ ≤ 1 ⟹ f ( θ x + ( 1 − θ ) y ) ≤ max { f ( x ) , f ( y ) } 0\le\theta\le1 \Longrightarrow f(\theta x+(1-\theta)y)\le\max\{f(x),f(y)\} 0≤θ≤1⟹f(θx+(1−θ)y)≤max{f(x),f(y)} -
一阶条件:具有凸域的可微 f 是拟凸当且仅当:
f ( y ) ≤ f ( x ) ⟹ Δ f ( x ) T ( y − x ) ≤ 0 f(y)\leq f(x) \Longrightarrow \Delta f(x)^T(y-x)\leq 0 f(y)≤f(x)⟹Δf(x)T(y−x)≤0
-
拟凸函数之和不一定是拟凸函数
参考:
凸函数
(最优化理论与方法)第二章最优化所需基础知识-第七节:保凸的运算和共轭函数