1. 常见问题[0]
L0范数优化问题:1.2.2
m
i
n
∣
∣
x
∣
∣
0
,
min \space ||x||_0,
min ∣∣x∣∣0,
s
.
t
.
A
x
=
b
s.t. \space Ax=b
s.t. Ax=b
其中,
A
x
=
b
Ax=b
Ax=b为一个欠定方程组(方程个数远小于未知数个数)。
问题1.2.2
是一个NP难问题,若
A
,
b
A,b
A,b满足一定条件,可将其转化为基追踪问题求解(L1范数优化问题),但不能将其转化为L2范数优化问题。
因为L0与L1范数优化问题的解具有稀疏性,而L2范数优化问题却不具有稀疏性。
基追踪问题:1.2.3
m
i
n
∣
∣
x
∣
∣
1
,
min \space ||x||_1,
min ∣∣x∣∣1,
s
.
t
.
A
x
=
b
s.t. \space Ax=b
s.t. Ax=b
其中,
A
x
=
b
Ax=b
Ax=b为一个欠定方程组(方程个数远小于未知数个数)
LASSO问题(LASSO,least absolute shrinkage and selection operator):1.2.5
m
i
n
1
2
∣
∣
A
x
−
b
∣
∣
2
+
μ
∣
∣
x
∣
∣
1
min \space \frac{1}{2} ||Ax-b||^2 + \mu ||x||_1
min 21∣∣Ax−b∣∣2+μ∣∣x∣∣1
矩阵补全问题,低秩矩阵恢复问题:1.3.1
m
i
n
r
a
n
k
(
X
)
,
min \space rank(X),
min rank(X),
s
.
t
.
X
i
j
=
M
i
j
,
(
i
,
j
)
∈
Ω
s.t. \space X_{ij} = M_{ij}, (i,j)\in \Omega
s.t. Xij=Mij,(i,j)∈Ω
其中,
Ω
\Omega
Ω为指标集
该问题是一个NP难问题。
r
a
n
k
(
X
)
rank(X)
rank(X)为矩阵
X
X
X非零奇异值的个数,将该问题替换为使得矩阵的核范数最小(奇异值和最小):
m
i
n
∣
∣
X
∣
∣
∗
,
min \space ||X||_*,
min ∣∣X∣∣∗, 1.3.2
s
.
t
.
X
i
j
=
M
i
j
,
(
i
,
j
)
∈
Ω
s.t. \space X_{ij} = M_{ij}, (i,j)\in \Omega
s.t. Xij=Mij,(i,j)∈Ω
问题1.3.2
的罚函数形式:
m
i
n
μ
∣
∣
X
∣
∣
∗
+
1
2
Σ
(
i
,
j
)
∈
Ω
(
X
i
j
−
M
i
j
)
2
min \space \mu ||X||_* + \frac{1}{2} \Sigma_{(i,j)\in \Omega} (X_{ij} - M_{ij})^2
min μ∣∣X∣∣∗+21Σ(i,j)∈Ω(Xij−Mij)2 1.3.3
神经网络优化模型:1.4.3
m
i
n
Σ
i
=
1
m
∣
∣
h
(
a
i
;
x
)
−
b
i
∣
∣
+
λ
r
(
x
)
min \space \Sigma_{i=1}^m ||h(a_i; x) - b_i|| + \lambda r(x)
min Σi=1m∣∣h(ai;x)−bi∣∣+λr(x)
r
(
x
)
r(x)
r(x)为正则项,
a
i
,
b
i
a_i,b_i
ai,bi为训练集的输入与输出
求解方程
ϕ
i
(
x
)
=
b
i
,
i
=
1
,
.
.
.
,
m
\phi_i (x) = b_i, i=1,...,m
ϕi(x)=bi,i=1,...,m 3.1.1
(最常见的是
A
x
=
b
Ax=b
Ax=b)
最小二乘问题:3.1.2
m
i
n
Σ
i
=
1
m
(
b
i
−
ϕ
i
(
x
)
)
2
min \space \Sigma_{i=1}^m (b_i - \phi_i(x))^2
min Σi=1m(bi−ϕi(x))2
最小一乘问题:3.1.3
m
i
n
Σ
i
=
1
m
∣
b
i
−
ϕ
i
(
x
)
∣
min \space \Sigma_{i=1}^m |b_i - \phi_i(x)|
min Σi=1m∣bi−ϕi(x)∣
最小最大模型:3.1.4
使最大偏差最小化
m
i
n
m
a
x
i
∣
b
i
−
ϕ
i
(
x
)
∣
min \space \underset {i}{max} |b_i - \phi_i(x)|
min imax∣bi−ϕi(x)∣
对于很多问题最优解不止一个,或者为了让解具有某些性质,需要加入正则项,即加入关于解的先验知识。
正则项:
μ
∣
∣
x
∣
∣
2
2
,
μ
∣
∣
x
∣
∣
1
\mu ||x||_2^2, \mu||x||_1
μ∣∣x∣∣22,μ∣∣x∣∣1
若
x
x
x本身不稀疏,但其变换域中是稀疏的,则正则项为:
μ
∣
∣
W
(
x
)
∣
∣
2
2
,
μ
∣
∣
W
(
x
)
∣
∣
1
\mu ||W(x)||_2^2, \mu||W(x)||_1
μ∣∣W(x)∣∣22,μ∣∣W(x)∣∣1,图像处理中
W
(
⋅
)
W(\cdot)
W(⋅)为全变分或小波变换等。
最大似然估计:
m
a
x
Π
i
=
1
n
p
(
a
i
,
x
)
max \space \Pi_{i=1}^n p(a_i, x)
max Πi=1np(ai,x)
a
i
a_i
ai为样本,
x
x
x为未知参数,
p
(
a
i
,
x
)
p(a_i, x)
p(ai,x)为分布律或概率密度函数
一般对数变换后更容易求解
Tikhonov正则化或岭回归问题:3.2.6
m
i
n
1
2
∣
∣
A
x
−
b
∣
∣
2
2
+
μ
∣
∣
x
∣
∣
2
2
min \space \frac{1}{2} ||Ax-b||_2^2 + \mu||x||_2^2
min 21∣∣Ax−b∣∣22+μ∣∣x∣∣22
矩阵
M
M
M分解为低秩矩阵
X
X
X与稀疏矩阵
S
S
S:
m
i
n
r
a
n
k
(
X
)
+
μ
∣
∣
S
∣
∣
0
,
min \space rank(X) + \mu ||S||_0,
min rank(X)+μ∣∣S∣∣0,
s
.
t
.
X
+
S
=
M
s.t. \space X+S=M
s.t. X+S=M
其中,
∣
∣
S
∣
∣
0
||S||_0
∣∣S∣∣0表示
S
S
S的非零元素个数。
为便于求解,替换为:
m
i
n
∣
∣
X
∣
∣
∗
+
μ
∣
∣
S
∣
∣
1
,
min \space ||X||_* + \mu ||S||_1,
min ∣∣X∣∣∗+μ∣∣S∣∣1,
s
.
t
.
X
+
S
=
M
s.t. \space X+S=M
s.t. X+S=M
图像全变分:
∣
∣
u
∣
∣
T
V
=
∫
Ω
∣
∣
∇
u
∣
∣
d
x
||u||_{TV} = \int_{\Omega} ||\nabla u|| dx
∣∣u∣∣TV=∫Ω∣∣∇u∣∣dx
L1范数得到各向异性全变分:
∣
∣
∇
u
∣
∣
1
=
∣
∂
x
u
∣
+
∣
∂
y
u
∣
||\nabla u||_1 = |\partial_x u| + |\partial_y u|
∣∣∇u∣∣1=∣∂xu∣+∣∂yu∣
L2范数得到各向同性全变分:
∣
∣
∇
u
∣
∣
2
=
(
∂
x
u
)
2
+
(
∂
y
u
)
2
||\nabla u||_2 = \sqrt{(\partial_x u)^2 + (\partial_y u)^2}
∣∣∇u∣∣2=(∂xu)2+(∂yu)2
Rudin-Osher-FatemiR(ROF)模型:
m
i
n
∣
∣
A
u
−
b
∣
∣
L
2
2
+
λ
∣
∣
u
∣
∣
T
V
min ||\mathcal Au - b||_{L^2}^2 + \lambda ||u||_{TV}
min∣∣Au−b∣∣L22+λ∣∣u∣∣TV
其中,
A
\mathcal A
A为单位算子则模型用于图像去噪,若为模糊算子则模型用于去模糊。第二项保证重构出的图像的阶跃是稀疏的,即重构的图像是一个分片常函数。
2.基础知识[0]
上方图 epigraph
广义实值函数
f
:
R
n
→
R
ˉ
f: R^n \rightarrow \bar{R}
f:Rn→Rˉ的上方图:
e
p
i
f
=
{
(
x
,
t
)
∈
R
n
+
1
∣
f
(
x
)
≤
t
}
epi \space f = \{(x,t) \in R^{n+1} | f(x) \leq t \}
epi f={(x,t)∈Rn+1∣f(x)≤t}
其中,
R
ˉ
=
R
∪
{
±
∞
}
\bar{R} = R \cup \{ \pm \infty\}
Rˉ=R∪{±∞}
凸函数
适当函数:若广义实值函数 f ( x ) , x ∈ χ f(x), x\in \chi f(x),x∈χ满足 至少有一处取值不为正无穷,以及处处取值不为负无穷,则称 f f f关于 χ \chi χ是适当的。
凸集
C
C
C满足:
θ
x
1
+
(
1
−
θ
)
x
2
∈
C
,
∀
θ
∈
[
0
,
1
]
\theta x_1 + (1-\theta) x_2 \in C, \forall \theta \in [0,1]
θx1+(1−θ)x2∈C,∀θ∈[0,1]
其中,
x
1
,
x
2
∈
C
x_1, x_2 \in C
x1,x2∈C
仿射集要求更高:
θ
x
1
+
(
1
−
θ
)
x
2
∈
C
,
∀
θ
∈
R
\theta x_1 + (1-\theta) x_2 \in C, \forall \theta \in R
θx1+(1−θ)x2∈C,∀θ∈R
其中,
x
1
,
x
2
∈
C
x_1, x_2 \in C
x1,x2∈C
所以仿射集都是凸集。
若
f
f
f为适当函数,
d
o
m
f
dom \space f
dom f是凸集,且
f
(
θ
x
+
(
1
−
θ
)
y
)
≤
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
,
f(\theta x+ (1-\theta)y)\leq \theta f(x) + (1-\theta)f(y),
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y),
x
,
y
∈
d
o
m
f
,
θ
∈
[
0
,
1
]
x, y \in dom \space f, \theta \in [0,1]
x,y∈dom f,θ∈[0,1],
则
f
f
f为凸函数。
次梯度
梯度
g
g
g定义:
l
i
m
p
→
0
f
(
x
+
p
)
−
f
(
x
)
−
g
T
p
∣
∣
p
∣
∣
=
0
\underset{p \rightarrow 0}{lim} \frac{f(x+p)-f(x) - g^Tp}{||p||} = 0
p→0lim∣∣p∣∣f(x+p)−f(x)−gTp=0
梯度下降算法:
x
k
+
1
=
x
k
−
α
k
∇
f
(
x
k
)
x^{k+1} = x^k - \alpha_k \nabla f(x^k)
xk+1=xk−αk∇f(xk)
次梯度
g
g
g的定义:
f
(
y
)
≥
f
(
x
)
+
g
T
(
y
−
x
)
,
∀
y
∈
d
o
m
f
f(y) \geq f(x) + g^T (y-x), \forall y \in dom \space f
f(y)≥f(x)+gT(y−x),∀y∈dom f
f
f
f为适当凸函数。
次梯度算法:
x
k
+
1
=
x
k
−
α
k
g
k
x^{k+1} = x^k - \alpha_k g^k
xk+1=xk−αkgk
LASSO问题1.2.5
的次梯度:
g
=
A
T
(
A
x
−
b
)
+
μ
⋅
s
i
g
n
(
x
)
g = A^T(Ax-b) + \mu \cdot sign(x)
g=AT(Ax−b)+μ⋅sign(x)
共轭函数
适当函数
f
f
f的共轭函数:
f
∗
(
y
)
=
s
u
p
x
∈
d
o
m
f
y
T
x
−
f
(
x
)
f^* (y) = \underset{x \in dom \space f}{sup} y^Tx - f(x)
f∗(y)=x∈dom fsupyTx−f(x)
其中,
s
u
p
sup
sup为上确界,
d
o
m
dom
dom为定义域
二次函数:
f
(
x
)
=
1
2
x
T
A
x
+
b
T
x
+
c
f(x) = \frac{1}{2} x^TAx + b^T x + c
f(x)=21xTAx+bTx+c
A
A
A为正定矩阵时,
f
(
x
)
f(x)
f(x)的共轭函数:
f
∗
(
y
)
=
1
2
(
y
−
b
)
T
A
−
1
(
y
−
b
)
−
c
f^*(y) = \frac{1}{2} (y-b)^T A^{-1} (y-b) - c
f∗(y)=21(y−b)TA−1(y−b)−c
任一函数
f
f
f的二次共轭函数:
f
∗
∗
(
x
)
=
s
u
p
y
∈
d
o
m
f
∗
x
T
y
−
f
∗
(
y
)
f^{**} (x) = \underset{y \in dom \space f^*}{sup} x^Ty - f^*(y)
f∗∗(x)=y∈dom f∗supxTy−f∗(y)
f
f
f为闭凸函数时,
f
∗
∗
(
x
)
=
f
(
x
)
,
∀
x
f^{**}(x) = f(x), \forall x
f∗∗(x)=f(x),∀x
对偶
既有等式约束又有不等式约束的一般约束最优化问题: 5.4.1
m
i
n
f
(
x
)
,
min \space f(x),
min f(x),
s
.
t
.
c
i
(
x
)
=
0
,
i
∈
E
,
s.t. \space c_i(x)=0, i\in \mathcal E,
s.t. ci(x)=0,i∈E,
c
i
(
x
)
≤
0
,
i
∈
I
c_i(x) \leq 0, i \in \mathcal I
ci(x)≤0,i∈I
拉格朗日函数:
L
(
x
,
λ
,
ν
)
=
f
(
x
)
+
Σ
i
λ
i
c
i
(
x
)
+
Σ
j
μ
j
c
j
(
x
)
,
j
∈
E
,
i
∈
I
L(x,\lambda, \nu) = f(x) + \Sigma_i \lambda_i c_i(x) + \Sigma_j \mu_j c_j(x), j \in \mathcal E, i \in \mathcal I
L(x,λ,ν)=f(x)+Σiλici(x)+Σjμjcj(x),j∈E,i∈I
拉格朗日对偶函数:
g
(
λ
,
ν
)
=
i
n
f
x
∈
R
n
L
(
x
,
λ
,
ν
)
g(\lambda, \nu) = \underset{x\in R^n}{inf} \space L(x,\lambda, \nu)
g(λ,ν)=x∈Rninf L(x,λ,ν)
其中,
i
n
f
inf
inf为下确界
拉格朗日对偶问题:
m
a
x
λ
≥
0
,
ν
g
(
λ
,
ν
)
\underset{\lambda \geq 0, \nu}{max} \space g(\lambda, \nu)
λ≥0,νmax g(λ,ν)
将原最小化问题,转化为求原函数下确界最大化问题。
3.ADMM算法[0,11]
对偶问题
原问题:
m
i
n
f
(
x
)
,
s
.
t
.
A
x
=
b
min \space f(x), s.t. \space Ax=b
min f(x),s.t. Ax=b
拉格朗日函数:
L
(
x
,
y
)
=
f
(
x
)
+
y
T
(
A
x
−
b
)
L(x,y) = f(x) + y^T (Ax-b)
L(x,y)=f(x)+yT(Ax−b)
对偶函数:
g
(
y
)
=
i
n
f
x
L
(
x
,
y
)
g(y) = \underset{x}{inf} L(x,y)
g(y)=xinfL(x,y)
对偶问题:
m
a
x
g
(
y
)
max \space g(y)
max g(y)
求解对偶问题得到解
y
∗
y^*
y∗,代入原问题得到解
x
∗
=
a
r
g
m
i
n
x
L
(
x
,
y
∗
)
x^*= argmin_x L(x,y^*)
x∗=argminxL(x,y∗)
对偶上升
求解对偶问题
梯度法:
y
k
+
1
=
y
k
+
α
k
∇
g
(
y
k
)
y^{k+1} = y^k + \alpha^k \nabla g(y^k)
yk+1=yk+αk∇g(yk)
其中,
∇
g
(
y
k
)
=
A
x
−
b
,
x
=
a
r
g
m
i
n
x
L
(
x
,
y
k
)
\nabla g(y^k) = A x - b, x = argmin_x L(x,y^k)
∇g(yk)=Ax−b,x=argminxL(x,yk)
对偶上升法:
x
k
+
1
=
a
r
g
m
i
n
x
L
(
x
,
y
k
)
x^{k+1} = argmin_x L(x,y^k)
xk+1=argminxL(x,yk)
y
k
+
1
=
y
k
+
α
k
(
A
x
k
+
1
−
b
)
y^{k+1} = y^k + \alpha^k (Ax^{k+1} - b)
yk+1=yk+αk(Axk+1−b)
对偶分解
假定
f
f
f可分离:
f
(
x
)
=
f
1
(
x
1
)
+
.
.
.
+
f
N
(
x
N
)
f(x)=f_1(x_1) + ... + f_N (x_N)
f(x)=f1(x1)+...+fN(xN),则
L
L
L也可分离:
L
(
x
,
y
)
=
L
1
(
x
1
,
y
)
+
.
.
.
+
L
N
(
x
N
,
y
)
−
y
T
b
L(x,y) = L_1(x_1,y) + ...+ L_N(x_N,y)-y^T b
L(x,y)=L1(x1,y)+...+LN(xN,y)−yTb
其中,
L
i
(
x
,
y
)
=
f
i
(
x
)
+
y
T
A
i
x
i
L_i(x,y) = f_i(x) + y^T A_i x_i
Li(x,y)=fi(x)+yTAixi,
则
x
x
x最小化问题分离为N个最小化问题:
x
i
k
+
1
=
a
r
g
m
i
n
x
i
L
i
(
x
i
,
y
k
)
x_i^{k+1} = argmin_{x_i} L_i (x_i, y^k)
xik+1=argminxiLi(xi,yk)
对偶分解:
x
i
k
+
1
=
a
r
g
m
i
n
x
i
L
i
(
x
i
,
y
k
)
x_i^{k+1} = argmin_{x_i} L_i(x_i,y^k)
xik+1=argminxiLi(xi,yk)
y
k
+
1
=
y
k
+
α
k
(
Σ
i
A
i
x
i
k
+
1
−
b
)
y^{k+1} = y^k + \alpha^k (\Sigma_i A_ix_i^{k+1} - b)
yk+1=yk+αk(ΣiAixik+1−b)
乘子法
增广拉格朗日函数:
L
ρ
(
x
,
y
)
=
f
(
x
)
+
y
T
(
A
x
−
b
)
+
(
ρ
/
2
)
∣
∣
A
x
−
b
∣
∣
2
2
L_\rho (x,y) = f(x) + y^T (Ax-b) + (\rho /2) ||Ax-b||_2^2
Lρ(x,y)=f(x)+yT(Ax−b)+(ρ/2)∣∣Ax−b∣∣22
乘子法:
x
k
+
1
=
a
r
g
m
i
n
x
L
ρ
(
x
,
y
k
)
x^{k+1} = argmin_x L_\rho (x,y^k)
xk+1=argminxLρ(x,yk)
y
k
+
1
=
y
k
+
ρ
(
A
x
k
+
1
−
b
)
y^{k+1} = y^k + \rho (Ax^{k+1} - b)
yk+1=yk+ρ(Axk+1−b)
步长
ρ
\rho
ρ固定
交替方向乘子法
ADMM问题:
m
i
n
f
(
x
)
+
g
(
z
)
,
min \space f(x) + g(z),
min f(x)+g(z),
s
.
t
.
A
x
+
B
z
=
c
s.t. \space Ax+Bz=c
s.t. Ax+Bz=c
增广拉格朗日函数:
L
ρ
(
x
,
y
,
z
)
=
f
(
x
)
+
g
(
z
)
+
y
T
(
A
x
+
B
z
−
c
)
+
(
ρ
/
2
)
∣
∣
A
x
+
B
z
−
c
∣
∣
2
2
L_\rho (x,y,z) = f(x) + g(z) + y^T (Ax+Bz-c) + (\rho /2) ||Ax+Bz-c||_2^2
Lρ(x,y,z)=f(x)+g(z)+yT(Ax+Bz−c)+(ρ/2)∣∣Ax+Bz−c∣∣22
ADMM方法:
x
k
+
1
=
a
r
g
m
i
n
x
L
ρ
(
x
,
z
k
,
y
k
)
x^{k+1} = argmin_x L_\rho (x,z^k,y^k)
xk+1=argminxLρ(x,zk,yk)
z
k
+
1
=
a
r
g
m
i
n
z
L
ρ
(
x
k
+
1
,
z
,
y
k
)
z^{k+1} = argmin_z L_\rho (x^{k+1},z,y^k)
zk+1=argminzLρ(xk+1,z,yk)
y
k
+
1
=
y
k
+
ρ
(
A
x
k
+
1
+
B
z
k
+
1
−
c
)
y^{k+1} = y^k + \rho (Ax^{k+1} + Bz^{k+1} - c)
yk+1=yk+ρ(Axk+1+Bzk+1−c) 对偶更新
ADMM问题的对偶问题:
m
i
n
c
T
w
+
f
∗
(
−
A
T
w
)
+
g
∗
(
−
B
T
w
)
min \space c^T w + f^* (-A^T w) + g^* (-B^Tw)
min cTw+f∗(−ATw)+g∗(−BTw)
对ADMM问题使用ADMM求解等价于将DRS算法用于对偶问题上。
[0] 最优化:建模、算法与理论
[1] Markdown 数学符号、公式、花体字母. https://blog.csdn.net/qq_37672864/article/details/127497148
[2] Markdown中添加和使用希腊字母. https://blog.csdn.net/u012028275/article/details/115057245
[3] 范数球、范数锥、多面体,半正定锥. https://blog.csdn.net/Bryant_cqc/article/details/120640939
[4] LR正则化与数据先验分布的关系? - Charles Xiao的回答 - 知乎
https://www.zhihu.com/question/23536142/answer/90135994
[5] 多维高斯分布是如何由一维发展而来的? - 信陵君魏无忌的回答 - 知乎
https://www.zhihu.com/question/36339816/answer/385944057
[6] Tikhonov regularization 吉洪诺夫 正则化. https://www.cnblogs.com/shyang09/p/9120007.html
[7] 坐标下降法. https://bohrium.dp.tech/notebooks/1921409690z
[8] 近似点算子 Proximal Mapping. https://blog.csdn.net/weixin_41024483/article/details/105566558
[9] ADMM算法的详细推导过程是什么? - 覃含章的回答 - 知乎
https://www.zhihu.com/question/309568920/answer/580226096
[10] 凸优化笔记24:ADMM. https://glooow1024.github.io/2020/05/20/optimization/ch24-ADMM/
[11] Alternating Direction Method of Multipliers. https://web.stanford.edu/class/ee364b/lectures/admm_slides.pdf
[12] Douglas–Rachford method and ADMM. https://www.seas.ucla.edu/~vandenbe/236C/lectures/dr.pdf