论文解读者:陈康明,赵田田,李朋
编者按:
对于大多数一阶算法,我们会在收敛性分析时假设函数是凸的,且梯度满足全局 Lipschitz 条件。而本文中,对于某一类特殊函数。我们不仅不要求函数是凸的,也不再要求梯度满足全局 Lipschitz 条件。
考虑复合优化问题
(
P
)
min
{
Ψ
(
x
)
=
f
(
x
)
+
g
(
x
)
:
x
∈
C
ˉ
}
,
\begin{equation}\nonumber (\mathcal{P})\quad \min \{\Psi(x)=f(x)+g(x): x\in\bar{C}\}, \end{equation}
(P)min{Ψ(x)=f(x)+g(x):x∈Cˉ},
其中
C
ˉ
\bar{C}
Cˉ是
C
C
C的闭包,
C
C
C是
R
d
\mathbb{R}^{d}
Rd的非空开子集。对于大多数一阶算法,我们会在收敛性分析时假设
f
f
f和
g
g
g都是凸函数,且
g
g
g的梯度满足全局 Lipschitz 条件。而本文中,我们不仅不要求函数
f
f
f和
g
g
g是凸函数,也不再要求
g
g
g的梯度的满足全局 Lipschitz 条件,而是使用适应函数g几何形状的凸性条件代替。我们重点研究了一种基于 Bregman 距离而非欧式距离的近端梯度法,该方法涵盖了标准的近端梯度法,并且在一定的合理假设下,证明了该方法全局收敛到临界点。为了展示我们的成果的潜力,我们考虑了一类具有稀疏性约束的二次逆问题,这类问题在许多基础应用中经常出现。并且应用我们的方法推导出了该类问题的新的收敛方案,这是这类重要问题的第一个全局收敛的算法。
第一部分:预备知识
1.1 Bregman 距离
首先我们给出 kernel generating distance 的定义:
定义1.1 (kernel generating distance). 让 C C C是 R d \mathbb{R}^d Rd的凸的非空开集,如果函数 h : R d → ( − ∞ , + ∞ ] h: \mathbb{R}^d \rightarrow(-\infty,+\infty] h:Rd→(−∞,+∞]满足下面的条件,那么它被称为 kernel generating distance :
(i) h h h是适当的,下半连续的凸函数, 并且 dom h ⊂ C ˉ \operatorname{dom} h \subset \bar{C} domh⊂Cˉ, dom ∂ h = C \operatorname{dom} \partial h= C dom∂h=C。
(ii) 在 dom h ≡ C \operatorname{dom} h \equiv C domh≡C上, h h h是 C 1 C^1 C1的。
我们用
G
(
C
)
\mathcal{G}(C)
G(C)表示这类 kernel generating distance。
给定
h
∈
G
(
C
)
h\in\mathcal{G}(C)
h∈G(C),我们可以通过以下方式定义一个近似度量
D
h
:
dom
h
×
int
dom
h
→
R
+
D_h:\operatorname{dom} h\times\operatorname{int} \operatorname{dom} h\rightarrow\mathbb{R}_{+}
Dh:domh×intdomh→R+:
D h ( x , y ) : = h ( x ) − [ h ( y ) + ⟨ ∇ h ( y ) , x − y ⟩ ] D_h(x, y):=h(x)-[h(y)+\langle\nabla h(y), x-y\rangle] Dh(x,y):=h(x)−[h(y)+⟨∇h(y),x−y⟩]
这个近似度量 D h D_h Dh就被称为 Bregman 距离,它衡量了 x x x和 y y y的接近程度。
由于梯度不等式,对于所有的 x ∈ dom h , y ∈ int dom h x\in\operatorname{dom} h, y\in\operatorname{int} \operatorname{dom} h x∈domh,y∈intdomh, h h h是凸的当且仅当 D h ( x , y ) ≥ 0 D_h(x, y)\geq 0 Dh(x,y)≥0。并且如果 h h h是严格凸的,当且仅当 x = y x=y x=y时,等号成立。值得注意的是,一般情况下 D h D_h Dh 不是对称的,除非 h = ∣ ⋅ ∣ 2 h=|\cdot|^2 h=∣⋅∣2,这样得到的就是经典欧式距离的平方。
另外,当 h h h不是凸函数时, D h D_h Dh的结构形式也是有用的。它衡量了在给定点 x ∈ dom h x\in\operatorname{dom} h x∈domh处 h h h的值与其在 y ∈ int dom h y\in\operatorname{int} \operatorname{dom} h y∈intdomh附近的线性近似之间的差异或者说误差。在这种情况下,前面提到的 D h ( x , y ) ≥ 0 D_h(x, y)\geq 0 Dh(x,y)≥0和 D h ( x , y ) = 0 D_h(x, y)= 0 Dh(x,y)=0当且仅当 x = y x=y x=y都不再成立。然而, D h D_h Dh仍然具有两个简单但显著的性质,这些性质可以从基本的代数运算中得出:
三点恒等式:对于任意 y , z ∈ int dom y, z \in \operatorname{int} \operatorname{dom} y,z∈intdom和 x ∈ dom h x \in \operatorname{dom} h x∈domh,我们有 D h ( x , z ) − D h ( x , y ) − D h ( y , z ) = ⟨ ∇ h ( y ) − ∇ h ( z ) , x − y ⟩ D_h(x, z)-D_h(x, y)-D_h(y, z)=\langle\nabla h(y)-\nabla h(z), x-y\rangle Dh(x,z)−Dh(x,y)−Dh(y,z)=⟨∇h(y)−∇h(z),x−y⟩
线性可加性:对于任意 α , β ∈ R \alpha, \beta \in \mathbb{R} α,β∈R,以及任意函数 h 1 h_1 h1和 h 2 h_2 h2,我们有 D α h 1 + β h 2 ( x , y ) = α D h 1 ( x , y ) + β D h 2 ( x , y ) D_{\alpha h_1+\beta h_2}(x, y)=\alpha D_{h_1}(x, y)+\beta D_{h_2}(x, y) Dαh1+βh2(x,y)=αDh1(x,y)+βDh2(x,y)
对于所有 x , y ∈ dom h 1 ∩ dom h 2 x, y \in \operatorname{dom} h_1 \cap \operatorname{dom} h_2 x,y∈domh1∩domh2,使得 h 1 h_1 h1和 h 2 h_2 h2在 y y y处可导。
1.2 L-smooth adaptable 条件我们想要选择合适的函数 h ∈ G ( C ) h\in\mathcal{G}(C) h∈G(C),并用对应的 Bregman 函数 D h D_h Dh来代替近似点梯度法中的欧氏距离平方项。注意,本文所考虑的函数 f f f和 g g g未必是凸函数。其中 g g g满足假设:
g : R d → ( − ∞ , + ∞ ] g:\mathbb{R}^{d}\to (-\infty,+\infty] g:Rd→(−∞,+∞]是适当的下半连续函数,定义域满足$\text{dom}h\subset\text{dom}g , 且 , 且 ,且g 在 在 在C$上连续可微。
基于上述 g g g有关假设, 我们可以给出 L-smooth adaptable 的定义如下:
定义1.2 函数对 ( g , h ) (g,h) (g,h)在 C C C上满足 L-smooth adaptable 条件,当且仅当存在 L > 0 L>0 L>0使得 L h + g Lh+g Lh+g和 L h − g Lh-g Lh−g在 C C C上都是凸函数。
结合1.1节中 Bregman 函数的定义,容易得到它的一个等价定义:
定义1.2’ 函数对 ( g , h ) (g,h) (g,h)在 C C C上满足 L-smooth adaptable 条件,当且仅当存在 L > 0 L>0 L>0使得KaTeX parse error: {equation} can be used only in display mode.
上述定义可看作是 L-smooth 条件的推广。如果取
C
=
R
d
C=\mathbb{R}^{d}
C=Rd,
h
=
1
2
∥
⋅
∥
2
h=\frac{1}{2}\|\cdot\|^{2}
h=21∥⋅∥2, 则对应的不等式可写为
∣
D
g
(
x
,
y
)
∣
=
∣
g
(
x
)
−
g
(
y
)
−
<
∇
g
(
y
)
,
x
−
y
>
∣
≤
L
2
∥
x
−
y
∥
2
,
∀
x
,
y
∈
R
d
,
\begin{equation}\nonumber \left|D_g(x,y)\right|=|g(x)-g(y)-\left<\nabla{g}(y),x-y\right>|\leq \frac{L}{2}\|x-y\|^{2}, \quad \forall x,y\in\mathbb{R}^{d}, \end{equation}
∣Dg(x,y)∣=∣g(x)−g(y)−⟨∇g(y),x−y⟩∣≤2L∥x−y∥2,∀x,y∈Rd,
相当于 g g g满足 L-smooth条件。
另外,第二节的证明只需要 L h − g Lh-g Lh−g是凸函数这个条件。我们把它记作L-smad 条件。
第二部分:BPG 算法
2.1 BPG 算法
根据第一节的分析,我们可以作出以下初步假设:
假设2.1 (1) h ∈ G ( C ) h\in\mathcal{G}(C) h∈G(C), 且 C ‾ = dom h ‾ \overline{C}=\overline{\text{dom}h} C=domh;
(2) f : R d → ( − ∞ , + ∞ ] f:\mathbb{R}^{d}\to (-\infty,+\infty] f:Rd→(−∞,+∞]是适当的下半连续函数,定义域满足 dom f ∩ C ≠ ∅ \text{dom}f\cap{C}\neq\emptyset domf∩C=∅;
(3) g : R d → ( − ∞ , + ∞ ] g:\mathbb{R}^{d}\to (-\infty,+\infty] g:Rd→(−∞,+∞]是适当的下半连续函数,定义域满足 dom h ⊂ dom g \text{dom}h\subset\text{dom}g domh⊂domg,
且 g g g在 C C C上连续可微;(4) ( h , g ) (h,g) (h,g)满足 L-smad 条件;
(5) v ( P ) = inf { Ψ ( x ) : x ∈ C ‾ } > − ∞ v(\mathcal{P})=\inf\{\Psi(x):x\in\overline{C}\}>-\infty v(P)=inf{Ψ(x):x∈C}>−∞.
基于以上假设,我们可以利用函数
h
h
h,构造求解问题
P
\mathcal{P}
P的 BPG 算法如下:
不妨记 T λ ( x ) : = arg min u ∈ R d { f ( u ) + < ∇ g ( x ) , u − x > + 1 λ D h ( u , x ) } T_{\lambda}(x):=\argmin\limits_{u\in\mathbb{R}^d}\left\{f(u)+\left<\nabla{g}(x),u-x\right>+\frac{1}{\lambda}D_h(u,x)\right\} Tλ(x):=u∈Rdargmin{f(u)+⟨∇g(x),u−x⟩+λ1Dh(u,x)}
为了保证算法中的 (3.4) 式能够顺利求解,我们需要添加如下假设:
假设2.2 对任意的 λ > 0 \lambda>0 λ>0,都有 lim ∥ u ∥ → ∞ h ( u ) + λ f ( u ) ∥ u ∥ = + ∞ . \lim\limits_{\|u\|\to\infty}\frac{h(u)+\lambda{f}(u)}{\|u\|}=+\infty. ∥u∥→∞lim∥u∥h(u)+λf(u)=+∞.
假设2.3 对任意的 x ∈ C x\in{C} x∈C,都有 T λ ( x ) ⊂ C T_{\lambda}(x)\sub{C} Tλ(x)⊂C.
这两条假设都是易于实现的 [ 1 ] ^{[1]} [1]. 可以证明,在假设2.1—2.3之下,对任意的 x ∈ intdom h x\in\text{intdom}h x∈intdomh和 x ∈ intdom h x\in\text{intdom}h x∈intdomh, T λ ( x ) T_{\lambda}(x) Tλ(x)是 C C C的非空紧子集。此时,我们认为求解 (3.4) 这一步确实是可行的。
2.2 充分下降性质
在假设2.1—2.3之下,可证明算法具有充分下降性质:
引理2.1 对于任意 x ∈ intdom h x\in\text{intdom}h x∈intdomh, λ > 0 \lambda>0 λ>0以及 x + ∈ T λ ( x ) x^{+}\in{T}_{\lambda}(x) x+∈Tλ(x), 都有不等式 λ Ψ ( x + ) ≤ λ Ψ ( x ) − ( 1 − λ L ) D h ( x + , x ) . \begin{equation}\nonumber \lambda\Psi(x^{+})\leq\lambda\Psi(x)-(1-\lambda{L})D_h(x^{+},x). \end{equation} λΨ(x+)≤λΨ(x)−(1−λL)Dh(x+,x).
由 h h h的凸性可知 D h D_h Dh是非负函数。结合引理2.1,可得如下定理:
定理2.1 如果假设2.1—2.3成立, 0 < λ L < 1 0<\lambda{L}<1 0<λL<1, { x k } \{x^k\} {xk}是 BPG 算法生成的序列,则有以下结论:
(1) 序列 { Ψ ( x k ) } \{\Psi(x^k)\} {Ψ(xk)}单调不增;
(2) ∑ k = 0 + ∞ D h ( x k , x k − 1 ) < ∞ \sum_{k=0}^{+\infty}D_h(x^{k},x^{k-1})<\infty ∑k=0+∞Dh(xk,xk−1)<∞, 因此有 D h ( x k , x k − 1 ) → 0 ( k → ∞ ) D_h(x^{k},x^{k-1})\to0 (k\to\infty) Dh(xk,xk−1)→0(k→∞).
(3) min 1 ≤ k ≤ n D h ( x k , x k − 1 ) ≤ λ n ( Ψ ( x 0 ) − Ψ ∗ 1 − λ L ) \min_{1\leq{k}\leq{n}}D_h(x^k,x^{k-1})\leq\frac{\lambda}{n}(\frac{\Psi(x^{0})-\Psi_{*}}{1-\lambda{L}}) min1≤k≤nDh(xk,xk−1)≤nλ(1−λLΨ(x0)−Ψ∗),其中 Ψ ∗ = v ( P ) > − ∞ \Psi_{*}=v(\mathcal{P})>-\infty Ψ∗=v(P)>−∞.
实际上我们不难看出,如果函数 h h h满足假设2.1—2.3,那么 h + σ 2 ∥ ⋅ ∥ 2 h + \frac{\sigma}{2}\|\cdot\|^{2} h+2σ∥⋅∥2一定也满足假设,其中 σ > 0 \sigma>0 σ>0. 因此不妨设 h h h是强凸函数,对应的强凸系数为 σ \sigma σ. 此时定理2.1中的 (3) 可推出 min 1 ≤ k ≤ n ∥ x k − x k − 1 ∥ 2 ≤ λ n Ψ ( x 0 ) − Ψ ∗ σ ( 1 − λ L ) \min_{1\leq{k}\leq{n}}\|x^k-x^{k-1}\|^{2}\leq\frac{\lambda}{n}\frac{\Psi(x^{0})-\Psi_{*}}{\sigma(1-\lambda{L})} min1≤k≤n∥xk−xk−1∥2≤nλσ(1−λL)Ψ(x0)−Ψ∗.
2.3 收敛速度
为了证明算法的全局收敛性,本节我们设 C = R d C=\mathbb{R}^d C=Rd, 并添加了如下假设:
假设2.4 (1) dom h = R d \text{dom}h=\mathbb{R}^d domh=Rd, 且 h h h在 R d \mathbb{R}^d Rd上是 σ − \sigma- σ−强凸的;
(2) ∇ h \nabla{h} ∇h和 ∇ g \nabla{g} ∇g在 R d \mathbb{R}^d Rd上都是局部 Lipschitz 连续的。
在假设2.1—2.4之下,可证明算法生成的序列 { x k } \{x^k\} {xk}是极小化 Ψ \Psi Ψ的一个类梯度下降序列。其定义如下:
定义1.3 记 F : R d → ( − ∞ , + ∞ ] F:\mathbb{R}^d\to(-\infty,+\infty] F:Rd→(−∞,+∞]是适当的下半连续函数。我们称 { x k } \{x^k\} {xk}是极小化 F F F的一个类梯度下降序列,当且仅当以下三个条件成立:
(1) 存在 ρ 1 > 0 \rho_1>0 ρ1>0, 使得 ρ 1 ∥ x k − x k − 1 ∥ 2 ≤ F ( x k ) − F ( x k − 1 ) \rho_1\|x^k-x^{k-1}\|^2\leq{F}(x ^k)-F(x^{k-1}) ρ1∥xk−xk−1∥2≤F(xk)−F(xk−1)对所有 k k k成立;
(2) 存在 ρ 2 > 0 \rho_2>0 ρ2>0,使得对任意的 k k k都存在 ω k + 1 ∈ ∂ F ( x k + 1 ) \omega^{k+1}\in\partial{F}(x^{k+1}) ωk+1∈∂F(xk+1) ,
满足 ∥ ρ k + 1 ∥ ≤ ρ 2 ∥ x k + 1 − x k ∥ \|\rho_{k+1}\|\leq\rho_2\|x^{k+1}-x^k\| ∥ρk+1∥≤ρ2∥xk+1−xk∥;(3) 对于 { x k } \{x^k\} {xk}的聚点 x ˉ \bar{x} xˉ,
不妨设 lim k → ∞ , k ∈ K x k = x ˉ \lim\limits_{k\to\infty,k\in\mathcal{K}}x^k=\bar{x} k→∞,k∈Klimxk=xˉ.
此时有 lim sup k → ∞ , k ∈ K F ( x k ) ≤ F ( x ˉ ) \limsup_{k\to\infty,k\in\mathcal{K}}F(x^k)\leq{F}(\bar{x}) limsupk→∞,k∈KF(xk)≤F(xˉ).
利用类梯度下降序列的性质,我们可以证明算法的全局收敛性。记 Ψ \Psi Ψ的稳定点集合为 crit Ψ = { x ∈ R d : 0 ∈ ∂ Ψ ( x ) = ∂ f ( x ) + ∇ g ( x ) } , \begin{equation}\nonumber \text{crit}\Psi=\{x\in\mathbb{R}^d:0\in\partial\Psi(x)=\partial{f}(x)+\nabla{g}(x)\}, \end{equation} critΨ={x∈Rd:0∈∂Ψ(x)=∂f(x)+∇g(x)},
序列 { x k } \{x^k\} {xk}所有聚点构成的集合为 ω ( x 0 ) \omega(x^0) ω(x0). 对于满足定义1.3的序列 { x k } \{x^k\} {xk}和对应的函数 F F F, 可证明 ω ( x 0 ) \omega(x^0) ω(x0)是 crit F \text{crit}F critF的非空紧子集,且 F F F在 ω ( x 0 ) \omega(x^0) ω(x0)中每点的取值是相同的。进一步,我们可得到如下结论:
定理2.2 如果假设2.1—2.4成立,且 0 < λ L < 1 0<\lambda{L}<1 0<λL<1, 则有:
(1) { x k } \{x^k\} {xk}任意聚点都是 Ψ \Psi Ψ的稳定点;
(2) 如果 Ψ \Psi Ψ满足 KL 性质,那么 ∑ ∥ x k + 1 − x k ∥ < ∞ \sum\|x^{k+1}-x^{k}\|<\infty ∑∥xk+1−xk∥<∞且 { x k } \{x^k\} {xk}收敛到某一个稳定点。
第三部分:数值算例
3.1 问题模型 (SQIP)
为证明算法的有效性,作者用提出的算法近似求解一个二次方程问题,问题的目标是近似寻找一个
x
∈
R
d
x\in \mathbb{R}^{d}
x∈Rd满足下面的一系列方程
x
T
A
i
x
≈
b
i
,
i
=
1
,
2
,
…
,
m
\begin{equation}\nonumber x^{T}A_{i}x \approx b_{i},~i=1,2,\ldots,m \end{equation}
xTAix≈bi, i=1,2,…,m
其中 A i ∈ R d A_{i}\in \\R^{d} Ai∈Rd是对称矩阵, b i ∈ R b_{i}\in \\R bi∈R是包含噪声的测量值。
通常,研究的系统是欠定的,因此一般利用正则项把原始信号的一些先验信息包含进模型。正则项通常用一个函数
f
f
f表示,这个函数可能是非凸、非光滑、扩展值函数 (为包含约束)。当用最小平方模型来描述测量误差,那么问题能够重新描述为
(QIP)
min
{
Ψ
(
x
)
:
=
1
4
∑
i
=
1
m
(
x
T
A
i
x
−
b
i
)
2
+
θ
f
(
x
)
:
x
∈
R
d
}
\begin{equation}\nonumber \text{(QIP)}~~\min\Big\{\Psi(x):=\frac{1}{4}\sum_{i=1}^{m}(x^{T}A_{i}x-b_{i})^{2}+\theta f(x):~x\in \\R^{d}\Big\} \end{equation}
(QIP) min{Ψ(x):=41i=1∑m(xTAix−bi)2+θf(x): x∈Rd}
其中
θ
>
0
\theta>0
θ>0是一个惩罚参数,主要对数据的真实性和正则项
f
f
f之间进行平衡。
定义非凸函数
g
:
R
d
→
R
g:\\R^{d}\rightarrow \\R
g:Rd→R
g
(
x
)
=
1
4
∑
i
=
1
m
(
x
T
A
i
x
−
b
i
)
2
.
g(x)=\frac{1}{4}\sum_{i=1}^{m}(x^{T}A_{i}x-b_{i})^{2}.
g(x)=41∑i=1m(xTAix−bi)2.
函数
g
g
g$在
R
d
\R^{d}
Rd是连续可微的,但是它的梯度不是全局利普希茨连续的,因此不能够采用经典的近端梯度法求解问题(QIP)。
3.2 算法求解
在这一部分,基本空间是
C
≡
R
d
C\equiv \R^{d}
C≡Rd,非凸函数
g
:
R
d
→
R
g:\R^{d}\rightarrow \R
g:Rd→R被定义为
g
(
x
)
=
1
4
∑
i
=
1
m
(
x
T
A
i
x
−
b
i
)
2
.
g(x)=\frac{1}{4}\sum_{i=1}^{m}(x^{T}A_{i}x-b_{i})^{2}.
g(x)=41i=1∑m(xTAix−bi)2.
对于非凸模型,我们考虑下面两种情况:
(a) 凸 l 1 l_{1} l1范数正则项,即 f : R d → R f:\R^{d}\rightarrow \R f:Rd→R,其中 f ( x ) = ∥ x ∥ 1 f(x)=\|x\|_{1} f(x)=∥x∥1
(b)非凸 l 0 l_{0} l0球约束。 f : R d → R f:\R^{d}\rightarrow \R f:Rd→R,其中 f ( x ) = δ B 0 s ( x ) f(x)=\delta_{\mathbb{B}_{0}^{s}}(x) f(x)=δB0s(x), l 0 l_{0} l0球上的指示函数,正整数 s < d s<d s<d,
B 0 s = { x : ∥ x ∥ 0 ≤ s } , \mathbb{B}_{0}^{s}=\{x: \|x\|_{0}\leq s\}, B0s={x:∥x∥0≤s},
∥ x ∥ 0 \|x\|_{0} ∥x∥0 是 l 0 l_0 l0范数,表示向量 x x x的非零元素个数。
为了把我们的方法应用到问题(a)和(b)中,我们首先需要选择一个合适的函数
h
∈
G
(
R
d
)
h\in\mathcal{G}(\\R^{d})
h∈G(Rd)使得对于
(
g
,
h
)
(g,h)
(g,h),
L-smad
\textbf{L-smad}
L-smad成立。这里,我们采用的
h
:
R
d
→
R
h:\R^{d}\rightarrow \R
h:Rd→R为
h
(
x
)
=
1
4
∥
x
∥
2
4
+
1
2
∥
x
∥
2
2
h(x)=\frac{1}{4}\|x\|_{2}^{4}+\frac{1}{2}\|x\|_{2}^{2}
h(x)=41∥x∥24+21∥x∥22
现在,我们证明 L-smad \textbf{L-smad} L-smad成立,即存在 L > 0 L>0 L>0使得 L h − g Lh-g Lh−g在 R d \R^{d} Rd上为凸。
引理3.1 假设 g g g和 h h h是上面定义的函数,那么对任意 L L L满足 L ≥ ∑ i = 1 m 3 ∥ A i ∥ 2 + ∥ A i ∥ ∣ b i ∣ , L\geq \sum_{i=1}^{m}3\|A_{i}\|^{2}+\|A_{i}\||b_{i}|, L≥i=1∑m3∥Ai∥2+∥Ai∥∣bi∣,
函数 L h − g Lh-g Lh−g在 R d \R^{d} Rd上为凸函数。
为了把 2.2 2.2 2.2节的结果应用到问题(a)和(b)中,我们观察到上面的函数 h h h在 R d \R^{d} Rd上是 1 − 1- 1−强凸,很容易看出假设 2.1 − 2.4 2.1-2.4 2.1−2.4是成立的。另外, g g g是实多项式函数,因此是半代数函数。函数 ∥ x ∥ 0 \|x\|_{0} ∥x∥0和 ∥ x ∥ 1 \|x\|_{1} ∥x∥1也是半代数函数([4] 附录5)。因此,由于半代数函数的和是半代数函数,可得模型(a)和(b)的目标函数 Ψ \Psi Ψ是半代数函数,因此提出的BPG算法能够应用到模型(QIP) (a)和(b),且能够产生一个全局收敛序列收敛到 Ψ \Psi Ψ的临界点。另外,对于模型(a)和(b),全局收敛策略具有一个简明的显式迭代步,接下来会详细进行介绍。
在BPG算法中,我们需要计算Bregman近似梯度映射:
T
λ
(
x
)
=
arg
min
{
f
(
u
)
+
⟨
∇
g
(
x
)
,
u
−
x
⟩
+
1
λ
D
h
(
u
,
x
)
:
u
∈
R
d
}
(
λ
>
0
)
.
T_{\lambda}(x)=\arg\min\Big\{f(u)+\langle\nabla g(x),u-x\rangle+\frac{1}{\lambda}D_{h}(u,x):~u\in \R^{d}\Big\}~~(\lambda >0).
Tλ(x)=argmin{f(u)+⟨∇g(x),u−x⟩+λ1Dh(u,x): u∈Rd} (λ>0).
对于模型 (a)和(b),我们将给出这一迭代步能够产生一个显式的解析解。
在描述之前,我们首先介绍一些简便的符号和一些余下章节将用到的著名算子。令
λ
>
0
\lambda>0
λ>0并固定任意
x
∈
R
d
x\in \R^{d}
x∈Rd 。定义
p
≡
p
λ
(
x
)
=
λ
∇
g
(
x
)
−
∇
h
(
x
)
(为了简便,通常省略
λ
和
x
)
\begin{equation}\tag{3.1} p \equiv p_{\lambda}(x)=\lambda \nabla g(x)-\nabla h(x)~~\text{(为了简便,通常省略}\lambda\text{和}x) \end{equation}
p≡pλ(x)=λ∇g(x)−∇h(x) (为了简便,通常省略λ和x)(3.1)
对于
(
g
,
h
)
(g,h)
(g,h),它们梯度的直接计算结果是
p
λ
(
x
)
p_{\lambda}(x)
pλ(x)。现在,忽略掉表达式
T
λ
T_{\lambda}
Tλ中的常数项,可得
T
λ
(
x
)
=
arg
min
{
λ
f
(
u
)
+
⟨
p
λ
(
x
)
,
u
⟩
+
h
(
u
)
:
u
∈
R
d
}
.
\begin{equation}\tag{3.2} T_{\lambda}(x)=\arg\min\Big\{\lambda f(u)+\langle p_{\lambda}(x),u\rangle+h(u):~u\in \R^{d}\Big\}. \end{equation}
Tλ(x)=argmin{λf(u)+⟨pλ(x),u⟩+h(u): u∈Rd}.(3.2)
接下来,我们介绍两个非常著名的算子,它们会用于计算
T
λ
T_{\lambda}
Tλ。
具有参数
τ
\tau
τ的软阈值算子。对任意
y
∈
R
d
y\in \R^{d}
y∈Rd,
S τ ( y ) = arg min x ∈ R d { τ ∥ x ∥ 1 + 1 2 ∥ x − y ∥ 2 } = max { ∣ y ∣ − τ , 0 } sgn ( y ) , \begin{equation}\tag{3.3} S_{\tau}(y)=\arg\min_{x\in\R^{d}}\Big\{\tau\|x\|_{1}+\frac{1}{2}\|x-y\|^{2}\Big\}=\max\{|y|-\tau,0\}\text{sgn}(y), \end{equation} Sτ(y)=argx∈Rdmin{τ∥x∥1+21∥x−y∥2}=max{∣y∣−τ,0}sgn(y),(3.3)
其中绝对值按照分量进行计算。具有参数
τ
\tau
τ的硬阈值算子。对任意
y
∈
R
d
y\in \R^{d}
y∈Rd,
H
τ
(
y
)
=
arg
min
x
∈
R
d
{
∥
x
−
y
∥
2
:
x
∈
B
0
τ
}
=
{
y
i
,
i
≤
τ
,
0
,
否则,
\begin{equation}\tag{3.4} H_{\tau}(y)=\arg\min_{x\in\R^{d}}\Big\{\|x-y\|^{2}:~x\in\mathbb{B}_{0}^{\tau}\Big\}= \begin{cases} y_{i},~~i\leq \tau,\\ 0,~~\text{否则,} \end{cases} \end{equation}
Hτ(y)=argx∈Rdmin{∥x−y∥2: x∈B0τ}={yi, i≤τ,0, 否则,(3.4)
对于问题(a)和(b),我们分别建立 T λ T_{\lambda} Tλ的显式表达式。
命题3.1 ( l 1 l_{1} l1范数正则化的Bregman近似公式) 令 f = ∥ ⋅ ∥ 1 f=\|\cdot\|_{1} f=∥⋅∥1 且对
x ∈ R d x\in\R^{d} x∈Rd,令
v ( x ) : = S λ θ ( p λ ( x ) ) v(x):=S_{\lambda\theta}(p_{\lambda}(x)) v(x):=Sλθ(pλ(x))。那么 x + = T λ ( x ) x^{+}=T_{\lambda}(x) x+=Tλ(x)为
x + = − t ∗ v ( x ) = t ∗ S λ θ ( ∇ h ( x ) − λ ∇ g ( x ) ) , x^{+}=-t^{*}v(x)=t^{*}S_{\lambda\theta}(\nabla h(x)-\lambda\nabla g(x)), x+=−t∗v(x)=t∗Sλθ(∇h(x)−λ∇g(x)), 是显示公式,其中 t ∗ t^{*} t∗是下面方程的唯一正实根,且具有显式公式形式。
t 3 ∥ v ( x ) ∥ 2 2 + t − 1 = 0 t^{3}\|v(x)\|_{2}^{2}+t-1=0 t3∥v(x)∥22+t−1=0
接下来,我们考虑 l 0 l_{0} l0范数约束的稀疏二次逆问题。首先,我们回顾下下面的结果[5,命题4.3,79页]。
引理3.2 如果 0 ≠ a ∈ R d 0\neq a \in \R^{d} 0=a∈Rd和正整数 s < d s<d s<d,可得 max { ⟨ a , z ⟩ : ∥ z ∥ 2 = 1 , ∥ z ∥ 0 ≤ s } = ∥ H s ( a ) ∥ 2 , \max\{\langle a,z \rangle:~\|z\|_{2}=1,~\|z\|_{0}\leq s\}=\|\mathcal{H}_{s}(a)\|_{2}, max{⟨a,z⟩: ∥z∥2=1, ∥z∥0≤s}=∥Hs(a)∥2,
其中最优解为 z ∗ = H s ( a ) / ∥ H s ( a ) ∥ 2 z^{*}=\mathcal{H}_{s}(a)/\|\mathcal{H}_{s}(a)\|_{2} z∗=Hs(a)/∥Hs(a)∥2。
命题3.2 ( l 0 l_{0} l0范数正则化的Bregman近似公式) 令 f = δ B 0 s f=\delta_{\mathbb{B}_{0}^{s}} f=δB0s, x ∈ R d x\in \R^{d} x∈Rd。那么
x + = T λ ( x ) x^{+}=T_{\lambda}(x) x+=Tλ(x)为
x + = − t ∗ ∥ H s ( p λ ( x ) ) ∥ 2 − 1 H s ( p λ ( x ) ) x^{+}=-\sqrt{t^{*}}\|\mathcal{H}_{s}(p_{\lambda}(x))\|_{2}^{-1}\mathcal{H}_{s}(p_{\lambda}(x)) x+=−t∗∥Hs(pλ(x))∥2−1Hs(pλ(x))
其中 t ∗ ≡ η ∗ \sqrt{t^{*}}\equiv \eta^{*} t∗≡η∗是下面立方方程的唯一非负实根
η 3 + η − ∥ H s ( p λ ( x ) ) ∥ 2 = 0. \begin{equation}\tag{3.5} \eta^{3}+\eta-\|\mathcal{H}_{s}(p_{\lambda}(x))\|_{2}=0. \end{equation} η3+η−∥Hs(pλ(x))∥2=0.(3.5)
参考文献:
[1] Bolte, J., Sabach, S., Teboulle, M., & Vaisbourd, Y. (2018). First order methods beyond convexity and Lipschitz gradient continuity with applications to quadratic inverse problems. SIAM Journal on Optimization, 28(3), 2131-2151.
[2] Bauschke, H. H., Bolte, J., & Teboulle, M. (2017). A descent lemma beyond Lipschitz gradient continuity: first-order methods revisited and applications. Mathematics of Operations Research, 42(2), 330-348.
[3] Geiping, J., & Moeller, M. (2018). Composite optimization by nonconvex majorization-minimization. SIAM Journal on Imaging Sciences, 11(4), 2494-2528.
[4] Bolte, Jérôme, Sabach, S. , & Teboulle, M. (2014). Proximal alternating linearized minimization for nonconvex and nonsmooth problems. Mathematical Programming, 146(1-2), 459-494.
[5] Luss, R. , & Teboulle, M. . (2012). Conditional gradient algorithms for rank-one matrix approximations with a sparsity constraint. Siam Review, 55(1), 65-98.