优化|一阶方法:求解不具有凸性和lipschitz连续性的复合问题

news2024/9/23 22:30:31

在这里插入图片描述
论文解读者:陈康明,赵田田,李朋

编者按:​

对于大多数一阶算法,我们会在收敛性分析时假设函数是凸的,且梯度满足全局 Lipschitz 条件。而本文中,对于某一类特殊函数。我们不仅不要求函数是凸的,也不再要求梯度满足全局 Lipschitz 条件。

考虑复合优化问题
( P ) min ⁡ { Ψ ( x ) = f ( x ) + g ( x ) : x ∈ C ˉ } , \begin{equation}\nonumber (\mathcal{P})\quad \min \{\Psi(x)=f(x)+g(x): x\in\bar{C}\}, \end{equation} (P)min{Ψ(x)=f(x)+g(x):xCˉ},
其中 C ˉ \bar{C} Cˉ C C C的闭包, C C C R d \mathbb{R}^{d} Rd的非空开子集。对于大多数一阶算法,我们会在收敛性分析时假设 f f f g g g都是凸函数,且 g g g的梯度满足全局 Lipschitz 条件。而本文中,我们不仅不要求函数 f f f g g g是凸函数,也不再要求 g g g的梯度的满足全局 Lipschitz 条件,而是使用适应函数g几何形状的凸性条件代替。我们重点研究了一种基于 Bregman 距离而非欧式距离的近端梯度法,该方法涵盖了标准的近端梯度法,并且在一定的合理假设下,证明了该方法全局收敛到临界点。为了展示我们的成果的潜力,我们考虑了一类具有稀疏性约束的二次逆问题,这类问题在许多基础应用中经常出现。并且应用我们的方法推导出了该类问题的新的收敛方案,这是这类重要问题的第一个全局收敛的算法。

第一部分:预备知识​

1.1 Bregman 距离

首先我们给出 kernel generating distance 的定义:

定义1.1 (kernel generating distance). 让 C C C R d \mathbb{R}^d Rd的凸的非空开集,如果函数 h : R d → ( − ∞ , + ∞ ] h: \mathbb{R}^d \rightarrow(-\infty,+\infty] h:Rd(,+]满足下面的条件,那么它被称为 kernel generating distance :
(i) h h h是适当的,下半连续的凸函数, 并且 dom ⁡ h ⊂ C ˉ \operatorname{dom} h \subset \bar{C} domhCˉ, dom ⁡ ∂ h = C \operatorname{dom} \partial h= C domh=C
(ii) 在 dom ⁡ h ≡ C \operatorname{dom} h \equiv C domhC上, h h h C 1 C^1 C1的。

我们用 G ( C ) \mathcal{G}(C) G(C)表示这类 kernel generating distance。
给定 h ∈ G ( C ) h\in\mathcal{G}(C) hG(C),我们可以通过以下方式定义一个近似度量 D h : dom ⁡ h × int ⁡ dom ⁡ h → R + D_h:\operatorname{dom} h\times\operatorname{int} \operatorname{dom} h\rightarrow\mathbb{R}_{+} Dh:domh×intdomhR+:

D h ( x , y ) : = h ( x ) − [ h ( y ) + ⟨ ∇ h ( y ) , x − y ⟩ ] D_h(x, y):=h(x)-[h(y)+\langle\nabla h(y), x-y\rangle] Dh(x,y):=h(x)[h(y)+h(y),xy⟩]

这个近似度量 D h D_h Dh就被称为 Bregman 距离,它衡量了 x x x y y y的接近程度。

由于梯度不等式,对于所有的 x ∈ dom ⁡ h , y ∈ int ⁡ dom ⁡ h x\in\operatorname{dom} h, y\in\operatorname{int} \operatorname{dom} h xdomh,yintdomh h h h是凸的当且仅当 D h ( x , y ) ≥ 0 D_h(x, y)\geq 0 Dh(x,y)0。并且如果 h h h是严格凸的,当且仅当 x = y x=y x=y时,等号成立。值得注意的是,一般情况下 D h D_h Dh 不是对称的,除非 h = ∣ ⋅ ∣ 2 h=|\cdot|^2 h=2,这样得到的就是经典欧式距离的平方。

另外,当 h h h不是凸函数时, D h D_h Dh的结构形式也是有用的。它衡量了在给定点 x ∈ dom ⁡ h x\in\operatorname{dom} h xdomh h h h的值与其在 y ∈ int ⁡ dom ⁡ h y\in\operatorname{int} \operatorname{dom} h yintdomh附近的线性近似之间的差异或者说误差。在这种情况下,前面提到的 D h ( x , y ) ≥ 0 D_h(x, y)\geq 0 Dh(x,y)0 D h ( x , y ) = 0 D_h(x, y)= 0 Dh(x,y)=0当且仅当 x = y x=y x=y都不再成立。然而, D h D_h Dh仍然具有两个简单但显著的性质,这些性质可以从基本的代数运算中得出:

三点恒等式:对于任意 y , z ∈ int ⁡ dom ⁡ y, z \in \operatorname{int} \operatorname{dom} y,zintdom x ∈ dom ⁡ h x \in \operatorname{dom} h xdomh,我们有 D h ( x , z ) − D h ( x , y ) − D h ( y , z ) = ⟨ ∇ h ( y ) − ∇ h ( z ) , x − y ⟩ D_h(x, z)-D_h(x, y)-D_h(y, z)=\langle\nabla h(y)-\nabla h(z), x-y\rangle Dh(x,z)Dh(x,y)Dh(y,z)=h(y)h(z),xy

线性可加性:对于任意 α , β ∈ R \alpha, \beta \in \mathbb{R} α,βR,以及任意函数 h 1 h_1 h1 h 2 h_2 h2,我们有 D α h 1 + β h 2 ( x , y ) = α D h 1 ( x , y ) + β D h 2 ( x , y ) D_{\alpha h_1+\beta h_2}(x, y)=\alpha D_{h_1}(x, y)+\beta D_{h_2}(x, y) Dαh1+βh2(x,y)=αDh1(x,y)+βDh2(x,y)
对于所有 x , y ∈ dom ⁡ h 1 ∩ dom ⁡ h 2 x, y \in \operatorname{dom} h_1 \cap \operatorname{dom} h_2 x,ydomh1domh2,使得 h 1 h_1 h1 h 2 h_2 h2 y y y处可导。

1.2 L-smooth adaptable 条件我们想要选择合适的函数 h ∈ G ( C ) h\in\mathcal{G}(C) hG(C),并用对应的 Bregman 函数 D h D_h Dh来代替近似点梯度法中的欧氏距离平方项。注意,本文所考虑的函数 f f f g g g未必是凸函数。其中 g g g满足假设:

g : R d → ( − ∞ , + ∞ ] g:\mathbb{R}^{d}\to (-\infty,+\infty] g:Rd(,+]是适当的下半连续函数,定义域满足$\text{dom}h\subset\text{dom}g , 且 , 且 ,g 在 在 C$上连续可微。

基于上述 g g g有关假设, 我们可以给出 L-smooth adaptable 的定义如下:

定义1.2 函数对 ( g , h ) (g,h) (g,h) C C C上满足 L-smooth adaptable 条件,当且仅当存在 L > 0 L>0 L>0使得 L h + g Lh+g Lh+g L h − g Lh-g Lhg C C C上都是凸函数。

结合1.1节中 Bregman 函数的定义,容易得到它的一个等价定义:

定义1.2’ 函数对 ( g , h ) (g,h) (g,h) C C C上满足 L-smooth adaptable 条件,当且仅当存在 L > 0 L>0 L>0使得KaTeX parse error: {equation} can be used only in display mode.

上述定义可看作是 L-smooth 条件的推广。如果取 C = R d C=\mathbb{R}^{d} C=Rd, h = 1 2 ∥ ⋅ ∥ 2 h=\frac{1}{2}\|\cdot\|^{2} h=212, 则对应的不等式可写为
∣ D g ( x , y ) ∣ = ∣ g ( x ) − g ( y ) − < ∇ g ( y ) , x − y > ∣ ≤ L 2 ∥ x − y ∥ 2 , ∀ x , y ∈ R d , \begin{equation}\nonumber \left|D_g(x,y)\right|=|g(x)-g(y)-\left<\nabla{g}(y),x-y\right>|\leq \frac{L}{2}\|x-y\|^{2}, \quad \forall x,y\in\mathbb{R}^{d}, \end{equation} Dg(x,y)=g(x)g(y)g(y),xy2Lxy2,x,yRd,

相当于 g g g满足 L-smooth条件。

另外,第二节的证明只需要 L h − g Lh-g Lhg是凸函数这个条件。我们把它记作L-smad 条件

第二部分:BPG 算法

2.1 BPG 算法

根据第一节的分析,我们可以作出以下初步假设:

假设2.1 (1) h ∈ G ( C ) h\in\mathcal{G}(C) hG(C), 且 C ‾ = dom h ‾ \overline{C}=\overline{\text{dom}h} C=domh;

(2) f : R d → ( − ∞ , + ∞ ] f:\mathbb{R}^{d}\to (-\infty,+\infty] f:Rd(,+]是适当的下半连续函数,定义域满足 dom f ∩ C ≠ ∅ \text{dom}f\cap{C}\neq\emptyset domfC=;

(3) g : R d → ( − ∞ , + ∞ ] g:\mathbb{R}^{d}\to (-\infty,+\infty] g:Rd(,+]是适当的下半连续函数,定义域满足 dom h ⊂ dom g \text{dom}h\subset\text{dom}g domhdomg,
g g g C C C上连续可微;

(4) ( h , g ) (h,g) (h,g)满足 L-smad 条件;

(5) v ( P ) = inf ⁡ { Ψ ( x ) : x ∈ C ‾ } > − ∞ v(\mathcal{P})=\inf\{\Psi(x):x\in\overline{C}\}>-\infty v(P)=inf{Ψ(x):xC}>.

基于以上假设,我们可以利用函数 h h h,构造求解问题 P \mathcal{P} P的 BPG 算法如下:

不妨记 T λ ( x ) : = arg min ⁡ u ∈ R d { f ( u ) + < ∇ g ( x ) , u − x > + 1 λ D h ( u , x ) } T_{\lambda}(x):=\argmin\limits_{u\in\mathbb{R}^d}\left\{f(u)+\left<\nabla{g}(x),u-x\right>+\frac{1}{\lambda}D_h(u,x)\right\} Tλ(x):=uRdargmin{f(u)+g(x),ux+λ1Dh(u,x)}

为了保证算法中的 (3.4) 式能够顺利求解,我们需要添加如下假设:

假设2.2 对任意的 λ > 0 \lambda>0 λ>0,都有 lim ⁡ ∥ u ∥ → ∞ h ( u ) + λ f ( u ) ∥ u ∥ = + ∞ . \lim\limits_{\|u\|\to\infty}\frac{h(u)+\lambda{f}(u)}{\|u\|}=+\infty. ulimuh(u)+λf(u)=+∞.

假设2.3 对任意的 x ∈ C x\in{C} xC,都有 T λ ( x ) ⊂ C T_{\lambda}(x)\sub{C} Tλ(x)C.

这两条假设都是易于实现的 [ 1 ] ^{[1]} [1]. 可以证明,在假设2.1—2.3之下,对任意的 x ∈ intdom h x\in\text{intdom}h xintdomh x ∈ intdom h x\in\text{intdom}h xintdomh, T λ ( x ) T_{\lambda}(x) Tλ(x) C C C的非空紧子集。此时,我们认为求解 (3.4) 这一步确实是可行的。

2.2 充分下降性质

在假设2.1—2.3之下,可证明算法具有充分下降性质:

引理2.1 对于任意 x ∈ intdom h x\in\text{intdom}h xintdomh λ > 0 \lambda>0 λ>0以及 x + ∈ T λ ( x ) x^{+}\in{T}_{\lambda}(x) x+Tλ(x), 都有不等式 λ Ψ ( x + ) ≤ λ Ψ ( x ) − ( 1 − λ L ) D h ( x + , x ) . \begin{equation}\nonumber \lambda\Psi(x^{+})\leq\lambda\Psi(x)-(1-\lambda{L})D_h(x^{+},x). \end{equation} λΨ(x+)λΨ(x)(1λL)Dh(x+,x).

h h h的凸性可知 D h D_h Dh是非负函数。结合引理2.1,可得如下定理:

定理2.1 如果假设2.1—2.3成立, 0 < λ L < 1 0<\lambda{L}<1 0<λL<1, { x k } \{x^k\} {xk}是 BPG 算法生成的序列,则有以下结论:

(1) 序列 { Ψ ( x k ) } \{\Psi(x^k)\} {Ψ(xk)}单调不增;

(2) ∑ k = 0 + ∞ D h ( x k , x k − 1 ) < ∞ \sum_{k=0}^{+\infty}D_h(x^{k},x^{k-1})<\infty k=0+Dh(xk,xk1)<, 因此有 D h ( x k , x k − 1 ) → 0 ( k → ∞ ) D_h(x^{k},x^{k-1})\to0 (k\to\infty) Dh(xk,xk1)0(k).

(3) min ⁡ 1 ≤ k ≤ n D h ( x k , x k − 1 ) ≤ λ n ( Ψ ( x 0 ) − Ψ ∗ 1 − λ L ) \min_{1\leq{k}\leq{n}}D_h(x^k,x^{k-1})\leq\frac{\lambda}{n}(\frac{\Psi(x^{0})-\Psi_{*}}{1-\lambda{L}}) min1knDh(xk,xk1)nλ(1λLΨ(x0)Ψ),其中 Ψ ∗ = v ( P ) > − ∞ \Psi_{*}=v(\mathcal{P})>-\infty Ψ=v(P)>.

实际上我们不难看出,如果函数 h h h满足假设2.1—2.3,那么 h + σ 2 ∥ ⋅ ∥ 2 h + \frac{\sigma}{2}\|\cdot\|^{2} h+2σ2一定也满足假设,其中 σ > 0 \sigma>0 σ>0. 因此不妨设 h h h是强凸函数,对应的强凸系数为 σ \sigma σ. 此时定理2.1中的 (3) 可推出 min ⁡ 1 ≤ k ≤ n ∥ x k − x k − 1 ∥ 2 ≤ λ n Ψ ( x 0 ) − Ψ ∗ σ ( 1 − λ L ) \min_{1\leq{k}\leq{n}}\|x^k-x^{k-1}\|^{2}\leq\frac{\lambda}{n}\frac{\Psi(x^{0})-\Psi_{*}}{\sigma(1-\lambda{L})} min1knxkxk12nλσ(1λL)Ψ(x0)Ψ.

2.3 收敛速度

为了证明算法的全局收敛性,本节我们设 C = R d C=\mathbb{R}^d C=Rd, 并添加了如下假设:

假设2.4 (1) dom h = R d \text{dom}h=\mathbb{R}^d domh=Rd, 且 h h h R d \mathbb{R}^d Rd上是 σ − \sigma- σ强凸的;

(2) ∇ h \nabla{h} h ∇ g \nabla{g} g R d \mathbb{R}^d Rd上都是局部 Lipschitz 连续的。

在假设2.1—2.4之下,可证明算法生成的序列 { x k } \{x^k\} {xk}是极小化 Ψ \Psi Ψ的一个类梯度下降序列。其定义如下:

定义1.3 F : R d → ( − ∞ , + ∞ ] F:\mathbb{R}^d\to(-\infty,+\infty] F:Rd(,+]是适当的下半连续函数。我们称 { x k } \{x^k\} {xk}是极小化 F F F的一个类梯度下降序列,当且仅当以下三个条件成立:

(1) 存在 ρ 1 > 0 \rho_1>0 ρ1>0, 使得 ρ 1 ∥ x k − x k − 1 ∥ 2 ≤ F ( x k ) − F ( x k − 1 ) \rho_1\|x^k-x^{k-1}\|^2\leq{F}(x ^k)-F(x^{k-1}) ρ1xkxk12F(xk)F(xk1)对所有 k k k成立;

(2) 存在 ρ 2 > 0 \rho_2>0 ρ2>0,使得对任意的 k k k都存在 ω k + 1 ∈ ∂ F ( x k + 1 ) \omega^{k+1}\in\partial{F}(x^{k+1}) ωk+1F(xk+1) ,
满足 ∥ ρ k + 1 ∥ ≤ ρ 2 ∥ x k + 1 − x k ∥ \|\rho_{k+1}\|\leq\rho_2\|x^{k+1}-x^k\| ρk+1ρ2xk+1xk

(3) 对于 { x k } \{x^k\} {xk}的聚点 x ˉ \bar{x} xˉ,
不妨设 lim ⁡ k → ∞ , k ∈ K x k = x ˉ \lim\limits_{k\to\infty,k\in\mathcal{K}}x^k=\bar{x} k,kKlimxk=xˉ.
此时有 lim sup ⁡ k → ∞ , k ∈ K F ( x k ) ≤ F ( x ˉ ) \limsup_{k\to\infty,k\in\mathcal{K}}F(x^k)\leq{F}(\bar{x}) limsupk,kKF(xk)F(xˉ).

利用类梯度下降序列的性质,我们可以证明算法的全局收敛性。记 Ψ \Psi Ψ的稳定点集合为 crit Ψ = { x ∈ R d : 0 ∈ ∂ Ψ ( x ) = ∂ f ( x ) + ∇ g ( x ) } , \begin{equation}\nonumber \text{crit}\Psi=\{x\in\mathbb{R}^d:0\in\partial\Psi(x)=\partial{f}(x)+\nabla{g}(x)\}, \end{equation} critΨ={xRd:0Ψ(x)=f(x)+g(x)},

序列 { x k } \{x^k\} {xk}所有聚点构成的集合为 ω ( x 0 ) \omega(x^0) ω(x0). 对于满足定义1.3的序列 { x k } \{x^k\} {xk}和对应的函数 F F F, 可证明 ω ( x 0 ) \omega(x^0) ω(x0) crit F \text{crit}F critF的非空紧子集,且 F F F ω ( x 0 ) \omega(x^0) ω(x0)中每点的取值是相同的。进一步,我们可得到如下结论:

定理2.2 如果假设2.1—2.4成立,且 0 < λ L < 1 0<\lambda{L}<1 0<λL<1, 则有:

(1) { x k } \{x^k\} {xk}任意聚点都是 Ψ \Psi Ψ的稳定点;

(2) 如果 Ψ \Psi Ψ满足 KL 性质,那么 ∑ ∥ x k + 1 − x k ∥ < ∞ \sum\|x^{k+1}-x^{k}\|<\infty xk+1xk< { x k } \{x^k\} {xk}收敛到某一个稳定点。

第三部分:数值算例

3.1 问题模型 (SQIP)

为证明算法的有效性,作者用提出的算法近似求解一个二次方程问题,问题的目标是近似寻找一个 x ∈ R d x\in \mathbb{R}^{d} xRd满足下面的一系列方程
x T A i x ≈ b i ,   i = 1 , 2 , … , m \begin{equation}\nonumber x^{T}A_{i}x \approx b_{i},~i=1,2,\ldots,m \end{equation} xTAixbi, i=1,2,,m

其中 A i ∈ R d A_{i}\in \\R^{d} AiRd是对称矩阵, b i ∈ R b_{i}\in \\R biR是包含噪声的测量值。

通常,研究的系统是欠定的,因此一般利用正则项把原始信号的一些先验信息包含进模型。正则项通常用一个函数 f f f表示,这个函数可能是非凸、非光滑、扩展值函数 (为包含约束)。当用最小平方模型来描述测量误差,那么问题能够重新描述为
(QIP)   min ⁡ { Ψ ( x ) : = 1 4 ∑ i = 1 m ( x T A i x − b i ) 2 + θ f ( x ) :   x ∈ R d } \begin{equation}\nonumber \text{(QIP)}~~\min\Big\{\Psi(x):=\frac{1}{4}\sum_{i=1}^{m}(x^{T}A_{i}x-b_{i})^{2}+\theta f(x):~x\in \\R^{d}\Big\} \end{equation} (QIP)  min{Ψ(x):=41i=1m(xTAixbi)2+θf(x): xRd}
其中 θ > 0 \theta>0 θ>0是一个惩罚参数,主要对数据的真实性和正则项 f f f之间进行平衡。
定义非凸函数 g : R d → R g:\\R^{d}\rightarrow \\R g:RdR
g ( x ) = 1 4 ∑ i = 1 m ( x T A i x − b i ) 2 . g(x)=\frac{1}{4}\sum_{i=1}^{m}(x^{T}A_{i}x-b_{i})^{2}. g(x)=41i=1m(xTAixbi)2.
函数 g g g$在 R d \R^{d} Rd是连续可微的,但是它的梯度不是全局利普希茨连续的,因此不能够采用经典的近端梯度法求解问题(QIP)。

3.2 算法求解

在这一部分,基本空间是 C ≡ R d C\equiv \R^{d} CRd,非凸函数 g : R d → R g:\R^{d}\rightarrow \R g:RdR被定义为
g ( x ) = 1 4 ∑ i = 1 m ( x T A i x − b i ) 2 . g(x)=\frac{1}{4}\sum_{i=1}^{m}(x^{T}A_{i}x-b_{i})^{2}. g(x)=41i=1m(xTAixbi)2.
对于非凸模型,我们考虑下面两种情况:

(a) 凸 l 1 l_{1} l1范数正则项,即 f : R d → R f:\R^{d}\rightarrow \R f:RdR,其中 f ( x ) = ∥ x ∥ 1 f(x)=\|x\|_{1} f(x)=x1
(b)非凸 l 0 l_{0} l0球约束。 f : R d → R f:\R^{d}\rightarrow \R f:RdR,其中 f ( x ) = δ B 0 s ( x ) f(x)=\delta_{\mathbb{B}_{0}^{s}}(x) f(x)=δB0s(x) l 0 l_{0} l0球上的指示函数,正整数 s < d s<d s<d
B 0 s = { x : ∥ x ∥ 0 ≤ s } , \mathbb{B}_{0}^{s}=\{x: \|x\|_{0}\leq s\}, B0s={x:x0s},
∥ x ∥ 0 \|x\|_{0} x0 l 0 l_0 l0范数,表示向量 x x x的非零元素个数。

为了把我们的方法应用到问题(a)和(b)中,我们首先需要选择一个合适的函数 h ∈ G ( R d ) h\in\mathcal{G}(\\R^{d}) hG(Rd)使得对于 ( g , h ) (g,h) (g,h) L-smad \textbf{L-smad} L-smad成立。这里,我们采用的 h : R d → R h:\R^{d}\rightarrow \R h:RdR
h ( x ) = 1 4 ∥ x ∥ 2 4 + 1 2 ∥ x ∥ 2 2 h(x)=\frac{1}{4}\|x\|_{2}^{4}+\frac{1}{2}\|x\|_{2}^{2} h(x)=41x24+21x22

现在,我们证明 L-smad \textbf{L-smad} L-smad成立,即存在 L > 0 L>0 L>0使得 L h − g Lh-g Lhg R d \R^{d} Rd上为凸。

引理3.1 假设 g g g h h h是上面定义的函数,那么对任意 L L L满足 L ≥ ∑ i = 1 m 3 ∥ A i ∥ 2 + ∥ A i ∥ ∣ b i ∣ , L\geq \sum_{i=1}^{m}3\|A_{i}\|^{2}+\|A_{i}\||b_{i}|, Li=1m3∥Ai2+Ai∥∣bi,
函数 L h − g Lh-g Lhg R d \R^{d} Rd上为凸函数。

为了把 2.2 2.2 2.2节的结果应用到问题(a)和(b)中,我们观察到上面的函数 h h h R d \R^{d} Rd上是 1 − 1- 1强凸,很容易看出假设 2.1 − 2.4 2.1-2.4 2.12.4是成立的。另外, g g g是实多项式函数,因此是半代数函数。函数 ∥ x ∥ 0 \|x\|_{0} x0 ∥ x ∥ 1 \|x\|_{1} x1也是半代数函数([4] 附录5)。因此,由于半代数函数的和是半代数函数,可得模型(a)和(b)的目标函数 Ψ \Psi Ψ是半代数函数,因此提出的BPG算法能够应用到模型(QIP) (a)和(b),且能够产生一个全局收敛序列收敛到 Ψ \Psi Ψ的临界点。另外,对于模型(a)和(b),全局收敛策略具有一个简明的显式迭代步,接下来会详细进行介绍。

在BPG算法中,我们需要计算Bregman近似梯度映射:
T λ ( x ) = arg ⁡ min ⁡ { f ( u ) + ⟨ ∇ g ( x ) , u − x ⟩ + 1 λ D h ( u , x ) :   u ∈ R d }    ( λ > 0 ) . T_{\lambda}(x)=\arg\min\Big\{f(u)+\langle\nabla g(x),u-x\rangle+\frac{1}{\lambda}D_{h}(u,x):~u\in \R^{d}\Big\}~~(\lambda >0). Tλ(x)=argmin{f(u)+g(x),ux+λ1Dh(u,x): uRd}  (λ>0).

对于模型 (a)和(b),我们将给出这一迭代步能够产生一个显式的解析解。

在描述之前,我们首先介绍一些简便的符号和一些余下章节将用到的著名算子。令 λ > 0 \lambda>0 λ>0并固定任意 x ∈ R d x\in \R^{d} xRd 。定义
p ≡ p λ ( x ) = λ ∇ g ( x ) − ∇ h ( x )   (为了简便,通常省略 λ 和 x ) \begin{equation}\tag{3.1} p \equiv p_{\lambda}(x)=\lambda \nabla g(x)-\nabla h(x)~~\text{(为了简便,通常省略}\lambda\text{和}x) \end{equation} ppλ(x)=λg(x)h(x)  (为了简便,通常省略λx)(3.1)

对于 ( g , h ) (g,h) (g,h),它们梯度的直接计算结果是 p λ ( x ) p_{\lambda}(x) pλ(x)。现在,忽略掉表达式 T λ T_{\lambda} Tλ中的常数项,可得
T λ ( x ) = arg ⁡ min ⁡ { λ f ( u ) + ⟨ p λ ( x ) , u ⟩ + h ( u ) :   u ∈ R d } . \begin{equation}\tag{3.2} T_{\lambda}(x)=\arg\min\Big\{\lambda f(u)+\langle p_{\lambda}(x),u\rangle+h(u):~u\in \R^{d}\Big\}. \end{equation} Tλ(x)=argmin{λf(u)+pλ(x),u+h(u): uRd}.(3.2)

接下来,我们介绍两个非常著名的算子,它们会用于计算 T λ T_{\lambda} Tλ
具有参数 τ \tau τ的软阈值算子。对任意 y ∈ R d y\in \R^{d} yRd

S τ ( y ) = arg ⁡ min ⁡ x ∈ R d { τ ∥ x ∥ 1 + 1 2 ∥ x − y ∥ 2 } = max ⁡ { ∣ y ∣ − τ , 0 } sgn ( y ) , \begin{equation}\tag{3.3} S_{\tau}(y)=\arg\min_{x\in\R^{d}}\Big\{\tau\|x\|_{1}+\frac{1}{2}\|x-y\|^{2}\Big\}=\max\{|y|-\tau,0\}\text{sgn}(y), \end{equation} Sτ(y)=argxRdmin{τx1+21xy2}=max{yτ0}sgn(y),(3.3)

其中绝对值按照分量进行计算。具有参数 τ \tau τ的硬阈值算子。对任意 y ∈ R d y\in \R^{d} yRd
H τ ( y ) = arg ⁡ min ⁡ x ∈ R d { ∥ x − y ∥ 2 :   x ∈ B 0 τ } = { y i ,    i ≤ τ , 0 ,   否则, \begin{equation}\tag{3.4} H_{\tau}(y)=\arg\min_{x\in\R^{d}}\Big\{\|x-y\|^{2}:~x\in\mathbb{B}_{0}^{\tau}\Big\}= \begin{cases} y_{i},~~i\leq \tau,\\ 0,~~\text{否则,} \end{cases} \end{equation} Hτ(y)=argxRdmin{xy2: xB0τ}={yi,  iτ,0,  否则,(3.4)

对于问题(a)和(b),我们分别建立 T λ T_{\lambda} Tλ的显式表达式。

命题3.1 ( l 1 l_{1} l1范数正则化的Bregman近似公式) 令 f = ∥ ⋅ ∥ 1 f=\|\cdot\|_{1} f=1 且对
x ∈ R d x\in\R^{d} xRd,令
v ( x ) : = S λ θ ( p λ ( x ) ) v(x):=S_{\lambda\theta}(p_{\lambda}(x)) v(x):=Sλθ(pλ(x))。那么 x + = T λ ( x ) x^{+}=T_{\lambda}(x) x+=Tλ(x)
x + = − t ∗ v ( x ) = t ∗ S λ θ ( ∇ h ( x ) − λ ∇ g ( x ) ) , x^{+}=-t^{*}v(x)=t^{*}S_{\lambda\theta}(\nabla h(x)-\lambda\nabla g(x)), x+=tv(x)=tSλθ(h(x)λg(x)), 是显示公式,其中 t ∗ t^{*} t是下面方程的唯一正实根,且具有显式公式形式。
t 3 ∥ v ( x ) ∥ 2 2 + t − 1 = 0 t^{3}\|v(x)\|_{2}^{2}+t-1=0 t3v(x)22+t1=0

接下来,我们考虑 l 0 l_{0} l0范数约束的稀疏二次逆问题。首先,我们回顾下下面的结果[5,命题4.3,79页]。

引理3.2 如果 0 ≠ a ∈ R d 0\neq a \in \R^{d} 0=aRd和正整数 s < d s<d s<d,可得 max ⁡ { ⟨ a , z ⟩ :   ∥ z ∥ 2 = 1 ,   ∥ z ∥ 0 ≤ s } = ∥ H s ( a ) ∥ 2 , \max\{\langle a,z \rangle:~\|z\|_{2}=1,~\|z\|_{0}\leq s\}=\|\mathcal{H}_{s}(a)\|_{2}, max{⟨a,z: z2=1, z0s}=Hs(a)2,
其中最优解为 z ∗ = H s ( a ) / ∥ H s ( a ) ∥ 2 z^{*}=\mathcal{H}_{s}(a)/\|\mathcal{H}_{s}(a)\|_{2} z=Hs(a)/∥Hs(a)2

命题3.2 ( l 0 l_{0} l0范数正则化的Bregman近似公式) 令 f = δ B 0 s f=\delta_{\mathbb{B}_{0}^{s}} f=δB0s x ∈ R d x\in \R^{d} xRd。那么
x + = T λ ( x ) x^{+}=T_{\lambda}(x) x+=Tλ(x)
x + = − t ∗ ∥ H s ( p λ ( x ) ) ∥ 2 − 1 H s ( p λ ( x ) ) x^{+}=-\sqrt{t^{*}}\|\mathcal{H}_{s}(p_{\lambda}(x))\|_{2}^{-1}\mathcal{H}_{s}(p_{\lambda}(x)) x+=t Hs(pλ(x))21Hs(pλ(x))
其中 t ∗ ≡ η ∗ \sqrt{t^{*}}\equiv \eta^{*} t η是下面立方方程的唯一非负实根
η 3 + η − ∥ H s ( p λ ( x ) ) ∥ 2 = 0. \begin{equation}\tag{3.5} \eta^{3}+\eta-\|\mathcal{H}_{s}(p_{\lambda}(x))\|_{2}=0. \end{equation} η3+ηHs(pλ(x))2=0.(3.5)

参考文献:
[1] Bolte, J., Sabach, S., Teboulle, M., & Vaisbourd, Y. (2018). First order methods beyond convexity and Lipschitz gradient continuity with applications to quadratic inverse problems. SIAM Journal on Optimization, 28(3), 2131-2151.

[2] Bauschke, H. H., Bolte, J., & Teboulle, M. (2017). A descent lemma beyond Lipschitz gradient continuity: first-order methods revisited and applications. Mathematics of Operations Research, 42(2), 330-348.

[3] Geiping, J., & Moeller, M. (2018). Composite optimization by nonconvex majorization-minimization. SIAM Journal on Imaging Sciences, 11(4), 2494-2528.

[4] Bolte, Jérôme, Sabach, S. , & Teboulle, M. (2014). Proximal alternating linearized minimization for nonconvex and nonsmooth problems. Mathematical Programming, 146(1-2), 459-494.

[5] Luss, R. , & Teboulle, M. . (2012). Conditional gradient algorithms for rank-one matrix approximations with a sparsity constraint. Siam Review, 55(1), 65-98.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/728139.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于信号博弈模型的区块链赋能下中小企业融资问题

​ 我国的金融体系是银行主导性&#xff0c;银行信贷是企业融资的首要来源。然而银企之间存在着严重的信息不对称&#xff0c;根据经典的微观银行理论&#xff0c;银行与企业之间的信息不对称会引发道德风险和逆向选择问题。因此在银行信贷市场中&#xff0c;当中小企业需要融资…

MySQL实现数据炸裂拆分(类似Hive的explode函数的拆分数组功能)

MySQL实现数据炸裂拆分(类似Hive的"explode"函数的拆分数组功能) 需求背景 背景描述 ​ 在Hive中&#xff0c;"explode"函数用于将数组类型的列拆分为多行&#xff0c;以便对数组中的每个元素进行处理。然而&#xff0c;在MySQL中&#xff0c;并没有直接…

前置微小信号放大器怎么用

前置微小信号放大器是一种用于将微弱信号从传感器转换成足够强度的信号以便更好地进行检测和处理的设备。它主要应用于各种传感器领域&#xff0c;例如温度传感器、压力传感器、光学传感器和生物传感器等。前置微小信号放大器的作用是提高信号的信噪比&#xff0c;减小噪声干扰…

天津热门大数据培训班 大数据选课技巧

大数据开发技术的应用时时刻刻都会影响我们的生活&#xff0c;所以很多想转行做大数据开发&#xff0c;大数据开发技术不断更新和发展&#xff0c;很多企业在开发过程中需要的大数据开发技术不断提高要求&#xff0c;因此市面上缺少的是要全面技能的大数据开发人员。 什么是大…

使用 Docker Desktop 安装 Centos 系统

一、前言 由于 Docker 是一个容器&#xff0c;它支持在一个服务器进行多服务部署&#xff0c;并且还能保持服务的独立性&#xff0c;那么&#xff0c;在Docker 上的运用时 我们也是可以 独立部署多个系统来做不同是其他&#xff0c;这样环境独立的情况下&#xff0c;也就不会造…

投票评选活动小程序v2-用户报名图片上传

投票评选活动小程序v2-用户自行报名收集材料页面 主要收集项目或者作品图片及其描述&#xff0c;可以在后台进行统一录入&#xff0c;也可以是在用户界面&#xff0c;让用户自行报名上传。 这里开发了一个“我要报名”页面&#xff0c;在首页点击“我要报名”按钮跳转过来。 …

精耕细作的运维资源成本管控方法-互联网企业的Finops思考与实践

当前&#xff0c;降本增效成为各大互联网公司的重要方向&#xff0c;IT成本则占据了互联网成本的大头。随着IT资源成本花费越来越高&#xff0c;很多公司意识到掌握管控成本和优化成本的重要性。 如何有效的降本&#xff1f;如何做好成本的洞察管控&#xff1f;如何掌握资源成…

5000字干货!让你一次搞懂什么是高保真原型

在产品设计领域&#xff0c;尤其是在用户体验设&#xff08;UX&#xff09;中&#xff0c;高保真原型至关重要。它是一种几乎按照产品最终的呈现模样制作出来的原型&#xff0c;包含产品的细节、真实的交互和完善的UI。正因为高保真原型最接近真实产品&#xff0c;因此成为企业…

使用Streamlit和OpenAI API构建视频摘要

本文提供了使用Streamlit和OpenAI创建的视频摘要应用程序的概述。该程序为视频的每个片段创建简洁的摘要&#xff0c;并总结视频的完整内容。 要运行应用程序&#xff0c;需要安装以下依赖项: Python(3.7或更高版本)StreamlitOpenAI API密钥llama_indexyoutube_transcript_api…

Vue3+Vite+Pinia+Naive项目搭建之二:scss 的安装和使用

前言 如果对 vue3 的语法不熟悉的&#xff0c;可以移步 Vue3.0 基础入门&#xff0c;快速入门。 1. 安装依赖 yarn add sass -D // or npm install sass -D 2. 页面样式初始化 reset.scss /* 新建 src/assets/style/reset.scss */ /* 页面样式初始化 */ html, body, div, s…

Linux VS Windows 孰优孰劣?

目录 1. 开源 vs. 闭源&#xff1a;2. 用户界面&#xff1a;3. 软件兼容性&#xff1a;4. 系统安全性&#xff1a;5. 社区支持和文档资源&#xff1a; Linux和Windows是两个主要的操作系统&#xff0c;它们在很多方面都有不同的特点和使用体验。以下是对Linux和Windows进行比较…

python_day1

单行注释规范&#xff0c;#号后留一空格 # 单行注释多行注释&#xff0c;三个单引号或三个双引号 duo hang zhu shi 赋值给变量时为字符串 n 123print(n)查看类型&#xff1a;type() a 111 b "111" if a b:print("true")print(a)print(type(a)) el…

Ubuntu20.04+Docker+ROS Noetic 可视化容器管理工具Portainer

1. 安装docker 官网教学安装网址&#xff1a;Install Docker Engine on Ubuntu | Docker Documentation 2. 安装noetic镜像 ros镜像网址 https://hub.docker.com/r/osrf/ros https://hub.docker.com/r/osrf/ros/tags sudo docker pull osrf/ros:noetic-desktop-full 3. 创…

高效提升控制效率 | 基于ACM32 MCU的LED灯箱控制器方案

前言 LED灯箱上各种文字、图案有序跳跃、交替辉映&#xff0c;产生强烈的视觉冲击力&#xff0c;被广泛应用于商场、美容美发、宾馆、娱乐场所等地方。 锁存器的工作原理 在LED和数码管显示方面&#xff0c;要维持一个数据的显示&#xff0c;往往要持续的快速的刷新。尤其…

vant省市区引入@vant/area-data官方数据报错问题解决

我们依照官方流程引入数据 yarn add vant/area-dataimport { areaList } from vant/area-data;Page({data: {areaList,}, });我们正常引入后会发现报错为 module ‘node_File/area-data/dist/data1.js’ is not defined 按照网上的vant-weapp的Area 省市区选择组件无法显示进行…

Segmentation fault (core dumped)问题解决

torch&#xff1a;1.10.0cu111 pandas:1.3.3 报错&#xff1a; 定位&#xff1a; df pd.DataFrame(columns[epoch, model.sigma1.cpu().detach().numpy(), model.sigma2.cpu().detach().numpy(),model.sigma3.cpu().detach().numpy(),iter,avg_ssim, avg_psnr,model.current…

LeetCode 75 —— 98. 验证二叉搜索树

LeetCode 75 —— 98. 验证二叉搜索树 一、题目描述&#xff1a; 给你一个二叉树的根节点 root &#xff0c;判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下&#xff1a; 节点的左子树只包含 小于 当前节点的数。节点的右子树只包含 大于 当前节点的数。所有左子…

【MYSQL高级】Mysql的SQL性能分析【借助EXPLAIN分析】

性能分析 要说sql有问题&#xff0c;需要拿出证据&#xff0c;因此需要性能分析 Mysql查询优化器&#xff08;Mysql Query Optimizer&#xff09; Mysql中有专门负责优化SELECT语句的优化器模块&#xff0c;主要功能&#xff1a;通过计算分析系统中收集到的统计信息&#xf…

Mali Offline Compiler - 官方视频教学 - 笔录

文章目录 目的Mali Offline Compiler 使用实例视频分析 shadermalioc 命令制定你想要分析的 shader制定你想要分析的着色器对应的 GPU实例解析内容硬件结构 & 驱动 & Shader 类型信息寄存器、是否堆溢出、16-bit 算术占比寄存器的使用量减少浮点精度优化堆溢出与否16-b…

基于Java+vue前后端分离学习交流论坛设计实现(源码+lw+部署文档+讲解等)

博主介绍&#xff1a;✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专…