近似点梯度法

news2026/2/13 22:30:35

最优化笔记——Proximal Gradient Method

最优化笔记，主要参考资料为《最优化：建模、算法与理论》

文章目录

最优化笔记——Proximal Gradient Method
一、邻近算子
- （1）定义
二、近似点梯度法
- （1）迭代格式
- （2）迭代格式的理解
- （3）收敛性分析
三、FISTA算法
- （1）迭代格式
- （2）收敛性分析
参考资料

一、邻近算子

（1）定义

定义 (邻近算子)

对于一个凸函数 $h$ , 定义它的邻近算子(proximal operator)为
$\operatorname{prox}_h(x)=\arg\min_{u\in\mathbf{dom}h}\left\{h(u)+\frac12\|u-x\|^2\right\}.$

可以看到，邻近算子的目的是求解一个距 $x$ 不算太远的点，并使函数值 $h (x)$ 也相对较小.

截屏2024-01-09 20.33.21

上图图描述了proximal算子的作用:

细黑线是凸函数 $h (x)$ 的等高线;较粗的黑线表示定义域的边界.
设蓝点为 $x$ ，计算 $\mu=\operatorname{prox}_h(x)$ ，红点则是 $\mu$ .
定义域内的三个点其对应的 $\mu$ 停留在定义域内，并向 $h (x)$ 最小值移动.
而另外两个定义域外的点，其对应的 $\mu$ 移动到定义域的边界，并尽可能使 $h (u)$ 很小.

一个很自然的问题是，上面给出的邻近算子的定义是不是有意义的，即定义中的优化问题的解是不是存在唯一的. 若答案是肯定的，我们就可使用邻近算子去构建迭代格式. 下面的定理将给出定义中优化问题解的存在唯一性.

定理 (邻近算子是良定义的)

如果 $h$ 是适当的闭凸函数，则对任意的 $x\in\mathbb{R}^n,\quad\mathrm{prox}_h(x)$ 的值存在且唯一.

二、近似点梯度法

（1）迭代格式

考虑如下复合优化问题：

$\min\quad\psi(x)=f(x)+h(x),$

其中函数 $f$ 为可微函数，其定义域 $\mathbf{dom}f=\mathbb{R}^n$ , 函数 $h$ 为凸函数，可以是非光滑的，并且一般计算此项的邻近算子并不复杂. 比如 LASSO 问题，两项分别为 $f(x)=\frac12\|Ax-b\|^2,\quad h(x)=\mu\|x\|_1.$ 近似点梯度法的思想非常简单：注意到 $\psi(x)$ 有两部分，对于光滑部分 $f$ 做梯度下降，对于非光滑部分 $h$ 使用邻近算子，则近似点梯度法的迭代公式为

$x^{k+1}=\mathrm{prox}_{t_kh}(x^k-t_k\nabla f(x^k)), \quad (1)$

其中 $t_k>0$ 为每次迭代的步长，它可以是一个常数或者由线搜索得出. 近似点梯度法跟众多算法都有很强的联系，在一些特定条件下，近似点梯度法还可以转化为其他算法：当 $h (x) = 0$ 时，迭代公式变为梯度下降法

$x^{k+1}=x^k-t_k\nabla f(x^k);$

当 $h(x)=I_C(x)$ 时，迭代公式变为投影梯度法

$x^{k+1}=\mathcal{P}_C(x^k-t_k\nabla f(x^k)).$

（2）迭代格式的理解

对 $f (x)$ 在 $x^k$ 处做泰勒展线性展开并加上二次项，非光滑部分不做改变：
$\begin{aligned} &\min_x f(x)+h(x) \\ \iff &\min_x f(x^k)+\nabla f(x^k)^\mathrm{T}(x-x^k)+\frac1{2t_k}\|x-x^k\|^2+h(x) \quad(2) \\ \iff &\min_x \frac1{2t_k}\|x-x^k+t_k\nabla f(x^k)\|^2+h(x)\quad (3) \\ \iff &\min_x \frac1{2t_k}\|x-(x^k-t_k\nabla f(x^k))\|^2+h(x) \quad(4) \end{aligned}$
可以看到(4)式即为邻近算子的定义
$x^{k+1}=\operatorname{prox}_{t_{k}h}(x^k-t_k\nabla f(x^k))$
相当于是对 $f (x)$ 先做一步梯度下降 $\hat{x}^{k+1}=x^k-t_k\nabla f(x^k)$ ，然后再寻找一个点 $x^{k+1}$ ，使得 $x^{k+1}$ 距 $\hat{x}^{k+1}$ 不算太远，并使函数值 $h(\hat{x}^{k+1})$ 也相对较小.