次梯度算法介绍

news2026/2/15 17:30:03

系列文章目录

最优化笔记，主要参考资料为《最优化：建模、算法与理论》

文章目录

系列文章目录
一、次梯度
- 1 定义
- 2 存在性
二、次梯度的计算
- 1 按定义计算
- 2 常用计算规则
三、最优性条件
- 1 无约束优化问题
- 2 约束优化问题
四、次梯度算法
- 1 迭代格式
- 2 收敛性
参考资料

我们知道梯度下降法的前提为目标函数 $f (x)$ 是一阶可微的. 在实际应用中经常会遇到不可微的函数，对于这类函数我们无法在每个点处求出梯度，但往往它们的最优值都是在不可微点处取到的. 次梯度算法不用知道每个点的梯度，转而求其次梯度，能处理函数不可微的情形.

一、次梯度

1 定义

我们知道可微凸函数 $f$ 的一阶条件：

$f(y)\geq f(x)+\nabla f(x)^{\mathrm{T}}(y-x)$

类比可微凸函数的一阶条件，可以给出函数（不一定可微）次梯度的定义.设 $f$ 为适当凸函数， $x\in\mathbf{dom}f$ .若向量 $g\in\mathbb{R}^n$ 满足

$f(y)\geq f(x)+g^{\mathrm{T}}(y-x),$
则称g 为函数 $f$ 在点 $x$ 处的一个次梯度.进一步地，称集合
$\partial f( x) = \{ g\mid g\in \mathbb{R} ^n, f( y) \geq f( x) + g^{\mathrm{T} }( y- x) , \forall y\in \mathbf{dom}f\}$
为 $f$ 在点 $x$ 处的次微分.

由以上定义可得：

$f(x)+g^{\mathrm{T}}(y-x)$ 是 $f (y)$ 的一个全局下界.
如果 $f$ 是可微的，则 $\nabla f(x)$ 是 $x$ 处的次梯度.

可以看到次梯度的定义包含了可微和不可微的情形，通常不可微点处次梯度不止一个，如下面例所示：

截屏2024-01-03 20.12.16

2 存在性

定理（次梯度存在性）

设 $f$ 为凸函数，dom $f$ 为其定义域，如果 $x\in\operatorname{int dom}f$ , 则 $\partial f(x)$ 是非空的.其中 $\operatorname{int dom}f$ 的含义是集合dom $f$ 的所有内点.

也就是说只要是定义域中的内点，次梯度一定存在.

二、次梯度的计算

1 按定义计算

对于绝对值函数，只有在 $x = 0$ 处不可微，用定义计算其次梯度：
$f(y)\geq f(0)+g(y-0),\forall y\in R \\ \Rightarrow |y| \geq g\cdot y \\ \Rightarrow -1\leq g \leq 1$
截屏2024-01-03 20.21.30
在这里插入图片描述

2 常用计算规则

截屏2024-01-03 20.22.52

截屏2024-01-03 20.22.13

截屏2024-01-03 20.23.31

也就是，交点处的次微分为两直线斜率的凸组合。

三、最优性条件

1 无约束优化问题

截屏2024-01-03 20.26.08

2 约束优化问题

截屏2024-01-03 20.26.44

KKT条件写出来，再加上第4条（当对偶变量固定时，拉格朗日函数去最小值）。

四、次梯度算法

1 迭代格式

截屏2024-01-03 20.36.01

次梯度算法不是下降方法，即无法保证 $f(x^{k+1})<f(x^k)$ .

2 收敛性

假设条件：

截屏2024-01-03 20.41.18

和梯度法不同，若 $f (x)$ 满足上述条件，只有当 $\alpha_k$ 取消失步长时 $\hat{f}^k$ 才具有收敛性，一个常用的步长取法 $\alpha_k=\frac1k$ .若 $\|x^0-x^*\|\leq R$ 和 $\|g^i\|\leq G$ , 可以得到
$|\hat{f}^k(x)-f^*|\leq \frac{GR}{\sqrt{k}}.$
也就是说次梯度法收敛性为 $O(\frac{1}{\sqrt{k}})$ 的，相较于梯度法更慢，但是可以处理不可微的函数。