有任何的书写错误、排版错误、概念错误等，希望大家包含指正。

在阅读本篇之前建议先学习：
【机器学习】支持向量机【上】硬间隔
【机器学习】支持向量机【下】软间隔与核函数

支持向量回归

支持向量回归（support vector regression，SVR）是指，将支持向量机的思想推广到回归问题中。与传统回归模型类似，支持向量回归以 $w$ 和 $b$ 为待确定的模型参数，希望模型输出 $f (x)$ 与真实输出 $y$ 之间的差值对应的损失尽可能小；不过，在传统回归模型中，当且仅当 $f (x)$ 与 $y$ 完全相同时，损失才为零，与此不同，支持向量回归假设我们容忍 $f (x)$ 与 $y$ 之间最多有 $\epsilon$ 的偏差，即仅当 $f (x)$ 与 $y$ 之间的差别绝对值大于 $\epsilon$ 时才计算损失。如图 $1$ 所示，这相当于以 $f (x)$ 为中心，构建了一个上边界和下边界分别为 $+\epsilon$ 和 $f(x)-\epsilon$ 的“管道”， $\epsilon$ 为人为固定值且 $\epsilon>0$ ，若训练样本落入此管道内，则认为被预测正确。

在这里插入图片描述

图 1 支持向量回归示意图

注意观察和理解图 $1$ 与参考 [3] 中图 $1$ 的区别。

本图中样本用同样的圆形表示，而它图中分别用 $+$ 和 $-$ 表示正、负两种样本，这体现了回归问题与分类问题的本质区别；
本图中横轴表示样本特征，纵轴表示样本对应的预测值，描述的样本是一维的，而它图中横、纵坐标分别表示不同的特征，描述的样本是二维的。

支持向量回归也大致可以分为，硬间隔 SVR、软间隔 SVR 和核函数 SVR。

硬间隔 SVR 适合样本全部落在管道内；软间隔 SVR 适合少量样本落在管道外；核函数 SVR 适合非线性分布的样本。

重点讲解软间隔 SVR，另外两个相对简单。

软间隔支持向量回归

对于软间隔支持向量回归而言，我们不要求样本分布得非常贴近一条线，允许少量样本出现偏差，即噪声，而大部分点可以落在管道内。与软间隔支持向量机类似，软间隔支持向量回归也引入松弛变量。每个样本 $x_i,y_i)$ 对应两个松弛变量 $\hat\xi_i$ 和 $\xi_i$ ，分别表示向上松弛量和向下松弛量。当样本 $x_i,y_i)$ 位于上边界上方（above），那么该样本将贡献损失，即 $y_i - \big(f(x_i)+\epsilon\big)$ ，超出上边界的（纵轴方向）距离也就是 $\hat \xi_i$ ，故对于落在上边界上方的样本有 $y_i - \big( f(x_i) + \epsilon \big)=\hat \xi_i$ ，而且直观上，此时不可能存在向下的松弛，所以 $\xi_i=0$ ；类似地，对于落在下边界下方的样本有 $\big( f(x_i) + \epsilon \big) - y_i=\xi_i$ 且 $\hat \xi_i = 0$ ；对于落在管道内的样本，显然不存在向上或向下的松弛，所以 $\hat \xi_i = \xi_i = 0$ ，同时这些样本不贡献损失。不难总结，每个样本带来的损失可以统一表示为 $\hat \xi_i + \xi_i$ ，因此全部样本贡献的损失为 $\sum_{i=1}^n \hat \xi_i + \xi_i$ 。

观察图 $1$ 发现，上、下边界的欧式距离可以表示为 $2\epsilon/\sqrt{\Vert w \Vert^2 + 1}$ ，当 $\Vert w\Vert$ 越小时，划分超平面倾斜程度越小，上下边界的欧式距离越大，当 $∣ ∣ w ∣ ∣ = 0$ 时距离取到最大值 $2\epsilon$ 。直观上，距离越大，划分超平面越倾斜程度越小，管道覆盖面越大，所能容纳的样本越多，管道外的样本越少，带来的损失也可能减少。这与支持向量机中“最大间隔”的思想一致。

当然，严谨来说，“划分超平面越倾斜程度越小容纳的样本越多”的说法是不准确的，比如图 $2$ 所示情况。对于同样的六个样本点，倾斜程度大的管道（左）反而损失值为零。

在这里插入图片描述

图 2 大倾斜程度管道(左)和小倾斜程度管道(右)

基于上面的松弛思想和最大间隔思想，目标函数为
$\frac{1}{2} \Vert w\Vert^2 + C\sum_{i=1}^n (\hat \xi_i + \xi_i)$
其中， $C > 0$ 称为惩罚（超）参数，一般根据应用问题人为决定， $C$ 值越大对管道外样本的惩罚越大。

定义原始问题
$\min_{w,b,\hat \xi_i,\xi_i}\frac{1}{2} \Vert w\Vert^2 + C\sum_{i=1}^n (\hat \xi_i + \xi_i) \\$

$\begin{matrix} s.t. & y_i - f(x_i)\le \epsilon + \hat \xi_i\\ & f(x_i) - y_i \le \epsilon + \xi_i \\ & \hat \xi_i\ge 0,\space\space\space\space\xi_i\ge 0,\space\space\space\space i = 1,2,\dots,n \end{matrix}$

构建广义拉格朗日函数
$\begin{aligned} &L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i) \\ &= \frac{1}{2} ||w||^2 + C\sum_{i=1}^n (\hat \xi_i + \xi_i) - \sum_{i=1}^n\hat \mu_i\hat \xi_i - \sum_{i=1}^n\mu_i\xi_i +\sum_{i=1}^n\hat \alpha_i (y_i - f(x_i)-\epsilon-\hat \xi_i) + \sum_{i=1}^n \alpha_i(f(x_i)-y_i-\epsilon - \xi_i) \end{aligned}$
将 $f(x_i) = w^Tx_i+b$ 代入，再令 $b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i)$ 对 $w$ ， $b$ ， $\hat \xi_i$ 和 $\xi_i$ 的偏导为零可得
$\sum_{i=1}^n(\hat \alpha_i - \alpha_i)x_i \tag{1-1}$

$\sum_{i=1}^n (\hat \alpha_i - \alpha_i) \tag{1-2}$

$\hat \alpha_i + \hat \mu_i\tag{1-3}$

$\alpha_i + \mu_i\tag{1-4}$

将式 $(1\text{\textasciitilde}1)\sim (1\text{\textasciitilde}4)$ 代入拉格朗日函数
$\begin{aligned} &L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i) \\ &= \Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n\hat \alpha_i (y_i - f(x_i)-\epsilon) + \sum_{i=1}^n \alpha_i(f(x_i)-y_i-\epsilon) \Big) + \Big( C\sum_{i=1}^n (\hat \xi_i + \xi_i) - \sum_{i=1}^n\hat \mu_i\hat \xi_i - \sum_{i=1}^n\mu_i\xi_i -\sum_{i=1}\hat \alpha_i\hat\xi_i-\sum_{i=1} \alpha_i\xi_i \Big) \\ %%%% &=\Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n\hat \alpha_i (y_i - f(x_i)) + \sum_{i=1}^n \alpha_i(f(x_i)-y_i) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \Big) + \Big( C\sum_{i=1}^n (\hat \xi_i + \xi_i) - \big(\sum_{i=1}^n\hat \mu_i\hat \xi_i +\sum_{i=1}\hat \alpha_i\hat\xi_i\big) - \big(\sum_{i=1}^n\mu_i\xi_i +\sum_{i=1} \alpha_i\xi_i\big) \Big) \\ %%%% &=\Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i) - \sum_{i=1}^n (\hat \alpha_i-\alpha_i)(w^Tx_i+b) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \Big) + \Big( C\sum_{i=1}^n (\hat \xi_i + \xi_i) - C\sum_{i=1}\hat\xi_i - C\sum_{i=1}^n\xi_i \Big) \\ %%%% &=\Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i) -\big(w^T\sum_{i=1}^n (\hat \alpha_i-\alpha_i)x_i +b\sum_{i=1}^m (\hat \alpha_i - \alpha_i)\big) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \Big) + 0 \\ %%%% &=\frac{1}{2} w^Tw +\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i) - \big(w^Tw +0\big) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \\ %%%% &=\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} w^Tw \\ %%%% &=\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} \sum_{i=1}^n \sum_{i=1}^n (\hat \alpha_i- \alpha_i)(\hat \alpha_j - \alpha_j)(x_i^Tx_j) \\ \end{aligned}$
拉格朗日函数为
$b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i)=\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} \sum_{i=1}^n \sum_{i=1}^n (\hat \alpha_i- \alpha_i)(\hat \alpha_j - \alpha_j)(x_i^Tx_j) \\$
可得到 SVR 的对偶问题
$\max_{\hat \alpha,\alpha} \sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} \sum_{i=1}^n \sum_{i=1}^n (\hat \alpha_i- \alpha_i)(\hat \alpha_j - \alpha_j)(x_i^Tx_j)$

$\begin{matrix} s.t. &\sum_{i=1}^n (\hat \alpha_i - \alpha_i) = 0\\ & 0\le \hat \alpha_i,\alpha_i \le C \end{matrix}$

满足的部分 KKT 条件为
$\hat \alpha_i (y_i - f(x_i) - \epsilon - \hat \xi_i)=0\tag{2-1}$

$\alpha_i (f(x_i) - y_i - \epsilon - \xi_i)=0\tag{2-2}$

$(C-\hat\alpha_i)\hat\xi_i = 0 \tag{2-3}$

$(C-\alpha_i)\xi_i = 0\tag{2-4}$

式 $(2\text{\textasciitilde}1)\sim(2\text{\textasciitilde}4)$ 为互补松弛条件。其中， $(2\text{\textasciitilde}3)$ 和 $(2\text{\textasciitilde}4)$ 分别运用了式 $(1\text{\textasciitilde}3)$ 和 $(1\text{\textasciitilde}4)$ 。

这里四个等式带来的信息量非常大。根据式 $(2\text{\textasciitilde}1)$ 可知，当 $\hat \alpha_i\ne0$ 时， $y_i - f(x_i) - \epsilon - \hat \xi_i=0$ ，样本 $x_i,y_i)$ 要么在管道的上边界上（lie on），对应 $\hat \xi_i=0$ ，要么在管道的上边界上方（above），对应 $\hat \xi_i>0$ ；当 $\alpha_i\ne 0$ 时，根据式 $(2\text{\textasciitilde}2)$ 可以推出类似的结果。但是 $\hat\alpha_i$ 和 $\alpha_i$ 不能同时非零，即满足 $\hat \alpha_i\alpha_i =0$ ，这是因为两个限制 $y_i - f(x_i) - \epsilon - \hat \xi_i = 0$ 和 $f(x_i) - y_i - \epsilon - \xi_i=0$ 是不兼容的。可以这样证明：将两个式子相加得到等式 $2\epsilon+\xi_i+\hat\xi_i=0$ ，由于 $\epsilon>0$ ， $\xi_i\ge 0$ ， $\hat \xi_i\ge0$ ，所以等式不成立，究其原因为两个限制不兼容。

⽀持向量是对于目标函数有贡献的样本，换句话说，就是那些使得 $\hat\alpha_i\ne0$ 或 $\alpha_i\ne0$ 成立的样本，也就是 $(\hat \alpha_i - \alpha_i) \ne 0$ 的样本。根据上面的讨论，我们可以知道 SVR 中的支持向量是位于管道上或者管道外的样本。

另外，可以根据式 $(2\text{\textasciitilde}3)$ 和 $(2\text{\textasciitilde}4)$ 可以讨论三种情况：① 当 $\alpha_i=0$ 且 $\hat \alpha_i\ne 0$ 时，由 $\alpha_i=0$ 可得 $\xi_i=0$ ，由 $\hat \alpha_i\ne0$ 可得 $\hat \xi_i\ge0$ ；② 当 $\alpha_i\ne0$ 且 $\hat \alpha_i= 0$ 时，由 $\alpha_i\ne0$ 可得 $\xi_i\ge0$ ，由 $\hat \alpha_i=0$ 可得 $\hat \xi_i=0$ ；③ 当 $\alpha_i = \hat \alpha_i = 0$ 时， $\xi_i = \hat \xi_i = 0$ 。这三种情况可以统一表示为 $\hat \xi_i\xi_i = 0$ 。巧妙的是，这四个等式带来的信息与我们本小节对松弛变量的直观理解不谋而合。

参数 $b$ 可以这样得到：考虑一个满足 $\alpha_j < C$ 的样本。根据式 $(2\text{\textasciitilde}4)$ 可知 $\xi_j = 0$ ，再根据式 $(2\text{\textasciitilde}2)$ 可知一定有 $f(x_j)-y_j-\epsilon=0$ 。将 $f(x_j) = w^Tx_j+b$ 代入求解 $b$ ，同时将式 $(1\text{\textasciitilde}1)$ 代入，得
$\begin{aligned} b &= y_j + \epsilon - w^Tx_j \\ &=y_j + \epsilon - \sum_{i=1}^n(\hat \alpha_i - \alpha_i)(x_i^Tx_j) \\ \end{aligned}\tag{3}$
当然，也可以通过考虑一个满足 $\hat\alpha_j < C$ 的样本，得到类似的结果。在实际应用中，更好的做法是对所有的这些 $b$ 的估计进⾏平均。

使用训练好的模型进行预测也非常简单，根据式 $(1\text{\textasciitilde}1)$ 计算出最优解 $w^*$ ，根据式 $(3)$ 计算出最优解 $b^*$ 。预测函数为
$\begin{aligned} f(x) &= {w^*}^Tx + b^* \\ &= \sum_{i=1}^n (\hat \alpha_i - \alpha_i) (x_i^T x) + b^* \end{aligned} \tag{4}$

另外，我们也可以从正则化的角度理解原始问题的目标函数，将 $w||^2$ 视为正则化项，另一部分视为未引入正则化项的损失函数，这与软间隔支持向量机类似。

硬间隔与核函数支持向量回归

硬间隔认为全部的样本点都可以被容纳在 $\epsilon\text{\textasciitilde}$ 管道中，也就不存在松弛变量及其对应约束。求解过程与软间隔类似，甚至可以认为硬间隔是软间隔的一种特殊情况。

使用核函数的方法与支持向量机中使用核函数的方法一致，目的都是实现划分超平面非线性化，如图 $3$ 所示。

在这里插入图片描述

图 3 核函数支持向量回归

若考虑特征映射式 $(1\text{\textasciitilde}1)$ 对应
$w^* = \sum_{i=1}^n (\hat \alpha_i - \alpha_i)\phi(x_i)$
式 $(3)$ 对应
$b^* =y_j + \epsilon - \sum_{i=1}^n(\hat \alpha_i - \alpha_i)K(x_i,x_j)$
式 $(4)$ 对应
$\sum_{i=1}^n (\hat \alpha_i - \alpha_i) K(x_i, x) + b^*$