【机器学习】支持向量机【下】软间隔与核函数

有任何的书写错误、排版错误、概念错误等，希望大家包含指正。

在阅读本篇之前建议先学习：
【机器学习】拉格朗日对偶性
【机器学习】核函数

由于字数限制，分成两篇博客。
【机器学习】支持向量机【上】硬间隔
【机器学习】支持向量机【下】软间隔与核函数

线性支持向量机

软间隔最大化

在实际中，线性可分属于比较理想的情况，大多数数据都是线性不可分的，这时可以修改硬间隔最大化，使其成为软间隔最大化，来处理线性不可分问题。这里所谓的“线性不可分”是指，训练数据中有一些特异点（outlier），将这些特异点除去后，剩下大部分的样本点组成的集合是线性可分的。

线性不可分意味着某些样本点 $x_i,y_i)$ 不能满足约束条件 $y_i(w^Tx_i+b)\ge 1$ 。为了解决这个问题，可以对每个样本点 $x_i,y_i)$ 引进一个松弛变量 $\xi\ge 0$ ，使约束条件变为
$y_i(w^Tx_i+b)\ge 1-\xi_i$
对每一个松弛变量 $\xi_i$ ，支付一个代价 $\xi_i$ 。目标函数由原来的 $\frac{1}{2} ||w||^2$ 变为
$\frac{1}{2} ||w||^2 + C\sum_{i=1}^n \xi_i \tag{9}$
其中， $C > 0$ 称为惩罚（超）参数，一般根据应用问题人为决定， $C$ 值越大对误分类的惩罚越大。最小化目标函数式 $(9)$ 包含两层含义：使 $\frac{1}{2}||w||^2$ 尽量小即间隔尽量大，同时使误分类点的个数尽量少， $C$ 是调和二者的系数。

基于上面允许误分类的思想，对于线性不可分的支持向量机学习问题，我们可以采用与线性可分时类似的学习过程。

定义原始问题：
$\begin{matrix} &\min_{w,b,\xi} \frac{1}{2} ||w||^2 + C\sum_{i=1}^n\xi_i& \\\\ s.t.&y_i(w^Tx_i+b)\ge 1-\xi_i,& i=1,2,\dots,n \\ &\xi_i\ge0,& i=1,2,\dots,n \\ \end{matrix} \tag{10}$
原始问题式 $(10)$ 是一个凸二次规划问题，因而关于 $(w,b,\xi)$ 的最优解是存在的。而且 $w$ 的最优解是唯一的，但 $b$ 的最优解可能不唯一，而是存在于一个区间。假设最优解为 $w^*$ 和 $b^*$ ，于是可以得到划分超平面 ${w^*}^Tx+b^*=0$ 及分类决策函数 $f(x)={\rm sign}({w^*}^Tx+b^*)$ 。称这样的模型为训练样本线性不可分时的线性支持向量机，简称为线性支持向量机。

对偶问题

构建广义拉格朗日函数
$\xi,\alpha,\beta) = \frac{1}{2} ||w||^2 + C\sum_{i=1}^n \xi_i -\sum_{i=1}^n \alpha_i \big(y_i(w^Tx_i+b)-1+\xi_i\big) - \sum_{i=1}^n\beta_i\xi_i$
其中，拉格朗日乘子 $\alpha_i\ge 0$ ， $\beta_i\ge 0$ 。

首先求 $L(w,b,\xi,\alpha,\beta)$ 对 $w$ ， $b$ 和 $\xi$ 的极小，由
$\nabla_w L(w,b,\xi, \alpha,\beta) = w - \sum_{i=1}^n \alpha_iy_ix_i=0\\ \nabla_b L(w,b,\xi, \alpha,\beta) = - \sum_{i=1}^n \alpha_iy_i=0\\ \nabla_{\xi_i} L(w,b,\xi, \alpha,\beta) = C - \alpha_i - \beta_i=0\\$
可得
$\sum_{i=1}^n \alpha_i y_i x_i\tag{11}$

$\sum_{i=1}^n \alpha_i y_i=0\tag{12}$

$\alpha_i - \beta_i = 0\tag{13}$

将式 $(11)\sim(13)$ 代入拉格朗日函数中得
$\min_{w,b, \xi} L(w, b, \xi,\alpha, \beta) = -\frac{1}{2} \sum_{i=1}^n\sum_{i=1}^n\alpha_i\alpha_jy_uy_j(x_i^Tx_j)+\sum_{i=1}^n\alpha_i$
再对 $\min\limits_{w,b, \xi} L(w, b, \xi,\alpha, \beta)$ 求 $\alpha$ 和 $\beta$ 的极大。显然这已经与 $\beta$ 无关，得到对偶问题：
$\begin{array}{ll} \max\limits_\alpha & -\frac{1}{2} \sum\limits_{i=1}^n\sum\limits_{i=1}^n\alpha_i\alpha_jy_uy_j(x_i^Tx_j)+\sum\limits_{i=1}^n\alpha_i \\ \\ s.t.& \sum \limits_{i=1}^n\alpha_iy_i = 0\\ &C-\alpha_i - \beta_i = 0 \\ &\alpha_i\ge 0\\ &\beta_i\ge 0,\space\space\space\space i=1,2,\dots, n \end{array} \tag{14}$
对对偶问题式 $(14)$ 进行变形：利用等式约束 $C-\alpha_i-\beta_i=0$ 消去 $\beta_i$ ，从而只留下变量 $\alpha_i$ ，并将后三条约束共同表达为
$0\le \alpha_i\le C$
最终将问题从求极大转化为求极小，得
$\begin{matrix} &\min\limits_\alpha \frac{1}{2} \sum\limits_{i=1}^n\sum\limits_{j=1}^n\alpha_i\alpha_jy_uy_j(x_i^Tx_j)-\sum\limits_{i=1}^n\alpha_i \\ \\ s.t.& \sum_{i=1}^n \alpha_iy_i = 0 \\ & 0\le \alpha_i\le C,\space\space\space\space i=1,2,\dots,n \\ \end{matrix} \tag{15}$
由于问题具有强对偶性，所以 KKT 条件成立，即得
$y_i({w^*}^Tx_i+b^*)-1+\xi_i^* \ge 0\\\\ \xi_i^*\ge0\\$

$\nabla_w L(w^*,b^*,\xi^*, \alpha^*,\beta^*) = w^* - \sum_{i=1}^n \alpha_i^*y_ix_i=0\tag{16} \\$

$\nabla_b L(w^*,b^*,\xi^*, \alpha^*,\beta^*) = - \sum_{i=1}^n \alpha_i^*y_i=0$

$\nabla_{\xi} L(w^*,b^*,\xi^*, \alpha^*,\beta^*) = C - \alpha^* - \beta^*=0 \tag{17}$

$\alpha_i^*\ge 0\\\\ \beta_i^*\ge 0$

$\alpha_i^*\big( y_i({w^*}^Tx_i+b^*)-1+\xi_i^* \big) = 0\tag{18}$

$\beta^*_i\xi_i^*=0\tag{19}$

由式 $(16)$ 可知
$w^* = \sum_{i=1}^n \alpha_i^*y_ix_i \tag{20}$
若存在 $\alpha_j^*$ ， $0<\alpha_j^*<C$ ，根据式 $(18)$ 可知 $y_i({w^*}^Tx_i+b^*)-1+\xi_i^* =0$ ；根据式 $(17)$ 可知 $\beta^*_i = C-\alpha^*_i\ne 0$ ，所以由式 $(19)$ 可得 $\xi_i^*=0$ ，则 $y_i({w^*}^Tx_i+b^*)-1=0$ ，故可得
$b^* = y_j - \sum_{i=1}^n y_i\alpha_i^*(x_i^Tx_j)\tag{21}$
由此，划分超平面可以写为
$\sum_{i=1}^n \alpha_i^*y_i(x_i^Tx)+b^*=0$
分类决策函数可以写为
$={\rm sign}\Big( \sum_{i=1}^n \alpha_i^*y_i(x_i^Tx)+b^* \Big)$
上式称为线性支持向量机的对偶形式。线性支持向量机学习算法如下。

$\begin{array}{ll} \textbf{输入:}&\space训练集\space D = \{(x_1,y_1),···,(x_n,y_n)\},\space 其中\space x_i\in \mathbb R^{d},\space y_i\in \{+1,-1\},\space i=1,\dots,n \\ \textbf{过程:} \end{array}$

$\begin{array}{rl} 1:& 选择惩罚参数 \space C>0,构造并求解凸二次规划问题\\ \\ &\begin{array}{c} & \min \limits_\alpha \frac{1}{2}\sum \limits_{i=1}^n\sum \limits_{j=1}^n \alpha_i\alpha_jy_iy_j(x_i^Tx_j) -\sum \limits_{i=1}^n \alpha_i &\\ &s.t.\space\space\space\space \sum\limits_{i=1}^n \alpha_iy_i = 0 \\ &0\le\alpha_i\le C,\space\space\space\space i=1,2,\dots, n \\\\ \end{array}\\ & 求得最优解 \space \alpha^* = \{\alpha_i^*\},\space i=1,2,\dots,n \\ 2:& 计算\\ \\ &\begin{array}{c} &&w^* = \sum \limits_{i=1}^n \alpha_i^*y_ix_i \end{array}\\\\ 3:& 选择 \space 0<\alpha_j^*<C,\space 计算\\ \\ &\begin{array}{c} &&b^* = y_j - \sum\limits_{i=1}^n\alpha_i^*y_i(x_i^Tx_j) \end{array}\\\\ 4:& 求得划分超平面\\ \\ &\begin{array}{c} &&{w^*}^Tx+b^*=0 \end{array}\\\\ & 分类决策函数\\ \\ &\begin{array}{c} &&f(x)={\rm sign}({w^*}^Tx+b^*) \end{array} \end{array}$

$\begin{array}{l} \textbf{输出:}\space 划分超平面和分类决策函数 &&&&&&&&&&&&&&&&&& \end{array}$

算法 2 线性支持向量机学习算法

支持向量

在线性不可分的情况下，将对偶问题式 $(15)$ 的解 $α^*=\{\alpha_i^*\}$ 中对应于 $α_i^* > 0$ 的样本点 $x_i, y_j)$ 的实例 $x_i$ 称为支持向量（软间隔的支持向量）。如图 $3$ 所示，这时的支持向量要比线性可分时的情况复杂一些。图中，划分超平面由实线表示，间隔边界由虚线表示，正样本由“o”表示，负样本由“×”表示。图中还标出了样本 $x_i$ 到间隔边界的距离 $\frac{\xi_i}{||w||}$ 。

在这里插入图片描述

图 3 软间隔的支持向量

软间隔的支持向量 $x_i$ 或者在间隔边界上，或者在间隔边界与划分超平面之间，或者在划分超平面误分一侧。由式 $(17)$ 和 $(19)$ 可得，若 $α_i^* <C$ ，则 $\xi_i= 0$ ，支持向量 $x_i$ 恰好落在间隔边界上；若 $\alpha_i^*= C$ ， $0<\xi_i<1$ ，则分类正确， $x_i$ 在间隔边界与划分超平面之间；若 $\alpha_i^*=C$ ， $\xi_i= 1$ ，则 $x_i$ 在划分超平面上；若 $\alpha_i^* = C$ ， $\xi_i> 1$ ，则 $x_i$ 位于划分超平面误分一侧。

合页损失函数

还可以从另一个角度解释线性支持向量机学习。定义损失函数为划分错误的样本个数，即
$\sum_{i=1}^n1\{y_i(w^Tx_i+b)<1\}$
其中， ${ ⋅ } 1\{·\}$ 的作用类似于艾弗森括号，即括号内为真返回 $1$ ，否则返回 $0$ 。显然，函数 $J$ 非连续，且存在跳跃，数学性质不好，不便于求导。故将损失函数 $J$ 重新定义
$\sum_{i=1}^n[1-y_i(w^Tx_i+b)]_+$
其中，函数 $z]_+$ 为合页函数（hinge function）
$[z]_+ = \left\{ \begin{matrix} z,&z>0\\ 0,&z\le 0 \end{matrix} \right.$
也可以等价表示为
$z]_+ = \max(0, z)$
函数 $J$ 加上正则化项后定义为最终损失函数 $L$
$\begin{aligned} L(w,b) &= J(w,b) + \lambda ||w||^2 \\ &= \sum_{i=1}^n[1-y_i(w^Tx_i+b)]_+ + \lambda ||w||^2 \end{aligned}$
因此我们的优化目标为
$\min_{w,b} \sum_{i=1}^n[1-y_i(w^Tx_i+b)]_+ + \lambda ||w||^2 \tag{22}$
观察损失函数 $L$ ，当样本点 $x_i ,y_i)$ 被正确分类且确信度 $y_i(w^T x_i+b)$ 大于 $1$ 时，损失为 $0$ ，否则损失为 $1-y_i(w^T x_i+b)$ 。注意到图 $3$ 中的样本点 $x_4$ 被正确分类，但损失不是 $0$ 。损失函数的第二项是系数为 $\lambda$ 的 $w$ 的 $L_2$ 范数，是正则化项。

可以很容易证明优化问题 $(22)$ 与原始问题 $(10)$ 等价。令
$[1-y_i(w^Tx_i+b)]_+ = \xi_i$
则 $\xi_i\ge0$ ，式 $(10)$ 中的第二个不等式约束成立。由上式，当 $1-y_i(w^Tx_i+b)>0$ 时，有 $y_i(w^Tx_i+b)=1-\xi_i$ ；当 $1-y_i(w^Tx_i+b)\le 0$ 时， $\xi_i=0$ ，有 $y_i(w^Tx_i+b)\ge 1-\xi_i$ 。故式 $(10)$ 中的第一个不等式约束成立。于是 $w$ ， $b$ 和 $\xi_i$ 满足式 $(10)$ 的约束条件，所以最优化问题 $(22)$ 可以写成
$\min_{w,b} \sum_{i=1}^n \xi_i + \lambda||w||^2$
若取 $\lambda=\frac{1}{2C}$ ，则
$\min_{w,b}\frac{1}{C} \Big(\frac{1}{2} ||w||^2 + C\sum_{i=1}^n\xi_i \Big)$
与原始问题 $(10)$ 等价。反之，也可以将优化问题 $(22)$ 表示成问题 $(10)$ 。

合页损失函数 $L\big(y(x^Tx+b)\big)$ 的图形如图 $4$ 所示，横轴为 $y(w^Tx+b)$ ，纵轴为损失。由于函数形状像一个合页，故名合页损失函数。图中还画出了出 $01$ 损失函数，可以认为它是二类分类问题的真正的损失函数，而合页损失函数是 $0\text{\textasciitilde}1$ 损失函数的上界。由于 $0\text{\textasciitilde}1$ 损失函数是跳跃的，不利于求导，直接优化由其构成的目标函数比较困难，可以认为线性支持向量机是优化由 $0\text{\textasciitilde}1$ 损失函数的上界（合页损失函数）构成的目标函数。这时的上界损失函数又称为代理损失函数（surrogate loss function）。

在这里插入图片描述

图 4 合页损失函数

图 $4$ 中虚线显示的是感知机的损失函数 $y_i(w^Tx_i+b)]_+$ 。这时，当样本点 $x_i, y_i)$ 被正确分类时，损失为 $0$ ，否则损失是 $y_i(w^Tx_i+b)$ 。相比之下，合页损失函数不仅要分类正确，而且确信度足够高时损失才为 $0$ 。也就是说，合页损失函数对学习有更高的要求。

将式 $(15)$ 与硬间隔对偶问题对比可以看出，二者唯一的差别就在于对偶变量的约束不同：前者是 $0\le \alpha_i$ ，后者是 $0\le \alpha_i\le C$ 。因此，在引入核函数后，硬间隔和软间隔能够得到同样形式的决策函数。

非线性支持向量机

我们注意到在线性支持向量机的对偶问题中，无论是目标函数还是决策函数（划分超平面）都只涉及输入样本与样本之间的内积。在对偶问题的目标函数 $(15)$ 中的内积 $x_i^Tx_j$ 可以用核函数 $K(x_i,x_j)=\phi(x_i)^T\phi(x_j)$ 来代替。此时对偶问题的目标函数成为
$\begin{aligned} W(\alpha) &= \frac{1}{2} \sum\limits_{i=1}^n\sum\limits_{j=1}^n\alpha_i\alpha_jy_uy_j \big(\phi(x_i)^T\phi(x_j)\big)-\sum_{i=1}^n\alpha_i \\ &=\frac{1}{2} \sum\limits_{i=1}^n\sum\limits_{j=1}^n\alpha_i\alpha_jy_uy_jK(x_i,x_j)-\sum_{i=1}^n\alpha_i \end{aligned}$
同样，分类决策函数中的内积也可以用核函数替代，而分类决策函数成为
$\begin{aligned} f(x) &= {\rm sign}\Big( \sum_{i=1}^N \alpha_i^* y_i \big(\phi(x_i)^T\phi(x)\big) +b^* \Big) \\ &= {\rm sign} \Big( \sum_{i=1}^N \alpha_i^* y_i K(x_i,x) +b^* \Big) \\ \end{aligned}$
这等价于经过映射函数 $\phi$ 将原来的输入空间变换到一个新的特征空间，将输入空间中的内积 $x_i^Tx_j$ 变换为特征空间中的内积 $\phi(x_i)^T\phi(x_j)$ ，在新的特征空间里从训练样本中学习线性支持线性向量机。当映射函数是非线性函数时，学习到的含有核函数的支持向量机是非线性分类模型。

也就是说，在核函数 $K (x, z)$ 给定的条件下，可以利用解线性分类问题的方法求解非线性分类问题的支持向量机。学习是隐式地在特征空间进行的，不需要显式地定义特征空间和映射函数。这样的技巧称为核技巧，它是巧妙地利用线性分类学习方法与核函数解决非线性问题的技术。在实际应用中，往往依赖领域知识直接选择核函数，核函数选择的有效性需要通过实验验证。

非线性支持向量机学习算法如下。

$\begin{array}{ll} \textbf{输入:}&\space线性可分训练集\space D = \{(x_1,y_1),···,(x_n,y_n)\},\space 其中\space x_i\in \mathbb R^{d},\space y_i\in \{+1,-1\},\space i=1,\dots,n \\ \textbf{过程:} \end{array}$

$\begin{array}{rl} 1:& 选取适当的核函数 \space K(x,z) \space 和适当的参数\space C,构造并求解最优化问题\\ \\ &\begin{array}{c} & \min \limits_\alpha \frac{1}{2}\sum \limits_{i=1}^n\sum \limits_{j=1}^n \alpha_i\alpha_jy_iy_j(x_i^Tx_j) -\sum \limits_{i=1}^n \alpha_i &\\ &s.t.\space\space\space\space \sum\limits_{i=1}^n \alpha_iy_i = 0 \\ &0\le\alpha_i\le C,\space\space\space\space i=1,2,\dots, n \\\\ \end{array}\\ & 求得最优解 \space \alpha^* = \{\alpha_i^*\},\space i=1,2,\dots,n \\ 2:& 计算\\ \\ &\begin{array}{c} &&w^* = \sum \limits_{i=1}^n \alpha_i^*y_ix_i \end{array}\\\\ 3:& 选择 \space \alpha_j^*>0,\space 计算\\ \\ &\begin{array}{c} &&b^* = y_j - \sum\limits_{i=1}^n\alpha_i^*y_iK(x_i,x_j) \end{array}\\\\ 4: & 分类决策函数\\ \\ &\begin{array}{c} &&f(x)={\rm sign}\left(\sum\limits_{i=1}^n\alpha_i^*y_i K(x_i,x)+b^*\right) \end{array} \end{array}$