机器学习第6章支持向量机

news2025/4/7 0:51:42

这里写目录标题

6.1 间隔与支持向量
6.2 对偶问题
6.3 核函数
6.4 软间隔与正则化
6.5 支持向量回归

6.1 间隔与支持向量

给定训练样本集 $D=\left \{ (x_{1},y_{1}),(x_{2},y_{2}) ,...,(x_{m},y_{m})\right \} ,y_{i}\in \left \{ -1,+1 \right \}$ ,我们希望在训练集D的基础上，基于样本空间找到一个划分超平面，将不同类别的样本分开。如下图所示在这里插入图片描述
在该样本空间中，中间的"实线段"都可作为划分超平面，但它们的效果不尽相同。其中位于中间的效果最好，因为该划分超平面对训练样本局部扰动的"容忍"性最好。在样本空间中，划分超平面可通过如下线性方程来描述: $w^{T} x+b=0$
其中 $w=\left ( w_{1} ,w_{2} ,...,w_{d} \right )$ 为法向量，决定了超平面的方向； $b$ 为位移项，决定了超平面与原点之间的距离。样本空间中任意点 $x$ 到超平面 $(w, b)$ 的距离可写为
$\frac{\left| {\mathbf{w}}^{\mathrm{T}}\mathbf{x} + b\right| }{\parallel \mathbf{w}\parallel }.$
假设超平面 $(w, b)$ 能将训练样本正确分类，即满足下式
$\left\{ \begin{array}{ll} {\mathbf{w}}^{\mathrm{T}}{\mathbf{x}}_{i} + b \geq + 1, & {y}_{i} = + 1 \\ {\mathbf{w}}^{\mathrm{T}}{\mathbf{x}}_{i} + b \leq - 1, & {y}_{i} = - 1 \end{array}\right.$
如下图所示，图中画圈的样本点称为支持向量，它们到超平面的距离最小。其中，两个异类支持向量到超平面的距离之和为 $\gamma = \frac{2}{\parallel \mathbf{w}\parallel }$ ,即图中两段虚线之间的间隔距离。
在这里插入图片描述

6.2 对偶问题

可以使用拉格朗日乘子法得到对偶问题，上面问题的拉格朗日函数可写为
$L\left( {\mathbf{w},b,\mathbf{\alpha }}\right) = \frac{1}{2}\parallel \mathbf{w}{\parallel }^{2} + \mathop{\sum }\limits_{{i = 1}}^{m}{\alpha }_{i}\left( {1 - {y}_{i}\left( {{\mathbf{w}}^{\mathrm{T}}{\mathbf{x}}_{i} + b}\right) }\right)$
令 $L(w,b,\alpha)$ 对w和b的偏导为零可得
$\mathbf{w} = \mathop{\sum }\limits_{{i = 1}}^{m}{\alpha }_{i}{y}_{i}{\mathbf{x}}_{i}$
$\mathop{\sum }\limits_{{i = 1}}^{m}{\alpha }_{i}{y}_{i}$
将结果代入得其对偶问题
$\mathop{\max }\limits_{\mathbf{\alpha }}\mathop{\sum }\limits_{{i = 1}}^{m}{\alpha }_{i} - \frac{1}{2}\mathop{\sum }\limits_{{i = 1}}^{m}\mathop{\sum }\limits_{{j = 1}}^{m}{\alpha }_{i}{\alpha }_{j}{y}_{i}{y}_{j}{\mathbf{x}}_{i}^{\mathrm{T}}{\mathbf{x}}_{j}$
上面过程需满足KKT条件，即
$\left\{ \begin{array}{l} {\alpha }_{i} \geq 0; \\ {y}_{i}f\left( {\mathbf{x}}_{i}\right) - 1 \geq 0; \\ {\alpha }_{i}\left( {{y}_{i}f\left( {\mathbf{x}}_{i}\right) - 1}\right) = \end{array}\right.$
在参数初始化后， SMO 不断执行如下两个步骤直至收敛:
（1）选取一对需更新的变量 $\alpha _{i}$ 和 $\alpha _{j}$ ;
（2）固定 $\alpha _{i}$ 和 $\alpha _{j}$ 以外的参数，求解公式获得更新后的 $\alpha _{i}$ 和 $\alpha _{j}$

6.3 核函数

在现实任务中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面，如下图中的" 异或问题就不是线性可分的
在这里插入图片描述

对这样的问题，可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性分。令 $\phi (x)$ 表示将 $x$ 映射后的特征向量，于是，在特征空间中划分超平面所对应的模型可表示为
$f(x)=w^{T} \phi (x)+b$ ,由于特征空间维数可能很高，甚至可能是无穷维，因此直接计算 $\phi {\left( {\mathbf{x}}_{i}\right) }^{\mathrm{T}}\phi \left( {\mathbf{x}}_{j}\right)$ 很难，可设想该函数
$\kappa \left( {{\mathbf{x}}_{i},{\mathbf{x}}_{j}}\right) = \left\langle {\phi \left( {\mathbf{x}}_{i}\right) ,\phi \left( {\mathbf{x}}_{j}\right) }\right\rangle = \phi {\left( {\mathbf{x}}_{i}\right) }^{\mathrm{T}}\phi \left( {\mathbf{x}}_{j}\right)$
经过该函数的变化，上式可改写为
$\mathop{\max }\limits_{\mathbf{\alpha }}\mathop{\sum }\limits_{{i = 1}}^{m}{\alpha }_{i} - \frac{1}{2}\mathop{\sum }\limits_{{i = 1}}^{m}\mathop{\sum }\limits_{{j = 1}}^{m}{\alpha }_{i}{\alpha }_{j}{y}_{i}{y}_{j}\kappa \left( {{\mathbf{x}}_{i},{\mathbf{x}}_{j}}\right)$
求解后得到
$f\left( \mathbf{x}\right) = {\mathbf{w}}^{\mathrm{T}}\phi \left( \mathbf{x}\right) + b$
$\mathop{\sum }\limits_{{i = 1}}^{m}{\alpha }_{i}{y}_{i}\phi {\left( {\mathbf{x}}_{i}\right) }^{\mathrm{T}}\phi \left( \mathbf{x}\right) + b$
$\mathop{\sum }\limits_{{i = 1}}^{m}{\alpha }_{i}{y}_{i}\kappa \left( {\mathbf{x},{\mathbf{x}}_{i}}\right) + b$
上面的 $\kappa (.,.)$ 就是“核函数”，该函数有如下定理
令 $\chi$ 为输入空间， $\kappa (.,.)$ 是该空间上的对称函数，则 $\kappa$ 是核函数当且仅当对于任意数据，“核矩阵”K总是半正定的
在这里插入图片描述
上式表明：只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用.事实上,对于一个半正定核矩阵,总能找到一个与之对应的映射φ.换言之,任何一个核函数都隐式地定义了一个称为“再生核希尔伯特空间”的特征空间。
常用核函数如下:
在这里插入图片描述

6.4 软间隔与正则化

硬间隔：在样本空间中，对某一个超平面，其中所有的样本都必须划分正确。
软间隔：与上述类似，只不过允许部分样本不满足约束。
下图给出了三种常用的替代损失函数:
hinge损失： ${\ell }_{\text{hinge }}\left( z\right) = \max \left( {0,1 - z}\right)$
指数损失： ${\ell }_{\text{exp }}\left( z\right) = \exp \left( {-z}\right)$
对率损失： ${\ell }_{\text{log }}\left( z\right) = \log \left( {1 + \exp \left( {-z}\right) }\right)$
在这里插入图片描述
两者唯一的差别就在于对偶变量的约束不同:软间隔是 $0\le \alpha _{i} \le C$ , 硬间隔是 $0\le \alpha _{i}$

6.5 支持向量回归

给定训练样本D，希望学得一个形如 $f(x)=w^{T}x+b$ 的回归模型,使得 $f (x)$ 与y尽可能接近，支持向量回归（SVR）假设我们能容忍 $f (x)$ 与y之间最多有 $\epsilon$ 的偏差，如图所示
在这里插入图片描述
在虚线部分的样本点则认为是被预测正确的。于是，SRC问题可形式化为
$\mathop{\min }\limits_{{\mathbf{w},b}}\frac{1}{2}\parallel \mathbf{w}{\parallel }^{2} + C\mathop{\sum }\limits_{{i = 1}}^{m}{\ell }_{\epsilon }\left( {f\left( {\mathbf{x}}_{i}\right) - {y}_{i}}\right) ,$
其中，
${\ell }_{\epsilon }\left( z\right) = \left\{ \begin{array}{ll} 0, & \text{ if }\left| z\right| \leq \epsilon \\ \left| z\right| - \epsilon , & \text{ otherwise. } \end{array}\right.$
引入松弛变量 $\xi _{i}$ 和 $\hat{\xi} _{i}$ ,第一个公式改写为
$\mathop{\min }\limits_{{\mathbf{w},b,{\xi }_{i},{\widehat{\xi }}_{i}}}\frac{1}{2}\parallel \mathbf{w}{\parallel }^{2} + C\mathop{\sum }\limits_{{i = 1}}^{m}\left( {{\xi }_{i} + {\widehat{\xi }}_{i}}\right)$
最终，SVR可表示为
$f\left( \mathbf{x}\right) = \mathop{\sum }\limits_{{i = 1}}^{m}\left( {{\widehat{\alpha }}_{i} - {\alpha }_{i}}\right) \kappa \left( {\mathbf{x},{\mathbf{x}}_{i}}\right) + b$
其中 $\kappa ({\mathbf{x}}_{i},{\mathbf{x}}_{j}) = \phi ({\mathbf{x}}_{i}{)}^{T}\phi ({\mathbf{x}}_{j})$ 为核函数。