支持向量机-数学模型

news2025/3/9 10:50:55

支持向量机（support vector machines, SVM）是一种二分类模型。基本模型是定义在特征空间上的间隔最大的线性分类器；学习策略：间隔最大化；学习算法：求解凸二次规划的最优化算法。

支持向量机分为线性可分支持向量机（linear support vector machine in linearly separable case）、线性支持向量机（linear support vector machine）、非线性支持向量机（non-linear support vector machine）。

$n$ 维空间的超平面 $\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b=0\right.$ ，其中 $\left.\boldsymbol{w}, \boldsymbol{x} \in \mathbb{R}^n\right)$ :

超平面方程不唯一
法向量 $\boldsymbol{w}$ 和位移项 $b$ 确定一个唯一超平面
法向量 $\boldsymbol{w}$ 垂直于超平面（缩放 $\boldsymbol{w}, b$ 时, 若缩放倍数为负数会改变法向量方向)
法向量 $\boldsymbol{w}$ 指向的那一半空间为正空间，另一半为负空间
任意点 $\boldsymbol{x}$ 到超平面的距离公式为

$r=\frac{\left|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right|}{\|\boldsymbol{w}\|}$

若存在一个划分样本类别的超平面，则存在无数个可划分的超平面。

线性可分支持向量机

如下图所示，分类目标是将两类样本分开。
在这里插入图片描述
二分类问题中，划分超平面应满足（以下条件可扩充至高维的情形）：

能正确划分两类样本
过「支持向量」且平行于「划分超平面」的两个超平面距离最大（间隔最大）
距所有「支持向量」距离相等

数学模型

根据划分超平面的满足条件，推导支持向量机的数学模型。

定义数据及标签

给定训练数据集 $D=\left\{\left(\boldsymbol {x_1}, y_1\right),\left(\boldsymbol {x_2}, y_2\right), \ldots,\left(\boldsymbol {x_m}, y_m\right)\right\}$ ，共有两类标签 $y_i \in\{-1,+1\}$ ， $y_i=-1$ 为反例， $y_i=+1$ 为正例。

划分超平面的线性模型

划分超平面线性模型： $\boldsymbol{w}^{\boldsymbol{T}} \boldsymbol{x}+b=0$ 。其中， $\boldsymbol{w}= \left(w_1, w_2, \ldots, w_d\right)^\mathrm{T}$ 为法向量，决定超平面的方向； $b$ 为偏移项，决定超平面与原点间的距离。划分超平面可简记为 $\left(\boldsymbol{w}, b\right)$ 。

正确线性划分

假设超平面 $(\boldsymbol{w}, b)$ 能将训练样本正确分类，

从划分超平面来看，对于 $\left(\boldsymbol{x}_i, y_i\right) \in D$ ，若 $y_i=$ $+ 1$ ，则有 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i+b \geqslant 0$ ；若 $y_i=-1$ , 则有 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i+b<0$ 。简写为：
$y_i [\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i+b ] \geqslant 0 \tag 1$
从穿过「支持向量」且平行于「划分超平面」的两个超平面来看，对于 $\left(\boldsymbol{x}_i, y_i\right) \in D$ ，若 $y_i=+1$ ，则有 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i+b \geqslant+1$ ；

若 $y_i=-1$ ，则有 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i+b \leqslant-1$ 。简写为：
$y_i [\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i+b ] \geqslant 1 \tag 2$
确定划分超平面时只有支持向量起作用，其他样本点不起作用。如果移动支持向量将改变所求的解；但移动、去掉其他样本点，解不会改变，因此采用公式 (2) 来表示正确线性划分更好。

间隔最大

从两类支持向量所在超平面间的距离或支持向量到划分超平面的距离*2两个角度，可得异类支持向量到划分超平面的距离和为：
$\gamma = \frac{2}{|| \boldsymbol{w} ||}$
综上，可得支持向量机数学模型：
$\begin{align} \min _{\boldsymbol{w}, b} & \frac{1}{2}\|\boldsymbol{w}\|^2 \tag{3a} \\ \text { s.t. } & y_i\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i+b\right) \geqslant 1, \quad i=1,2, \ldots, m . \tag{3b} \end{align}$
目标函数表示：过「支持向量」的平行于「最优划分超平面」的两个超平面距离最大（间隔最大）。

目标函数中乘 $1/2$ 的目的是便于求导。

思考

约束方程为什么乘 $y_i$ ？

$\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i+b$ 的符号与类别标记 $y_i$ 的符号是否一致能够表示分类是否正确。
约束方程右端为什么是1？可以为其他数吗？

约束方程右端的数可以改成任意的正数。若改为正数 $a$ ，意味着所有向量距离最优划分超平面最小距离为 $a$ ，参数 $\boldsymbol{w}、b$ 的值与原来的为 1 时的只差 $a$ 倍。
为什么取 $y_i$ 为 -1 或 1？

两个值表示两类不同样本，和 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i+b = \pm 1$ 式中的 $1$ 没有关系，也可取其他值，如：0 和 1、1 和 2，……此处定为 -1 或 1 是为了便于推导数学模型，如公式 (2) 的简洁形式。
为什么设支持向量所在超平面方程为 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i+b = \pm 1$ ？可以是 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i+b = \pm 5$ 吗?

原则上说，这两条直线可以是 $\boldsymbol{w}^{\boldsymbol{T}} \boldsymbol{x}+b= \pm k$ ，其中， $k$ 为任意常数。若对上式两边同时乘以 $\frac{1}{k}$ ，并令 $\boldsymbol{w}^{\boldsymbol{T}}=\frac{1}{k} \boldsymbol{w}^{\boldsymbol{T}}, b=\frac{1}{k} b$ ，直线改为： $\boldsymbol{w}^{\boldsymbol{T}} \boldsymbol{x}+b=\pm 1$ ，最优划分超平面依然是 $\boldsymbol{w}^{\boldsymbol{T}} \boldsymbol{x}+b=0$ ，但是数学模型的最优值发生变化。