支持向量机（SVM）：算法讲解与原理推导

1 SVM介绍

SVM是一个二类分类器，它的全称是Support Vector Machine，即支持向量机。

SVM的目标是找到一个超平面，使用两类数据离这个超平面越远越好，从而对新的数据分类更准确，即使分类器更加健壮。比如上面的图中，两种分界线都成功划分了所有数据，但是浅颜色的线距离样本很近，距离分界线比较近的样本很容易被误判，相比之下黑色的线就好得多。
它有两个核心思想，一个是对于线性可分数据，SVM通过寻找最大化类别间距离的超平面进行分类；另一个是对于线性不可分数据，SVM就利用核函数将数据映射到高维空间，再找到线性可分的超平面。这个后面再详细说。

2 公式推导

2.1 距离求解

下面需要求解样本点与分界平面之间的距离。这里用到两个概念：投影、向量点乘。
可设分界超平面为 $wX + b = 0$ ， $b$ 是偏移量， $\vec{w}$ 就是平面法向量。

如图， $x$ 是任意样本点，平面是需要求解的分界面。 $x^{'}$ 是平面上任意一点， $\vec{w}$ 是平面法向量。其中 $\vec {x'x}$ 为 $x - x^{'}$ 。需要求解 $x$ 到平面的距离 $d$ ，也就是 $\vec {x'x}$ 在 $\vec{w}$ 方向上的投影。
为了符合线性代数的习惯，向量符号就不使用箭头标识了。
根据向量点乘公式知：
$w^{T}(x-x')=||w||×||x-x'||×\cos<w^T,x-x'>$
则投影为：
$||x-x'||\cos<w^T,x-x'>=\frac{W^T(x-x')}{||w||}=\frac{1}{||w||}(w^Tx+b)$
所以距离公式为：
$\frac{1}{||w||}|w^Tx+b|$
为了方便求解，约定 $w$ 方向朝向正例样本所在方向，正例样本标签 $y$ 记为1，负例样本标签 $y$ 记为-1，那么距离公式可记为：
$\frac{1}{||w||}y(w^Tx+b)$

2.2 目标表示

距离平面的最小间隔，公式表示为：
$\min_{x_i}{\frac{1}{||w||}y_i(w^Tx_i+b)}$
目标是最大化所有样本点中距离平面的最小间隔，公式表示为：
$\max_{w,b}{\min_{x_i}{\frac{1}{||w||}y_i(w^Tx_i+b)}}=\max_{w,b}{\frac{1}{||w||}\min_{x_i}{y_i(w^Tx_i+b)}}$
随着 $w$ 和 $b$ 的任意变化， $y_i(w^Tx_i+b)$ 大小可以随之变化。在同一个最优解情况下，会有多个 $w$ 和 $b$ 。于是为了便于求解，约定以下公式作为约束条件：
$\min_{x_i}{y_i(w^Tx_i+b)}=1 \Rightarrow y_i(w^Tx_i+b)\geq1 \Rightarrow 1-y_i(w^Tx_i+b)\leq0$
注意这里每个样本点都构成一个约束。因此求解目标转变为在该限制下的 $\max_{w,b}{\frac{1}{||w||}}$ 。为了符合习惯，将其转换为求解最小值，则：
$\max_{w,b}{\frac{1}{||w||}}$ = $\min_{w,b}{||w||}=\min_{x,b}{\frac{1}{2}w^Tw}$
这里增加 $\frac{1}{2}$ 是为了便于求导，不会影响结果。
此时优化目标使用公式表示为：
$\left\{ \begin{array}{l} \min_{x,b}{\frac{1}{2}w^Tw} \\ s.t. \ \ 1-y_i(w^Tx_i+b)\leq0,\ \ i=1,2,...N \end{array} \right.$

2.3 求解 $w$

下面就是使用数学原理拉格朗日乘数法、Karush-Kuhn-Tucker (KKT)条件、对偶问题求解上述公式。可以不过于纠结数学原理，如果另有需要，再深入研究。
上述求解目标是有不等式约束下的凸二次优化问题。于是根据拉格朗日乘数法，问题可以转换为：
$\left\{ \begin{array}{l} \min_{w,b}{\max_{\alpha}{L(w,b,\alpha)}} \\ s.t. \ \alpha_{i}\geq0 \end{array} \right.$

其中拉格朗日函数 $L(w,b,\alpha)=\frac{1}{2}w^{T}w+\sum_{i=1}^{N}{\alpha_{i}(1-y_{i}(w^{T}x_{i}+b))}$ 。
该公式需要满足KKT条件：
$\left\{ \begin{array}{l} 1-y_i(w^Tx_i+b)\leq0 \\ \alpha_{i}(1-y_i(w^Tx_i+b))=0 \\ \alpha_{i}\geq0 \end{array} \right.$

$L(w,b,\alpha)$ 一定是强对偶问题，上述问题可以转换为：
$\left\{ \begin{array}{l} \max_{\alpha}{\min_{w,b}{L(w,b,\alpha)}} \\ s.t. \ \alpha_{i}\geq0 \end{array} \right.$

那么当前首要任务是求解有约束下的 $\min_{x,b}{L(w,b,\alpha)}$ 。求解思路是： $L(w,b,\alpha)$ 对 $w$ 和 $b$ 求偏导，最小值就在偏导为0的点上，那么比较这些点的 $L$ 值大小，最小的点就是最优解。
则求解下面式子：
$\left\{ \begin{array}{l} \frac{\partial L}{\partial w}=w-\sum_{i=1}^{N}{\alpha_{i}y_{i}x_{i}}=0 \\ \frac{\partial L}{\partial b}=\sum_{i=1}^{N}{\alpha_{i}y_{i}}=0 \\ \alpha_{i}\geq0 \end{array} \right.$

可知：
$w=\sum_{i=1}^{N}{\alpha_{i}y_{i}x_{i}}$
将 $w$ 带回原式子，则：
$\begin{array}{l} L(w,b,\alpha) \\ =\frac{1}{2}w^{T}w+\sum_{i=1}^{N}{\alpha_{i}(1-y_{i}(w^{T}x_{i}+b))} \\ = \frac{1}{2}{\sum_{i=1}^{N}\sum_{j=1}^{N}{\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}x_{j}}}+\sum_{i=1}^{N}{\alpha_{i}}-\sum_{i=1}^{N}{\alpha_{i}y_{i}(\sum_{j=1}^{N}{\alpha_{j}y_{j}x_{j}}x_{i}+b)} \\ = \frac{1}{2}{\sum_{i=1}^{N}\sum_{j=1}^{N}{\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}x_{j}}}+\sum_{i=1}^{N}{\alpha_{i}}-\sum_{i=1}^{N}\sum_{j=1}^{N}{\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}x_{j}}-b\sum_{i=1}^{N}{\alpha_{i}y_{i}} \\ = \sum_{i=1}^{N}{\alpha_{i}}-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}{\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}x_{j}} \end{array}$

下一步又需要求解：
$\left\{ \begin{array}{l} \max_{\alpha}{[\sum_{i=1}^{N}{\alpha_{i}}-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}{\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}x_{j}}]} \\ s.t. \ \sum_{i=1}^{N}{\alpha_{i}y_{i}}=0,\alpha_{i}\geq0 \end{array} \right.$

即：
$\left\{ \begin{array}{l} \min_{\alpha}{[\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}{\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}x_{j}}-\sum_{i=1}^{N}{\alpha_{i}}]} \\ s.t. \ \sum_{i=1}^{N}{\alpha_{i}y_{i}}=0,\alpha_{i}\geq0 \end{array} \right.$

2.4 求解 $b$

支持向量是位于间隔边界上样本点，即 $1-y_i(w^Tx_i+b))=0$ 。
对于任意一个支持向量，求可以通过 $1-y_i(w^Tx_i+b))=0$ 计算得到 $b$ 。
如果有多个支持向量，记 $S$ 为支持向量集合，那么可以求解：
$b=\frac{1}{|S|}\sum_{S}{y_i-w^Tx_i}$ 。

2.5 求解支持向量（SOM算法）

下面需要基于上面的公式求解每个样本点的 $\alpha_{i}$ 。所有满足 $\alpha_{i}\leq0$ 的样本均为支持向量。
如果使用传统二次规划算法求解，样本量较大时效率较为低下。可以使用序列最小优化算法(Sequential Minimal Optimization, SMO)求解：

初始化
设置所有拉格朗日乘子α的初始值，通常设为零。
选择两个变量 $\alpha_i$ 和 $\alpha_j$
- 外层循环：
  遍历训练集中的每个样本，检查其是否违反KKT条件。如果发现某个样本不满足KKT条件，则将其作为第一个要优化的变量 $\alpha_i$ 。
- 内层循环：
  选择第二个变量 $\alpha_j$ ，目标是最大化 $∣ E 1 - E 2∣$ ，即两者的误差差异。这有助于确保每次迭代都能带来显著的变化。（ $E_i = \mathbf{w}^\top \mathbf{x}_i + b - y_i$ ，是样本预测值与真实值的误差。）
优化子问题
固定其他 $\alpha$ ，仅优化 $\alpha_i$ 和 $\alpha_j$ 。由于约束 $\alpha_i y_i + \alpha_j y_j = -\sum_{k\neq i,j} \alpha_k y_k = \zeta \quad (\text{常数})$ ，可用 $\alpha_1$ 表示 $\alpha_2$ ，将问题转换为单变量二次函数优化。然后求导找极值点可得：
$\alpha_j^{\text{new}} = \alpha_j^{\text{old}} + \frac{y_j (E_i - E_j)}{\eta}, \quad \eta = K(x_i, x_i) + K(x_j, x_j) - 2K(x_i, x_j)$
其中 $K(x_i, x_j)=x_i*x_j$ ，称为线性核。 $\eta =\|\mathbf{x}_i - \mathbf{x}_j\|^2$ （几何意义：两个样本的欧氏距离平方）。
然后对 $\alpha_j^{\text{new}}$ 进行剪裁，也就是约束其在可行域内：
$\alpha_2^{\text{new,clipped}} = \begin{cases} H & \text{if } \alpha_2^{\text{new}} > H \\ L & \text{if } \alpha_2^{\text{new}} < L \\ \alpha_2^{\text{new}} & \text{otherwise} \end{cases}$

其中：
- 若 $y_i \neq y_j$ ，则： $\max(0, \alpha_j^{\text{old}} - \alpha_i^{\text{old}}), \quad H = +\infty$
- 若 $y_i = y_j$ ，则： $\max(0, \alpha_i^{\text{old}} + \alpha_j^{\text{old}} - \zeta), \quad H = +\infty$
然后更新 $\alpha_i$ ：
$\alpha_1^{\text{new}} = \alpha_1^{\text{old}} + y_1 y_2 (\alpha_2^{\text{old}} - \alpha_2^{\text{new,clipped}})$ 。
更新阈值 $b$ 和误差缓存
- 根据新 $\alpha_i$ 和 $\alpha_j$ 计算阈值 $b$ 。
- 更新所有样本的误差缓存 $E_i$ ，用于后续变量选择。
收敛判断
重复上述步骤，直到所有 $\alpha_i$ 满足KKT条件，或达到最大迭代次数。

3 优化

3.1 软间隔

允许部分样本不满足约束，引入松弛变量 $\xi_i \geq 0$ ，优化目标变为：
$\left\{ \begin{array}{l} \min_{x,b}{\frac{1}{2}w^Tw}+C\sum_{i=1}^{n}{\xi_i} \\ s.t. \ \ 1-y_i(w^Tx_i+b)\leq\xi_i ,\ \xi_i \geq 0, \ i=1,2,...N \end{array} \right.$
其中 $C$ 是惩罚参数，控制分类错误与间隔的权衡。

3.2 核技巧（Kernel Trick）

当数据线性不可分时，可以通过映射 $\phi(x)$ 将数据投影到高维空间，使其线性可分。
为了避免显式计算高维内积 $\phi(x_i) \cdot \phi(x_j)$ ，可以直接使用核函数 ( K(x_i, x_j) ) 代替。
常用核函数：

线性核： $K(x_i, x_j) = x_i \cdot x_j$
多项式核： $K(x_i, x_j) = (x_i \cdot x_j + c)^d$
高斯核（RBF）： $K(x_i, x_j) = \exp\left( -\frac{\|x_i - x_j\|^2}{2\sigma^2} \right)$

2.5的优化目标变为：
$\left\{ \begin{array}{l} \min_{\alpha}{[\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}{\alpha_{i}\alpha_{j}y_{i}y_{j}K(x_i, x_j)}-\sum_{i=1}^{N}{\alpha_{i}}]} \\ s.t. \ \sum_{i=1}^{N}{\alpha_{i}y_{i}}=0,\alpha_{i}\geq0 \end{array} \right.$