【SVM】简单介绍（四）

news2025/4/12 10:27:02

1、Soft Margin SVM 对偶求解

在这里插入图片描述

构造拉格朗日函数
$\begin{aligned} & L=\frac{1}{2}\|w\|^2+C \sum_{i=1}^n \xi_i-\sum_{i=1}^n \alpha_i\left(y_i\left(w^T x_i+b\right)-1+\xi_i\right)-\sum_{i=1}^n \gamma_i \xi_i \\ & \alpha_i \geq 0 \quad \gamma_i \geq 0 \end{aligned}$
求偏导
$\begin{gathered} \frac{\partial L}{\partial w}=0 \Rightarrow w=\sum_i \alpha_i y_i x_i \\ \frac{\partial L}{\partial b}=0 \Rightarrow \sum_i \alpha_i y_i=0 \\ \frac{\partial L}{\partial \xi_i}=0 \Rightarrow \alpha_i+\gamma_i=C \Rightarrow 0 \leq \alpha_i \leq C \end{gathered}$
于是问题转化为
$\begin{aligned} & \max . W(\boldsymbol{\alpha})=\sum_{i=1}^n \alpha_i-\frac{1}{2} \sum_{i=1, j=1}^n \alpha_i \alpha_j y_i y_j \mathbf{x}_i^T \mathbf{x}_j \\ & \text { subject to } C \geq \alpha_i \geq 0, \sum_{i=1}^n \alpha_i y_i=0 \end{aligned}$
并且注意到 $\mathbf{w}=\sum_{j=1}^s \alpha_{t_j} y_{t_j} \mathbf{x}_{t_j}$

在对偶空间中，Hard Margin SVM和Soft Margin SVM得到了统一，唯一不同就是这边的拉格朗日乘子 $\alpha_i$ 有一个上界 $C$
在对偶空间中，Soft Margin SVM也是一个QP问题!!!

KKT条件
$\left\{\begin{array}{l} \alpha_i\left(y_i f\left(x_i\right)-1+\xi_i\right)=0 \\ \gamma_i \xi_i=0 \\ \alpha_i+\gamma_i=C \Rightarrow 0 \leq \alpha_i \leq C \end{array}\right.$
$\begin{cases}\alpha_i=0 & \Rightarrow y_i f\left(x_i\right) \geq 1 \Rightarrow \text { Samples outside the boundary } \\ 0<\alpha_i<C & \Rightarrow y_i f\left(x_i\right)=1 \Rightarrow \text { Samples on the boundary } \\ \alpha_i=C & \Rightarrow y_i f\left(x_i\right) \leq 1 \Rightarrow \text { Samples within the boundary }\end{cases}$
在这里插入图片描述

如何求偏置 $b$
$\begin{gathered} 0<\alpha_i<C \Rightarrow y_i f\left(\mathrm{x}_i\right)=1 \\ f(\mathrm{z})=\sum_{j=1}^s \alpha_j y_j \mathrm{x}_j^T \mathrm{z}+b \end{gathered}$
$b=y_i-\sum_{j=1}^s \alpha_j y_j x_j^T x_i \quad \forall 0<\alpha_i<C$
随便找一个支撑向量点，带进去就能算出 $b$ 。不同的支撑向量点算出的 $b$ 是一样的。

2、非线性SVM

对于任意给定的线性不可分的数据集，我们总能找到一种映射 $\phi(\cdot)$ ，在映射空间中，样本点是线性可分的。

回忆一下
$\begin{aligned} \text { maximize } & \sum_{i=1}^N \alpha_i-\frac{1}{2} \sum_{i=j=1}^N \alpha_i \alpha_j y_i y_j x_i x_j \\ \text { subject to } & C \geq \alpha_i \geq 0, \sum_{i=1}^N \alpha_i y_i=0 \end{aligned}$
我们发现，当把数据映射到高维空间后，我们只需要计算数据之间的内积，因此我们不去显式地去定义 $\phi(\cdot)$ ，转而去定义高维空间的内积，也就是核函数
$K\left(x_i, x_j\right)=\phi\left(x_i\right) \cdot \phi\left(x_j\right)$
所以非线性SVM只要把所有的内积都换成核函数就行了
$\begin{aligned} & \max . W(\boldsymbol{\alpha})=\sum_{i=1}^n \alpha_i-\frac{1}{2} \sum_{i=1, j=1}^n \alpha_i \alpha_j y_i y_j \mathbf{x}_i^T \mathbf{x}_j \\ & \text { subject to } C \geq \alpha_i \geq 0, \sum_{i=1}^n \alpha_i y_i=0 \end{aligned}$
换成
$\begin{aligned} & \max . W(\boldsymbol{\alpha})=\sum_{i=1}^n \alpha_i-\frac{1}{2} \sum_{i=1, j=1}^n \alpha_i \alpha_j y_i y_j K\left(\mathbf{x}_i, \mathbf{x}_j\right) \\ & \text { subject to } C \geq \alpha_i \geq 0, \sum_{i=1}^n \alpha_i y_i=0 \end{aligned}$
最终的分类器
$\begin{aligned} & \mathbf{w}=\sum_{j=1}^s \alpha_{t_j} y_{t_j} \mathbf{x}_{t_j} \\ & f=\mathbf{w}^T \mathbf{z}+b=\sum_{j=1}^s \alpha_{t_j} y_{t_j} \mathbf{x}_{t_j}^T \mathbf{z}+b \end{aligned}$
换成
$\begin{aligned} \mathbf{w} & =\sum_{j=1}^s \alpha_{t_j} y_{t_j} \phi\left(\mathbf{x}_{t_j}\right) \\ f & =\langle\mathbf{w}, \phi(\mathbf{z})\rangle+b=\sum_{j=1}^s \alpha_{t_j} y_{t_j} K\left(\mathbf{x}_{t_j}, \mathbf{z}\right)+b \end{aligned}$
可以看到，非线性SVM中，咱们构造不出 $\mathbf{w}$ 了，好在最终的判别函数要计算的还是内积，可以直接计算判别函数值，而不用去显式地把分类器表示出来。

最终的 $b$
$b=y_i-\sum_{j=1}^s \alpha_j y_j x_j^T x_i \quad \forall 0<\alpha_i<C$
换成
$b=y_i-\sum_{j=1}^s \alpha_j y_j k\left(x_j, x_i\right) \quad \forall 0<\alpha_i<C$

3、An Example

在这里插入图片描述

4、SVM是凸优化

回忆一下凸函数

$D -$ a domain in $\mathbb{R}^n$
$f\left((1-\alpha) \mathbf{x}_0+\alpha \mathbf{x}_1\right) \leq(1-\alpha) f\left(\mathbf{x}_0\right)+\alpha f\left(\mathbf{x}_1\right)$
在这里插入图片描述

SVM的优化问题是
$\min _{\mathbf{w} \in \mathbb{R}^d} C \sum_i^N \max \left(0,1-y_i f\left(\mathbf{x}_i\right)\right)+\|\mathbf{w}\|^2$

该式左半部分是Hinge Loss的和，右边是一个二次函数，由于凸函数的非负线性组合还是凸函数，所以SVM是个凸优化问题，也就是说，损失函数的 local minimum 就是 global minimum.