机器学习（西瓜书）第 6 章支持向量机

news2026/2/24 13:19:50

6.1 算法原理

在这里插入图片描述

感知机要求就随便找一个超平面，只要能把正负样本分开就行
但是支持向量机不一样，它认为你不仅得把它分开，而且这个超平面还得尽可能的离正负样本远
在这里插入图片描述

6.2 间隔与支持向量

在这里插入图片描述
其中w = (wi；w2;…;wd)为法向量，决定了超平面的方向；b为位移项，决定了超平面与原点之间的距离

二维空间中超平面就是一条直线

样本空间中任意点X到超平面(w,b)的距离可写为：
在这里插入图片描述

注意这里是线性可分，下节课是线性不可分的软间隔

这个不是阶跃函数，这个是符号函数，阶跃函数在x<0时函数值为0，不是-1

在这里插入图片描述

在这里插入图片描述
（另一种推导方法省略了）

这就是支持向量机(Support Vector Machine,简称SVM)的基本型

6.3 对偶问题

注意到主问题本身是1 个凸二次规划问题，能直接用现成的优化计算包求解，但我们可以有更高效的办法.对主问题使用拉格朗日乘子法可得到其“对偶问题”(dual problem).具体来说，对主问题的每条约束添加拉格朗日乘子阿尔法i>=0
在这里插入图片描述

若阿尔法i= 0,则该样本将不会在最终模型式子的求和中出现，也就不会对f(x)有任何影响；
若阿尔法i > 0,则必有y_i*f(x_i)= 1,所对应的样本点位于最大间隔边界上，是一个支持向量.这显示出支持向量机的一个重要性质:训练完成后，大部分的训练样本都不需
保留，最终模型仅与支持向量有关.

在这里插入图片描述

6.4 特征空间映射

在本章前面的讨论中，我们假设训练样本是线性可分的（支持向量机的前提是线性可分），即存在一个划分超平面能将训练样本正确分类.然而在现实任务中，原始样本空间内也许并不存在一个能正确划分两类样本的超平面.例如图6.3中的“异或”问题就不是线性可分的
在这里插入图片描述

6.5 核函数

在这里插入图片描述

6.6 软间隔与正则化

在前面的讨论中，我们一直假定训练样本在样本空间或特征空间中是线性可分的，即存在一个超平面能将不同类的样本完全划分开.然而，在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分；退一步说,即便恰好找到了某个核函数使训练集在特征空间中线性可分，也很难断定这个貌似线性可分的结果不是由于过拟合所造成的.
缓解该问题的一个办法是允许支持向量机在一些样本上出错.为此，要引入 “软间隔”(soft margin)的概念,如图6.4所示.
在这里插入图片描述

在这里插入图片描述

其中L0/1是0/1损失函数
障碍：0/1损失函数非凸、非连续，不宜优化！

6.7 支持向量回归

现在我们来考虑回归问题.给定训练样本,希望学得一个形如式(6.7)的回归模型，使得f(x)与g 尽可能接近，w 和b是待确定的模型参数.

对样本(x,y) ,传统回归模型通常直接基于模型输出f(x)与真实输出y 之
间的差别来计算损失，当且仅当f(x)与y 完全相同时，损失才为零.与此不同,支持向量回归(Support Vector Regression,简称SVR)假设我们能容忍f(x)与y 之间最多有e的偏差，即仅当f(x)与y 之间的差别绝对值大于e 时才计算损失.如图6.6所示,这相当于以f(x)为中心，构建了一个宽度为2 e的间隔带,若训练样本落入此间隔带，则认为是被预测正确的.
在这里插入图片描述
于是，S V R 问题可形式化为