【机器学习】支持向量机（SVM）的基本概念、如何选择向量机（SVM）的参数以及在python中使用向量机的实例

news2025/4/8 17:07:27

引言

支持向量机（SVM）是一种在机器学习中广泛应用的二分类模型。它的核心思想是寻找一个最优的超平面，将不同类别的样本分隔开来。这个过程涉及到最大化间隔，即找到那些最接近分隔超平面的样本点，这些点被称为支持向量。SVM的目标是确保这些支持向量与分隔超平面的距离尽可能大，从而提高分类的准确性

文章目录

引言
一、支持向量机（SVM）的基本概念
- 1.1 超平面
- 1.2 间隔
- 1.3 支持向量
- 1.4 训练算法
- - 1.4.1 最优化问题
  - 1.4.2 拉格朗日乘子法
- 1.5 优点和局限性
- - 1.5.1 优点
  - 1.5.2 局限性
- 1.6 应用
- 1.7 总结
二、向量机（SVM）不同的类型
- 2.1 线性支持向量机
- - 2.1.1 线性可分SVM
  - 2.1.2 线性不可分SVM
- 2.2 非线性支持向量机
- - 2.2.1 核函数
三、如何选择向量机（SVM）的参数
- 3.1 选择核函数
- 3.2 调整参数
- - 3.2.1 C（惩罚参数）
  - 3.2.2 c（RBF核的参数）
  - 3.2.3 degree（多项式核的参数）
- 3.3 调参技巧
- 3.4 考虑计算资源
- 3.5 避免过拟合
- 3.6 总结
四、在python中使用向量机的实例
- 4.1 代码
4.2 代码解释

在这里插入图片描述

一、支持向量机（SVM）的基本概念

支持向量机（Support Vector Machine，简称SVM）是一种监督学习算法，用于分类和回归分析

在这里插入图片描述

1.1 超平面

在二维空间中，一条直线可以划分两个类别；在三维空间中，一个平面可以划分两个类别。这种划分的边界被称为超平面。在更高维的空间中，超平面是划分数据的一种线性边界

1.2 间隔

间隔是指超平面与最近的训练样本之间的距离。支持向量机的基本目标是最大化这个间隔，这样可以提高模型的泛化能力

1.3 支持向量

支持向量是指那些位于间隔边界上的样本点。在确定了最优超平面之后，只有支持向量对超平面的位置有影响，其他样本点则没有影响

1.4 训练算法

1.4.1 最优化问题

SVM的训练过程可以看作是一个最优化问题，目标是找到使得间隔最大化的超平面。这通常转化为一个凸二次规划问题

1.4.2 拉格朗日乘子法

为了解决这个最优化问题，通常使用拉格朗日乘子法。通过引入拉格朗日乘子，将原始问题转化为对偶问题，这样可以更容易地求解

1.5 优点和局限性

1.5.1 优点

效果好：在多种不同的应用领域中表现出色
可以处理高维数据：通过核函数，无需直接在高维空间中进行计算
泛化能力强：由于最大化间隔，通常具有良好的泛化能力

1.5.2 局限性

计算复杂度高：对于大规模数据集，SVM的训练时间可能会很长
只适用于二分类：传统的SVM是为二分类问题设计的，虽然可以通过一对多或一对一的方法扩展到多分类问题，但这会使得计算复杂度增加

1.6 应用

SVM在多种领域都有应用，包括文本分类、图像识别、生物信息学等

1.7 总结

支持向量机是一个强大的机器学习工具，特别是当数据集相对较小且特征维度较高时。通过适当选择核函数和调整参数，SVM可以在多种不同的学习任务中取得良好的效果

二、向量机（SVM）不同的类型

2.1 线性支持向量机

2.1.1 线性可分SVM

当数据集是线性可分的，即存在一个超平面可以完美地将两类数据分开时，我们可以使用硬间隔最大化来找到最优超平面

2.1.2 线性不可分SVM

当数据集不是线性可分的时，可以使用软间隔最大化。这涉及到引入松弛变量，允许一些样本点不满足严格的分类条件

2.2 非线性支持向量机

2.2.1 核函数

对于线性问题，SVM通过使用核函数将数据映射到高维空间，在这个高维空间中寻找最优超平面。常用的核函数包括：

线性核
多项式核
径向基函数（RBF）
Sigmoid核

三、如何选择向量机（SVM）的参数

选择支持向量机（SVM）的参数是模型调优的关键步骤，这些参数会影响模型的性能和泛化能力。选择支持向量机（SVM）的参数是模型调优的关键步骤，这些参数会影响模型的性能和泛化能力

3.1 选择核函数

首先，需要决定是否使用核技巧以及选择哪种核函数

线性核：如果数据是线性可分的，或者特征维度很高，使用线性核通常是一个好的起点，因为它简单且计算效率高
多项式核：如果数据不是线性可分的，可以尝试多项式核。需要选择合适的次数d
径向基函数（RBF）核：这是最常用的核函数，适用于各种不同的数据集。RBF核包含一个参数γ
Sigmoid核：这个核函数较少使用，但在某些特定问题上可能有效

3.2 调整参数

其次，是一些关键参数及其调整方法

3.2.1 C（惩罚参数）

目的：C参数用于控制误分类的惩罚程度。C值大意味着分类器会选择一个较小的间隔，以减少训练样本上的错误分类；C值小则意味着分类器会选择一个较大的间隔，允许更多的错误分类
调整方法：使用交叉验证来找到最优的C值。通常，可以在一个较大的范围内进行搜索，例如从0.1到1000

3.2.2 c（RBF核的参数）

目的：c参数定义了单一训练样本的影响范围，即它与超平面的距离。c值大意味着影响范围小，模型复杂度较高；c值小则意味着影响范围大，模型复杂度较低
调整方法：同样，可以使用交叉验证来选择c。c的值通常在0.001到10之间搜索

3.2.3 degree（多项式核的参数）

目的：degree定义了多项式核的次数
调整方法：通常，从较小的值开始（例如2或3），并根据模型性能逐渐增加

3.3 调参技巧

网格搜索（Grid Search）：这是一种常用的方法，通过系统地遍历参数的所有组合来找到最优参数
随机搜索（Random Search）：与网格搜索不同，随机搜索在参数空间中随机选取参数组合，这通常比网格搜索更高效
交叉验证：使用交叉验证来评估参数组合的性能。K-折交叉验证是最常用的方法
模型选择准则：除了交叉验证误差，还可以使用AIC、BIC等准则来选择模型

3.4 考虑计算资源

参数的选择也应考虑计算资源。高复杂度的模型可能需要更长的训练时间，且可能需要更多的内存

3.5 避免过拟合

选择参数时，要注意避免过拟合。一个过于复杂的模型可能在训练数据上表现很好，但在未见过的数据上表现不佳

3.6 总结

通过这些步骤，你可以为SVM选择合适的参数，从而构建一个既准确又具有良好泛化能力的模型

四、在python中使用向量机的实例

4.1 代码

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score

# 加载乳腺癌数据集
breast_cancer = datasets.load_breast_cancer()
X = breast_cancer.data
y = breast_cancer.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 数据标准化
scaler = StandardScaler()
X_train_std = scaler.fit_transform(X_train)
X_test_std = scaler.transform(X_test)

# 创建SVM分类器实例，这里使用径向基函数（RBF）核
svm = SVC(kernel='rbf', C=10.0, gamma=0.1, random_state=42)

# 训练模型
svm.fit(X_train_std, y_train)

# 测试模型
y_pred = svm.predict(X_test_std)

# 输出分类报告和准确率
report = classification_report(y_test, y_pred)
accuracy = accuracy_score(y_test, y_pred)

print("分类报告：\n", report)
print("准确率：", accuracy)