支持向量机 (SVM) 算法详解

news2024/11/22 19:52:30

支持向量机 (SVM) 算法详解

支持向量机(Support Vector Machine, SVM)是一种监督学习模型,广泛应用于分类和回归分析。SVM 特别适合高维数据,并且在处理复杂非线性数据时表现出色。本文将详细讲解 SVM 的原理、数学公式、应用场景及其在 Python 中的实现。

什么是支持向量机?

支持向量机的目标是找到一个最佳的决策边界(或称超平面)来最大限度地分隔不同类别的数据点。对于线性可分的数据,SVM 通过一个线性超平面进行分类;对于线性不可分的数据,SVM 可以通过核方法(Kernel Trick)将数据映射到高维空间,使其在高维空间中线性可分。

SVM 的基本原理

线性支持向量机

对于线性可分的数据,SVM 寻找一个超平面将数据集分隔成两个类别,同时最大化两个类别之间的边界(margin)。边界上的点称为支持向量(Support Vectors)。

数学公式

假设我们有一个训练数据集   ( x i , y i ) i = 1 n \ {(x_i, y_i)}_{i=1}^n  (xi,yi)i=1n , 其中   x i ∈ R d \ x_i \in \mathbb{R}^d  xiRd 表示第   i \ i  i个样本,   y i ∈ { − 1 , 1 } \ y_i \in \{-1, 1\}  yi{1,1},表示第 (i) 个样本的类别标签。

超平面的方程可以表示为:
  w ⋅ x + b = 0   \ w \cdot x + b = 0 \  wx+b=0 
其中   w \ w  w 是法向量,决定了超平面的方向,   b \ b  b 是偏置项,决定了超平面的距离。

目标是找到   w \ w  w   b \ b  b,使得所有样本点满足:
  y i ( w ⋅ x i + b ) ≥ 1   \ y_i (w \cdot x_i + b) \geq 1 \  yi(wxi+b)1 
同时,我们希望最大化边界,即最小化 (|w|),所以优化问题可以表示为:
  min ⁡ w , b 1 2 ∥ w ∥ 2   \ \min_{w,b} \frac{1}{2} \|w\|^2 \  w,bmin21w2 
约束条件为:
  y i ( w ⋅ x i + b ) ≥ 1 , ∀ i \ y_i (w \cdot x_i + b) \geq 1, \forall i  yi(wxi+b)1,i

非线性支持向量机

对于线性不可分的数据,SVM 通过引入核函数(Kernel Function)将数据映射到高维空间,使其在高维空间中线性可分。常用的核函数包括:

  • 多项式核(Polynomial Kernel)
  • 径向基函数核(Radial Basis Function, RBF Kernel)
  • 高斯核(Gaussian Kernel)

核函数的表示为   K ( x i , x j ) = ϕ ( x i ) ⋅ ϕ ( x j ) \ K(x_i, x_j) = \phi(x_i) \cdot \phi(x_j)  K(xi,xj)=ϕ(xi)ϕ(xj),其中 (\phi) 是将数据映射到高维空间的映射函数。

松弛变量

为了处理噪声和异常值,SVM 引入了松弛变量 ξ i \xi_i ξi,使得优化问题变为:
  min ⁡ w , b , ξ 1 2 ∥ w ∥ 2 + C ∑ i = 1 n ξ i \ \min_{w,b,\xi} \frac{1}{2} \|w\|^2 + C \sum_{i=1}^n \xi_i  w,b,ξmin21w2+Ci=1nξi
约束条件为:
  y i ( w ⋅ x i + b ) ≥ 1 − ξ i , ∀ i   ξ i ≥ 0 , ∀ i \ y_i (w \cdot x_i + b) \geq 1 - \xi_i, \forall i \ \xi_i \geq 0, \forall i  yi(wxi+b)1ξi,i ξi0,i

其中   C \ C  C 是惩罚参数,控制软间隔的宽度。

SVM 的优缺点

优点

  1. 有效处理高维数据:SVM 在高维空间中依然表现良好。
  2. 适合复杂非线性数据:通过核方法,SVM 能有效处理非线性数据。
  3. 鲁棒性强:SVM 对于部分噪声和异常值具有较强的鲁棒性。

缺点

  1. 计算复杂度高:尤其在大规模数据集上,训练时间较长。
  2. 参数选择敏感:核函数、惩罚参数   C \ C  C 等需要仔细调优。
  3. 结果不可解释性:相比于决策树等模型,SVM 的结果较难解释。

SVM 的 Python 实现

下面通过 Python 代码实现 SVM 算法,并以一个示例数据集展示其应用。

导入库

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix

生成示例数据集

# 生成示例数据集
X, y = datasets.make_classification(n_samples=100, n_features=2, n_informative=2, n_redundant=0, n_clusters_per_class=1, random_state=42)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='bwr')
plt.title('原始数据集')
plt.show()

在这里插入图片描述

应用 SVM 算法

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 应用 SVM 算法
svm = SVC(kernel='linear', C=1.0)
svm.fit(X_train, y_train)
y_pred = svm.predict(X_test)

# 评估模型
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

# 可视化决策边界
def plot_decision_boundary(X, y, model):
    h = .02
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, cmap='bwr', alpha=0.8)
    plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='bwr')
    plt.title('SVM 决策边界')
    plt.show()

plot_decision_boundary(X_test, y_test, svm)

在这里插入图片描述

结果解释

在上面的示例中,我们生成了一个二分类的示例数据集,并使用 SVM 算法对其进行分类。最终,我们通过可视化展示了决策边界以及测试集上的分类结果。

总结

支持向量机是一种强大的监督学习算法,适用于处理复杂的高维和非线性数据。本文详细介绍了 SVM 的原理、数学公式、应用场景以及 Python 实现。虽然 SVM 在某些方面有其局限性,但通过合理选择参数和核函数,可以在许多实际应用中取得优异的效果。希望本文能帮助你更好地理解和应用支持向量机算法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1841262.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[Qt的学习日常]--窗口

前言 作者:小蜗牛向前冲 名言:我可以接受失败,但我不能接受放弃 如果觉的博主的文章还不错的话,还请点赞,收藏,关注👀支持博主。如果发现有问题的地方欢迎❀大家在评论区指正 目录 一、窗口的分…

最新!!单目深度估计方向文献综述--Monocular Depth Estimation: A Thorough Review

论文链接:https://ieeexplore.ieee.org/abstract/document/10313067 Abstract 一个是考虑人类深度感知的机制,另一个是包括各种深度学习方法。 这篇论文是关于单目深度估计(Monocular Depth Estimation)的全面综述,由…

Flutter第十三弹 路由和导航

目标: 1.Flutter怎么创建路由? 2.怎么实现路由跳转?页面返回? 一、路由 1.1 什么是路由? 路由(Route)在移动开发中通常指页面(Page),在Android中通常指一个Activity。所谓路由管…

wsl报错在BIOS中启用虚拟化

解决: Enable-WindowsOptionalFeature -Online -FeatureName Microsoft-Hyper-V -All 以高级管理员身份运行powershell,执行如上命令。

GoldWave软件下载 GoldWave 音频处理软件 v6.80.0 官方版下载附加详细安装步骤

准确来讲GoldWave软件防止GoldWave *原生音频插件被禁用。根据大数据结果显示回声效果:回声,顾名思义是指声音发出后经过一定的时间再返回被我们听到,就象在旷野上面对高山呼喊一样,在很多视频剪辑、配音中广泛采用, G…

最新版本IntelliJ IDEA安装与“坤活”使用

最新版本IntelliJ IDEA安装与“科学”使用 IntelliJ IDEA安装与坤活下载安装坤活idea1.将下面两个压缩文件解压到安装位置,注意路径不要包含中文空格等特殊符号2.双击 install-all-users.vbs ,然后点击确定,等到出现 Done的弹窗3. 打开idea复…

【ajax基础04】form-serialize插件

目录 一:form-serialize插件 作用: 语法格式: 一:form-serialize插件 作用: 快速且大量的收集表单元素的值 例如上图对于多表单元素的情形,单靠通过”选择器获取节点.value”值的形式,获取…

Blazor 组件:创建、生命周期、嵌套和 UI 集成

在本文中,您将获得以下问题的答案。 什么是 Blazor 组件?如何使用组件?Blazor 组件的生命周期是什么?我们可以从一个组件调用另一个组件吗?如何创建 Blazor 组件?在组件中哪里写 C# 代码? 什么…

百度文心智能体平台(想象即现实):轻松上手,开启智能新时代!创建属于自己的智能体应用。

目录 1.1、文心智能体平台 1.2、创建智能体 1.3、智能体报名入口 1.4、古诗词小助手 1.5、访问我的智能体 在这个全新的时代里,人工智能技术正以前所未有的速度发展,渗透到我们生活的方方面面。无论是智能家居、自动驾驶,还是医疗诊断、…

漏洞挖掘 | 记一次src挖掘-小程序敏感信息泄露

权当是一次漏洞挖掘的思路分享 闲言 就现在的一个web漏洞挖掘强度还是非常高的,所以我们不妨把我们的眼光投向一个之前可能未曾涉及到的区域———小程序 是的微信小程序,这玩意的防范能力和过滤能力其实对比web方向是要弱小很多的 进入正题 以下就是…

如何设置Excel单元格下拉列表

如何设置Excel单元格下拉列表 在Excel中设置单元格下拉列表可以提高数据输入的准确性和效率。以下是创建下拉列表的步骤: 使用数据验证设置下拉列表: 1. 选择单元格: 选择你想要设置下拉列表的单元格或单元格区域。 2. 打开数据验证&…

充电学习—8、Type-C TCPC TCPCI

TCPC是usb Type-C port controller; 通用串行总线C型端口控制器 TCPCI是tcpc控制器接口规范; TCPC是个功能块,其中含有VBUS和VCONN的电源控制功能,CC信号的处理 逻辑,PD应用中的BMC物理层和协议层(PD信息…

配置环境常规操作

一、看看显卡情况 1、看显卡驱动: nvidia-smi 2、验证cuda是否安装成功 nvcc -V 二、conda创建环境 conda create --name PatchCore_anomaly_detection python3.9 conda activate PatchCore_anomaly_detection 三、配置虚拟环境 cd C:\BaiduNetdiskDownload…

OSPF和RIP的路由引入(华为)

#交换设备 OSPF和RIP的路由引入 不同的网络会根据自身的实际情况来选用路由协议。比如有些网络规模很小,为了管理简单,部署了 RIP; 而有些网络很复杂,可以部署 OSPF。不同路由协议之间不能直接共享各自的路由信息,需要依靠配置路…

海外优青ppt美化_海优ppt录音视频制作

海外优青 优秀青年科学基金项目(海外)旨在吸引和鼓励在自然科学、工程技术等方面已取得较好成绩的海外优秀青年学者(含非华裔外籍人才)回国(来华)工作,自主选择研究方向开展创新性研究&#xf…

win 打包java项目为exe一键部署,包括mysql和redis

需求:打包springboot项目在win系统下执行,并且要一键部署和开机启动 把所需的程序放在同一个文件夹 1.jdk文件夹:自己去下载,jdk8的话拿jre目录好了 2.mysql文件夹:是8.0.36版,270M精简版了 3.redis文件夹…

Springboot整合Zookeeper分布式组件实例

一、Zookeeper概述 1.1 Zookeeper的定义 Zookeeper是一个开源的分布式协调服务,主要用于分布式应用程序中的协调管理。它由Apache软件基金会维护,是Hadoop生态系统中的重要成员。Zookeeper提供了一个高效且可靠的分布式锁服务,以及群集管理…

深入探讨:UART与USART在单片机中串口的实际应用与实现技巧

单片机(Microcontroller Unit, MCU)是一种集成了处理器、存储器和输入输出接口的微型计算机。它广泛应用于嵌入式系统中,用于控制各类电子设备。UART和USART是单片机中常见的通信接口,负责串行数据传输。下面我们详细介绍它们在单…

【机器学习系列】Python实战:使用GridSearchCV优化AdaBoost分类器及其基分类器

目录 一、AdaBoost的标准实现中是否支持使用不同类型的基分类器? 二、Adaboost的参数 三、Python实现Adaboost (一)导入库和数据集 (二) 划分训练集 (三)选择基分类器--决策树 (四)创建Ada…

数据结构_栈和队列

目录 一、栈 1.1 栈的使用 1.2 模拟实现栈 二、队列 2.1 队列的使用 2.2 环形队列 2.3 双端队列 总结 一、栈 栈是只允许在固定的一端进行元素的插入和删除操作的一种特殊线性表。其中进行元素的插入和删除操作的一端称为栈顶,另一端称为栈底。栈遵循先进后…