Python Sklearn库SVM算法应用

news2025/1/23 12:18:59

SVM 是一种有监督学习分类算法,输入值为样本特征值向量和其对应的类别标签,输出具有预测分类功能的模型,当给该模型喂入特征值时,该模型可以它对应的类别标签,从而实现分类。

Sklearn库SVM算法

下面我看一下 Python 的 Scikit -Learn(简称 Sklearn) 库是如何实现 SVM 算法的。

支持向量机算法被包含在 sklearn.svm 模块中,该模块提供了 7 个常用类,这些不同的类分别应用了不同的核函数,因此它们可以解决不同的问题,比如分类问题、回归问题以及无监督学习中的异常点检测等。下表对它们做了简单的介绍:
 

SVM算法类别描述
LinearSVC类基于线性核函数的支持向量机分类算法
LinearSVR类基于线性核函数的支持向量机回归算法
SVC类可选择多种核函数的支持向量机分类算法,通过“kernel”参数可以传入
linear:选择线性函数;
polynomial:选择多项式函数;
rbf:选择径向基函数;
sigmoid:选择 Logistics 函数作为核函数;
precomputed:使用预设核值矩阵,
SVC 类默认以径向基函数作为核函数。
SVR类可选择多种核函数的支持向量机回归算法
NuSVC类与 SVC 类非常相似,但可通过参数“nu”设置支持向量的数量。
NuSVR类与SVR类非常相似,但可通过参数“nu”设置支持向量的数量。
OneClassSVM类用支持向量机算法解决无监督学习的异常点检测问题


SVM 主要用于解决二分类的问题,上述表格中最常使用的是 SVC 类。下面对使用该算法的步骤进行总结:

  • 读取数据,将原始数据转化为 SVM 算法所能识别的数据格式;
  • 将数据标准化,防止样本中不同特征数值大小相差较大影响分类器性能;
  • 选择核函数,在不清楚何种核函数最佳时,推荐使用“rbf”(径向基核函数)
  • 利用交叉验证网格搜索寻找最优参数;(交叉验证的目的是防止过拟合,利用网格搜索可以在指定的范围内寻找最优参数)
  • 使用最优参数来训练模型;
  • 测试得到的分类模型。

SVM算法应用

下面使用 SVM 算法对鸢尾花数据集进行分类处理(若想下载鸢尾花数据集可从UCI官方下载)如图所示:
 


图1:鸢尾花数据集


数据集的中每一行都是一个鸢尾花的观察结果,前四个数据代表鸢尾花的生物属性,比如花萼长度、宽度以及花瓣的长度、宽度,最后一项表示鸢尾花的类别,共三类,分别是山鸢尾(0表示)、色鸢尾(1表示)、维吉尼亚鸢尾(2表示),我们的任务就是对它们进行正确分类,数据集的部分数据展示如下:
 

鸢尾花数据集


图2:鸢尾花数据集


下面使用支持向量机(SVM)算法对鸢尾花数据集进行分类,代码如下所示:

 
  1. from sklearn.datasets import load_iris # 导入鸢尾花数据集
  2. from sklearn.svm import SVC #使用支持向量机算法
  3. import matplotlib.pyplot as plt
  4. # 加载鸢尾花数据集,返回特征值 X 以及标签 y
  5. X,y = load_iris(return_X_y=True)
  6. # 使用SVM.SVC分类算法搭建预测模型,并以径向基函数做为核函数的实现高维映射
  7. clf = SVC(kernel='rbf')
  8. # 训练模型,使用fit喂入数据X,y,即特征值和标签
  9. clf.fit(X, y)
  10. # 预测分类
  11. result=clf.predict(X)
  12. print(result)
  13. # 对模型进行评分
  14. score=clf.score(X,y)
  15. print(score)
  16. plt.figure()
  17. # 分割图1行1列第一个图
  18. plt.subplot(111)
  19. # 选择X特征值中的第一列特征值和第三列特征值进行绘图
  20. plt.scatter(X[:,0],X[:,3],c =y.reshape((-1)),edgecolor='k',s=50)
  21. plt.show()

输出结果如下:

# 类别预测结果
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 2 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2
2 2]
# 模型得分
0.9733333333333334

对分类结果进行可视化展示:
 

SVM分类算法可视化


图3:数据可视化


支持向量机算法在分类问题中有着非常出色的表现,它的特点是够解决非线性问题,并且训练模型的时候不必依赖于全部数据,主要使用处于分类边缘的样本点,因此它也适用解决小样本群体的分类问题,并且泛化能力较强。

当然,SVM 也有一些不足之处,比如核函数的寻找难度较大,并且最原始的 SVM 算法只适用于二分类问题。后经过不断的拓展、延伸,目前的 SVM 算法可以解决多分类问题,同时能够解决文本分类问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1974964.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CSS学习 - 选择器

基础选择器 ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 类型选择器&…

牛逼,两百行Python代码带你打造一款《天天酷跑》游戏!(附源码)

《天天酷跑》是一款广受欢迎的跑酷类手机游戏,玩家需要控制角色在赛道上奔跑,躲避障碍物,收集金币和道具,以获取高分。虽然完全复现这款游戏的复杂度和图形效果在简单的Python环境中难以实现(特别是游戏图形和动画&…

市电220V

概念 市电 220V 是指在中国及许多其他国家使用的标准交流电压,该值是电压的有效值(RMS值,Root Mean Square)。有效值是交流电压或电流的一个测量方式,它表示在一个周期内,交流电的平方平均值等于直流电压(或电流)的值。 有效值在交流电中具有特殊意义,因为交流电的瞬…

华大基因守护新生健康,基因检测助力新生儿疾病筛查

此前,《中国出生缺陷防治报告》预估我国出生缺陷发生率在5.6%左右,无创产前基因检测技术(NIPT)等先进产前筛查手段,在我国历经十多年的发展历史,华大基因作为行业引领者,深耕基因检测领域&#…

JavaEE 初阶(11)——多线程9之“阻塞队列”

目录 一. 什么是“阻塞队列” 二. 生产者消费者模型 2.1 概念 2.2 组件 2.3 实际应用 2.4 优点 a. 实现“解耦合” b. 流量控制——“削峰填谷” 2.5 代价 a. 更多的机器 b. 通信时间延长 三. 阻塞队列的实现 3.1 简述 3.2 ArrayBlockingQueue的使用 3.3 实现…

数据建模标准-基于事实建模

前情提要 数据模型定义 DAMA数据治理体系中将数据模型定义为一种文档形式,数据模型是用来将数据需求从业务传递到IT,以及在IT内部从分析师、建模师和架构师到数据库设计人员和开发人员的主要媒介; 作用 记录数据需求和建模过程中产生的数据定义&…

dctcp 比 reno,cubic 好在哪

dctcp 相比标准 aimd 如 reno,cubic 到底好在哪,理论上讲 dctcp 本质上也是 aimd 算法,但它的 cwnd 根据 mark rate 来实时缩放,而标准 reno/cubic 则一致缩放 β 0.5(reno) or β 0.3(cubic),直观上看 dctcp 是连续…

PostgreSQL数据库内核(一):增加系统表pg_test_catalog

目录 编译环境准备 gdb调试 CLion配置 增加系统表pg_test_catalog 编译环境准备 使用PostgreSQL14.5源码版本编译,操作系统CentOS,本地windos系统CLion代码工具,首先下载pg源码,上传CentOS系统: more /etc/os-rel…

要 set 还是 map? 我全要

引子: 时隔多日,我又回来啦,接上回,我们讲到set的一小部分,我们今天来讲详细讲set与map,满满干货启动!根据应用场景的不同,STL总共实现了两种不同结构的管理式容器:树型…

[240803] Prompt Fuzzer 新版本发布 | Windows 会在更新时进行时间调整以减少碳排放

目录 Prompt Fuzzer 新版本发布:更强大、更灵活的 GenAI 应用安全评估工具Windows 会在更新时进行时间调整以减少碳排放 Prompt Fuzzer 新版本发布:更强大、更灵活的 GenAI 应用安全评估工具 Prompt Security 发布了新版 Prompt Fuzzer,这是…

CSS+js:顶部导航栏背景滚动渐变、顶部背景滚动渐变

一、效果图 图1 图2 图3 二、gradual.html代码 <!DOCTYPE html> <html><head><meta charset"utf-8"><title>顶部导航栏渐变和顶部背景渐变</title></head><body><div class"content-root" id&quo…

Linux PSCI框架

Linux PSCI框架 概述 参考链接&#xff1a; 简单讲解Linux PSCI框架-Linxu内核栈 概述 PSCI &#xff08;Power State Coordination Interface&#xff09; 是ARM定义的电源管理接口规范&#xff0c;由firm来实现。Linux系统通过smc/hvc指令&#xff08;设备树可查看是那种&a…

5.7软件质量和软件度量

软件质量和软件度量 软件质量软件质量特性ISO/EC9126软件质量模型练习题Mc Call质量模型 软件质量保证软件评审软件容错技术结构冗余信息冗余时间元余冗余附加技术 软件度量练习题 软件质量 软件质量&#xff1a;是指反映软件系统或软件产品满足规定或隐含需求的能力的特征和特…

代码随想录算法训练营day32 | 509. 斐波那契数 、70. 爬楼梯 、746. 使用最小花费爬楼梯

碎碎念&#xff1a;开始动态规划了&#xff01;加油&#xff01; 参考&#xff1a;代码随想录 动态规划理论基础 动态规划常见类型&#xff1a; 动规基础类题目背包问题打家劫舍股票问题子序列问题 解决动态规划问题应该要思考清楚的&#xff1a; 动态规划五部曲&#xff1…

使用 continue 自定义 AI 编程环境

一直在使用github 的 copilot 来编程&#xff0c;确实好用&#xff0c;对编码效率有很大提升。 但是站在公司角度&#xff0c;因为它只能对接公网&#xff08;有代码安全问题&#xff09;。另外&#xff0c;它的扩展能力也不强&#xff0c;无法适配公司特定领域的知识库&#x…

c# winform 创建日志登录界面

一.创建一个用于登录的Login的复合控件 1.右击项目文件&#xff0c;点击添加用户控件&#xff0c;设置为控件名为Login。 2.拉动两个lable控件&#xff0c;两个textBox控件&#xff0c;一个button,一个CheckBox控件。 3.将控件的权限&#xff08;Modifiers&#xff09;设置为Pu…

Unity2D在处理精灵表过程中出现不清晰的解决方法

问题阐述 在我们拿到一张精灵表的时候&#xff0c;我们通常要进行切割。但这样往往导致切割的效果不是很好&#xff0c;这里举一个简单的例子。 这是举例子用到的精灵表 我们先对他进行切割处理。 将single改为Multiope 进入精灵编辑器后&#xff0c;我们选择切割方式 此时我…

【数据结构】链表篇

1.链表的概念以及结构 概念&#xff1a;链表是一种物理储存结构上的非连续、非顺序的储存结构&#xff0c;数据元素的逻辑顺序是通过链表中的指针链接次序实现的。 链式结构在逻辑上是连续的&#xff0c;但是在物理上不一定连续现实中的节点一般都是从堆上申请出来的从堆上申…

中度自闭症儿童上普校还是特校好呢

当家中有中度自闭症儿童时&#xff0c;家长们常常面临一个艰难的抉择&#xff1a;是让孩子进入普通学校&#xff08;普校&#xff09;接受融合教育&#xff0c;还是选择特殊教育学校&#xff08;特校&#xff09;接受更具针对性的教育&#xff1f;这是一个没有标准答案的问题&a…

Python基于逻辑回归的L1正则化(Lasso Logistic Regression)进行分类数据的特征选择项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档视频讲解&#xff09;&#xff0c;如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 可以使用Lasso回归进行特征选择&#xff0c;尽管它本质上是一个用于回归问题的技术&#xff0c;但通过…