sklearn机器学习实战——支持向量机四种核函数分类任务全过程(附完整代码和结果图)

news2024/11/25 18:32:20

sklearn机器学习实战——支持向量机四种核函数分类任务全过程(附完整代码和结果图)



关于作者


作者:小白熊

作者简介:精通python、matlab、c#语言,擅长机器学习,深度学习,机器视觉,目标检测,图像分类,姿态识别,语义分割,路径规划,智能优化算法,数据分析,各类创新融合等等。

联系邮箱:xbx3144@163.com

科研辅导、知识付费答疑、个性化定制以及其他合作需求请联系作者~



1 引言

  在机器学习分类任务中,支持向量机(SVM, Support Vector Machine) 是一种非常强大的算法。SVM模型通过找到决策边界(超平面),以最大化类别之间的间隔(margin)来进行分类。本文将探讨如何使用四种核函数的支持向量机实现分类任务,包括数据预处理、模型训练、交叉验证、性能评估和可视化的完整流程。附完整代码和结果图。



2 理论基础

  SVM的基本思想是:在一个n维空间中,找到一个能够将不同类别分开且具有最大间隔的超平面。换句话说,SVM试图找到一个使得数据点到分类边界的最小距离最大的超平面。

2.1 超平面和支持向量

  • 超平面:在分类任务中,超平面是将数据分开的一条线(对于二维数据)或一个平面(对于三维数据)。它是用来对数据进行分类的边界。

  • 支持向量:支持向量是距离超平面最近的点,这些点对超平面的位置和方向起到决定性作用。

初探支持向量机


2.2 核函数

  由于许多问题无法通过线性超平面有效分割,因此SVM引入了核函数(kernel function),以在高维空间中处理数据。常见的核函数包括:

  • 线性核(Linear Kernel):适用于线性可分的数据,即数据在原始空间中可以被一条直线分开。
  • 多项式核(Polynomial Kernel):用于处理复杂的非线性数据。它将数据映射到更高维度的多项式空间中。
  • 高斯核(RBF Kernel):也是常见的径向基函数核,适合处理复杂的非线性问题,通过将数据映射到无限维空间解决分类问题。
  • Sigmoid核(Sigmoid Kernel):与神经网络中的激活函数类似,适用于某些特定的分类任务。



3 数据预处理

  在机器学习任务中,数据的预处理是非常关键的一步。包括处理缺失值、数据标准化以及数据集划分等。

3.1 数据集介绍与加载

  本文使用的是经典的鸢尾花数据集(Iris Dataset),它包含150个数据点,分为三类(Setosa、Versicolor、Virginica)。每个数据点有4个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。加载数据并转换格式:

# 加载鸢尾花数据集
from sklearn.datasets import load_iris
import pandas as pd

# 转换格式
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['Target'] = data.target

3.2 缺失值检测

  在机器学习任务中,处理缺失值至关重要。本文使用 isnull() 函数检测数据集中是否存在缺失值:

# 检测缺失值
missing_values = df.isnull().sum()
print("缺失值检测结果:\n", missing_values)

3.3 数据标准化与划分

  SVM对数据尺度敏感,因此需要对特征进行标准化,将每个特征的均值归一到 0,标准差归一到 1。接着将数据集划分为训练集和验证集。

sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df.drop('Target', axis=1))

# 数据集划分
X_train, X_val, y_train, y_val = train_test_split(X_scaled, df['Target'], test_size=0.2, random_state=42)

4 SVM模型训练(四种核函数)

  本文将使用SVM的四种核函数在训练数据上训练模型:

from sklearn.svm import SVC

# 定义不同的核函数
kernels = ['linear', 'poly', 'rbf', 'sigmoid']
models = {}

for kernel in kernels:
    svm_model = SVC(kernel=kernel, random_state=42)
    svm_model.fit(X_train, y_train)
    models[kernel] = svm_model



5 十折交叉验证

  为了评估模型的性能稳定性,本文使用十折交叉验证(K-fold cross-validation)。通过对数据集进行多次划分,可以减少模型对特定数据的依赖,获得更稳定的性能评估结果。

from sklearn.model_selection import KFold, cross_val_score

kf = KFold(n_splits=10, shuffle=True, random_state=42)

# 十折交叉验证
for kernel, model in models.items():
    cv_scores = cross_val_score(model, X_train, y_train, cv=kf, scoring='accuracy')
    print(f"{kernel}核函数——平均准确率: {np.mean(cv_scores)}")



6 性能评估

  在验证集上进行预测并计算模型的分类性能指标,包括准确率(accuracy)精确率(precision)召回率(recall)F1分数

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# 选择核函数(例如 'linear')
kernel = 'linear'
y_val_pred = models[kernel].predict(X_val)

# 计算分类评估指标
accuracy_val = accuracy_score(y_val, y_val_pred)
precision_val = precision_score(y_val, y_val_pred, average='weighted')
recall_val = recall_score(y_val, y_val_pred, average='weighted')
f1_val = f1_score(y_val, y_val_pred, average='weighted')

print(f"{kernel}核函数-准确率: {accuracy_val}")
print(f"{kernel}核函数-精确率: {precision_val}")
print(f"{kernel}核函数-召回率: {recall_val}")
print(f"{kernel}核函数-F1分数: {f1_val}")

结果如下:

结果



7 模型可视化——混淆矩阵

  通过混淆矩阵,我们可以更直观地分析模型在分类任务中的预测情况。以下是混淆矩阵的可视化代码:

from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# 计算混淆矩阵
conf_matrix = confusion_matrix(y_val, y_val_pred)

# 可视化混淆矩阵
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues')
plt.title(f'混淆矩阵 ({kernel}核函数)')
plt.xlabel("预测值")
plt.ylabel("真实值")
plt.show()

结果如下:

混淆矩阵



8 完整代码

import numpy as np
import pandas as pd
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, cross_val_score, KFold
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt
import warnings

warnings.filterwarnings("ignore")

# 设置中文字体为SimHei
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 加载数据集
from sklearn.datasets import load_iris
data = load_iris()

# 数据转换
df = pd.DataFrame(data.data, columns=data.feature_names)
df['Target'] = data.target

# 缺失值检测
missing_values = df.isnull().sum()
print("缺失值检测结果:\n", missing_values)

# 数据提取
X = df.drop('Target', axis=1)
y = df['Target']

# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 划分训练集和验证集
X_train, X_val, y_train, y_val = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 构建支持向量机模型
kernels = ['linear', 'poly', 'rbf', 'sigmoid']  # 四种不同的核函数
models = {}

for kernel in kernels:
    svm_model = SVC(kernel=kernel, random_state=42)
    svm_model.fit(X_train, y_train)
    models[kernel] = svm_model

# 十折交叉验证
kf = KFold(n_splits=10, shuffle=True, random_state=42)

for kernel, model in models.items():
    cv_scores = cross_val_score(model, X_train, y_train, cv=kf, scoring='accuracy')
    print(f"{kernel}核函数——平均准确率: {np.mean(cv_scores)}")

# 评估模型
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# 选择核函数(例如 'linear')
kernel = 'linear'
y_val_pred = models[kernel].predict(X_val)

# 计算混淆矩阵
conf_matrix = confusion_matrix(y_val, y_val_pred)

# 计算分类评估指标
accuracy_val = accuracy_score(y_val, y_val_pred)
precision_val = precision_score(y_val, y_val_pred, average='weighted')
recall_val = recall_score(y_val, y_val_pred, average='weighted')
f1_val = f1_score(y_val, y_val_pred, average='weighted')


print(f"{kernel}核函数-准确率: {accuracy_val}")
print(f"{kernel}核函数-精确率: {precision_val}")
print(f"{kernel}核函数-召回率: {recall_val}")
print(f"{kernel}核函数-F1分数: {f1_val}")

# 可视化混淆矩阵
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues')
plt.title(f'混淆矩阵 ({kernel}核函数)')
plt.xlabel("预测值")
plt.ylabel("真实值")
plt.show()



9 总结

  本文实现了使用支持向量机(SVM)不同核函数进行分类任务的完整流程。每个核函数在处理不同数据时具有各自的优势:

  • 线性核函数适合线性可分的数据,计算效率高,易于解释。
  • 多项式核函数可以处理复杂的非线性关系,但计算复杂度较高。
  • RBF核函数常用于解决大多数非线性问题,因其能够将数据映射到高维空间,但需要合理选择超参数。
  • Sigmoid核函数与神经网络中的激活函数类似,适合某些特定任务。

  希望文章对你有所帮助!如果有任何疑问或建议,欢迎在评论区留言!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2207655.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nginx反向代理配置与负载均衡配置

简介:整理自黑马程序员苍穹外卖的第11节 nginx是什么? nginx的好处 nginx反向代理配置方式 nginx负载均衡的配置方式 nginx负责均衡策略

等保2.0测评 — WebSphere 中间件

查看版本信息: 登录websphere管理平台首页就能看到版本信息 可以进入\usr\IBM\WebSphere\AppServer\bin 下执行./versionInfo.sh查看版本 一、身份鉴别 a)应对登录的用户进行身份标识和鉴别,身份标识具有唯一性,身份鉴别信息具有…

如何使用printf实现整齐美观的输出?

在编程中,尤其是在涉及控制台输出的应用场景中,我们需要让输出的信息更加整齐美观。printf 是 C 语言中用于格式化输出的强大工具之一。通过合理的格式化控制符,我们可以轻松地控制输出的宽度、对齐方式、填充字符等,从而达到整齐…

RiproV9.0主题wordpress主题免扩展可二开PJ版/WordPress博客主题Ripro全解密无后门版本

🔥🎉 全新RiPro9.0开源版发布 —— 探索无限可能🚀🌐 今天,我很高兴能与大家分享一个重磅资源——RiPro9.0开源版!这不是一个普通的版本,而是一个经过精心打磨、全面解密的力作。🔍…

使用KEIL5,不复位MCU,调试到程序运行到卡住之处

文章目录 前言步骤1步骤2步骤3步骤4步骤5 前言 经常有朋友在开发中遇到这样的窘境,当单片机程序运行异常以后,由于调试信息做得并不是很全面,导致相应的问题场景非常难分析。当时的你肯定会叹息道:“要是我一直插着仿真器就好了,…

【Concept Sliders】通过拖到滑块来精确控制特定图像特征

Concept Sliders 是一种用于扩散模型(如 Stable Diffusion)的LoRA 适配器,允许用户在图像生成过程中对特定概念进行精细控制。与依赖提示词生成图像的传统方法不同,Concept Sliders 通过引入可调整的“滑块”,用户可以…

前端读取本地表格数据

vue3tsvite 无后端提供数据的情况下,前端读取本地表格数据,并将数据放入页面结构中 展示在网页中 记得先安装npm install xlsx 目录 read_xlsx.ts import * as XLSX from xlsx; //将行,列转换 function transformSheets(sheets: { [key: string]: any })…

技术架构的演进之路

技术架构的演进之路 我们以电商系统的技术架构发展为例 文章目录 1. 单体架构2. 应用数据分离架构3. 应用服务集群架构4. 读写分离、主从分离架构5. 冷热分离架构6. 垂直分库架构7. 微服务架构8. 容器编排架构 1. 单体架构 在前期用户访问量很少的时候,没有对性能、安全等提出…

自然语言处理(NLP)论文数量的十年趋势:2014-2024

引言 近年来,自然语言处理(NLP)已成为人工智能(AI)和数据科学领域中的关键技术之一。随着数据规模的不断扩大和计算能力的提升,NLP技术从学术研究走向了广泛的实际应用。通过观察过去十年(2014…

uniapp中添加colorUI的过程

1、先将colorUI文件粘到项目中去 2、common中添加两个文件 3、App文件中引入这两个文件

毕业设计选题:基于ssm+vue+uniapp的健身管理系统小程序

开发语言:Java框架:ssmuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:M…

2024年软件设计师中级(软考中级)详细笔记【5】软件工程基础知识下(分值10+)

第5章软件工程 目录 前言第5章 软件工程基础知识(下)5.5 系统测试5.5.1 系统测试与调试5.5.2 传统软件的测试策略5.5.5 测试方法5.5.5.1 黑盒测试5.5.5.2 白盒测试白盒测试McCabe度量法伪代码白盒测试McCabe 5.6 运行和维护知识【以背为主】5.6.2 系统维…

Asahi Linux通过大量变通方法实现在M系列Mac上支持AAA级游戏

如果您正在运行 Asahi Linux 并希望在您的 M 系列 Mac 上玩游戏,那么有一个好消息要告诉您,Asahi Linux 项目将继续推出新功能。 2 月份它在 Mac 上Apple Silicon 实现了OpenGL 4.6 和 OpenGL ES 3.2 兼容,现在又在游戏方面取得了进展。但您可…

WRN: 宽度残差网络(论文复现)

WRN: 宽度残差网络(论文复现) 本文所涉及所有资源均在传知代码平台可获取 文章目录 WRN: 宽度残差网络(论文复现)概述模型结构核心逻辑实验训练与测试在线部署使用方式 概述 本文复现论文 Wide Residual Networks提出的深度神经网…

软件狗加密的高安全性

软件狗加密,即使用软件加密狗对软件进行加密保护的过程,是一种软硬件结合的加密方式。以下是对软件狗加密的详细解析: 一、软件加密狗的基本概念 软件加密狗,也称为硬件加密锁或USB密钥,是一种用于保护软件和数据安全的…

IEC104规约的秘密之十----令人眼花缭乱的各种限定词,品质描述词

当我们已经能用104通讯完成各种通讯也能解决帧序号等各种问题后,我们就更加关心报文的细节。 各种报文中的限定词就可以进行仔细分析了。 下面以单点遥信做为例子进行分析: SIQ是英文Single-point information with quality descriptor的缩写&#xff0…

HTML+CSS排行榜实现代码,复制粘贴可使用

如何用HTML和CSS创建一个具有吸引力的创作者排行榜 在数字化时代,排行榜是吸引用户注意的绝佳方式。无论是展示最受欢迎的产品、文章还是创作者,一个设计精良的排行榜都能提升用户的参与度和兴趣。本文将指导你如何使用HTML和CSS创建一个具有吸引力的创…

Rider + xmake DX12 开发环境

Rider xmake DX12 开发环境 背景 如题,想要接近 UE 的开发流程 正文 大的流程就是 xmake 生成 vs 的 sln,用 Rider 进行开发 intellisense,断点调试 加了个脚本手动刷新 sln xmake project -k vsxmake -m "debug;release" -…

msvcr100.dll丢失的解决方法,如何安全下载 msvcr100.dll 文件:完全指南

在使用 Windows 操作系统的电脑上运行某些程序或游戏时,可能会遇到一个常见的错误消息,提示缺少 msvcr100.dll 文件。这个 DLL 文件是 Microsoft Visual C 2010 Redistributable Package 的一部分,对于运行依赖于 C 的软件来说至关重要。如果…

Linux等保测评与加固

Linux三级系统测评及加固方法 身份鉴别 应对登录的用户进行身份标识和鉴别,身份标识具有唯一性,身份鉴别信息具有复杂度要求并定期更换 测评方法: ①一般采用用户名口令进行身份鉴别,身份标识具有唯一性无法创建相同用户名 通…