机器学习---混淆矩阵代码

news2025/1/4 19:11:16

1. 导包:

import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
import numpy as np
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
from sklearn.metrics import precision_score, recall_score, f1_score

2. 导入数据: 

# 导入数据
file = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data',
                 header=None)
df=file
# 提取DataFrame中所有行的第2列及之后所有列的操作,将其转换为一个NumPy数组
X = df.loc[:, 2:].values
y = df.loc[:, 1].values

le = LabelEncoder()
y = le.fit_transform(y)  # 类标整数化

df是一个DataFrame对象,loc是用于按标签选择数据的方法。[:, 2:]表示选择所有行(冒号表示

所有行)和从第2列到最后一列的所有列。values将所选数据转换为NumPy数组。

LabelEncoder()是scikit-learn库中的一个类,用于标签编码。它将一组文本或分类标签转换为从0

开始的连续整数值。fit_transform()方法将原始的标签y进行拟合和转换。拟合操作会根据数据中

出现的标签自动构建编码映射关系。转换操作将原始标签转换为对应的编码值。最终,变量y将包

含编码后的标签值。fit_transform()方法同时执行了拟合和转换操作。如果你只需要进行转换,

可以使用transform()方法。另外,LabelEncoder()适用于单个列的标签编码。如果你的数据有多

个列,你可能需要考虑使用OneHotEncoder()或其他编码方法来处理分类特征。

LabelEncoder()类的示例代码:

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

# 假设有一个标签列表
labels = ['cat', 'dog', 'cat', 'bird', 'dog']

# 使用LabelEncoder进行标签编码
encoded_labels = le.fit_transform(labels)

print(encoded_labels)
# [0 1 0 2 1]

3.  划分训练集合测试集

# 划分训练集合测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)
# 建立pipeline
pipe_svc = Pipeline([('scl', StandardScaler()), ('clf', SVC(random_state=1))])
pipe_svc.fit(X_train, y_train)
y_pred = pipe_svc.predict(X_test)

train_test_split是scikit-learn库中的一个函数,用于将数据集划分为训练集和测试集。它可以根

据指定的比例或样本数量,在保持数据分布的同时随机划分数据。

在代码中,X是特征数据集,y是对应的标签数据集。test_size=0.20表示将数据划分为80%的训练

集和20%的测试集。random_state=1用于设置随机种子,以确保每次运行时划分结果一致。

划分结果将分别存储在X_trainX_testy_trainy_test这四个变量中,分别表示训练集的特

征、测试集的特征、训练集的标签和测试集的标签。

Pipeline函数是scikit-learn库中的一个类,用于创建一个管道(Pipeline)对象,将多个数据处理

步骤组合在一起。管道对象可以方便地将多个数据预处理和模型训练步骤组织成一个整体,简化了

机器学习流程的编码和管理。它具有以下几个作用:

①数据流水线:管道可以将多个数据处理步骤按顺序组合起来,形成一个数据流水线。每个步骤都

可以是一个数据预处理操作,如特征缩放、特征选择、特征提取等。

②参数共享:通过管道,可以在每个步骤中共享参数。例如,可以在数据标准化和模型训练步骤中

共享相同的参数设置,避免手动调整多个步骤的参数。

③代码简化:使用管道可以将多个处理步骤整合到一个对象中,简化了代码的编写和维护。通过调

用管道对象的方法,可以一次性完成整个流程,而不需要分别调用每个步骤。

⑤模型持久化:将整个流水线作为一个模型对象进行持久化保存。可以将整个管道保存到磁盘上,

方便后续的部署和使用。

在代码中,管道的第一个步骤是StandardScaler(),"scl" 是指对数据进行缩放的预处理步骤。

"StandardScaler" 是一个用来对数据进行标准化的预处理器,它将数据的每个特征按照一定的方式

进行缩放,使得数据符合均值为0,方差为1的标准正态分布。这个步骤的目的是通过数据的标准

化,提高模型的训练效果。

管道的第二个步骤是SVC(random_state=1),即支持向量机分类器。这里使用了默认参数,

random_state=1是为了设置随机种子,以确保每次运行时的结果一致。"clf"代表分类器

(classifier)的意思。通过调用clf来访问该分类器的功能和属性。

pipe_svc.fit(X_train, y_train)调用管道对象的fit方法,使用训练集X_train和对应的标签

y_train对模型进行训练。接下来,使用训练好的模型对测试集X_test进行预测,得到预测结果

y_pred。这里的测试集特征数据也会经过与训练集相同的标准化处理。

4. 混淆矩阵、召回率、精确率、F1度量

# 混淆矩阵并可视化
confmat = confusion_matrix(y_true=y_test, y_pred=y_pred)  # 输出混淆矩阵
print(confmat)
fig, ax = plt.subplots(figsize=(2.5, 2.5))
ax.matshow(confmat, cmap=plt.cm.Blues, alpha=0.3)
for i in range(confmat.shape[0]):
    for j in range(confmat.shape[1]):
        ax.text(x=j, y=i, s=confmat[i, j], va='center', ha='center')
plt.xlabel('predicted label')
plt.ylabel('true label')
plt.show()
# 召回率、准确率、F1
print('precision:%.3f' % precision_score(y_true=y_test, y_pred=y_pred))
print('recall:%.3f' % recall_score(y_true=y_test, y_pred=y_pred))
print('F1:%.3f' % f1_score(y_true=y_test, y_pred=y_pred))

confusion_matrix是scikit-learn库中的一个函数,用于计算分类模型在测试集上的混淆矩阵.

在代码中,y_true参数表示真实的标签值,y_pred参数表示模型预测的标签值。通常,真实的标签

值是测试集的真实标签,而预测的标签值是模型在测试集上的预测结果。

通过plt.subplots(figsize=(2.5, 2.5))创建一个图表对象,指定了图表的大小为2.5x2.5英寸,

使用ax.matshow(confmat, cmap=plt.cm.Blues, alpha=0.3)在图表上绘制混淆矩阵。

cmap=plt.cm.Blues指定了使用蓝色调色板进行颜色映射,alpha=0.3设置了绘图的透明度。

通过使用两个嵌套的循环遍历混淆矩阵的每个元素,然后使用ax.text()函数在对应的位置添加文

本标签。x=jy=i设置了文本标签的位置,s=confmat[i, j]设置了文本标签的内容,即混淆矩阵

的对应元素值。va='center'ha='center'表示文本标签在单元格中居中显示。

5. 运行结果

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/798903.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

共用体类型

共用体&#xff08;union&#xff09;是一种成员共享存储空间的结构体类型。 union 共用体类型名 {成员列表 } 共用体内存长度是所有成员内存长度的最大值。 #include <iostream> using namespace std;int main() {//先声明共用体类型再定义共用体对象 union A {int m,…

11-2_Qt 5.9 C++开发指南_QSqlQueryModel的使用(QSqlQueryModel 只能作为只读数据源使用,不可以编辑数据)

文章目录 1 QSqlQueryModel 功能概述2 使用 QSqlQueryModel 实现数据查询2.1 实例功能2.2 可视化UI设计2.3 主窗口类定义&#xff08;去除自动生成的槽函数&#xff09;2.4 打开数据库2.5 记录移动 1 QSqlQueryModel 功能概述 从下图中可以看到&#xff0c;QSqlQueryModel 是 …

代码随想录算法训练营day13 | 239. 滑动窗口最大值,347. 前 K 个高频元素

239. 滑动窗口最大值 目录 239. 滑动窗口最大值 347. 前 K 个高频元素 239. 滑动窗口最大值 难度&#xff1a;hard 类型&#xff1a;队列&#xff0c;单调队列&#xff0c;滑动窗口 思路&#xff1a; 构造单调队列&#xff0c;维护大小为k的队列。队列里的元素始终是单调递…

无法加载文件 C:\Program Files\nodejs\npm.ps1,因为在此系统上禁止运行脚本。npm.ps1 cannot be loaded

目录 原因 解决方法 提示 查看当前的执行策略命令 改回默认值 "Restricted"命令 这个错误提示是因为您的系统禁止执行 PowerShell 脚本。 原因 现用执行策略是 Restricted&#xff08;默认设置&#xff09; 解决方法 以管理员身份运行 PowerShell&#xff1a;右键…

AICodeConvert网站,可以用AI把代码从一种语言转换为另一种语言实现,代码开源了,从 6.24 到现在一个月, 没有主动推广,居然9.8K 访问量

这是我一个之前周六 6.24 开始验证思路的项目&#xff0c;验证的感觉差不多&#xff0c;不做主动推广到现在一个月&#xff0c;访问量 9.8K 。 源码开源了&#xff0c;github.com 网址&#xff1a;AICodeConvert 另一个在佛系验证中的还有这个&#xff1a;Base64.kr&#xf…

gedit更改字体大小颜色、行号、更改各种属性

最近在linux&#xff08;CentOS&#xff09;中运行gedit时发现&#xff1a; 如果用普通用户运行&#xff0c;不会报错&#xff0c;但是不会出现Preferences &#xff08;首选项&#xff09;等选项&#xff0c;不能进行基本属性参数的更改&#xff1b;如果采用su、sudo 运行则会…

机器学习之十大经典算法

机器学习算法是计算机科学和人工智能领域的关键组成部分&#xff0c;它们用于从数据中学习模式并作出预测或做出决策。本文将为大家介绍十大经典机器学习算法&#xff0c;其中包括了线性回归、逻辑回归、支持向量机、朴素贝叶斯、决策树等算法&#xff0c;每种算法都在特定的领…

云原生架构的定义

前言&#xff1a; 从技术的角度&#xff0c;云原生架构是基于云原生技术的一组架构原则和设计模式的集合&#xff0c;旨在将云应用中非业务代码的部分进行最大化的剥离&#xff0c;从而让云设施接管应用中原有的大量非功能特性&#xff08;如弹性、韧性、安全、可观测性、灰度…

MySQL中锁的简介——全局锁

1.锁的概述及分类 2.全局锁的介绍 给数据库加全局锁&#xff1a; flush tables with read lock;数据备份&#xff1a; mysqldump备份指令 root用户名 1234 密码 itcast数据库名称 itcast.sql备份文件名称 mysqldump -uroot -p1234 itcast >itcast.sql;数据库全局锁解锁&am…

复现YOLOv5改进最新MPDIoU:有效和准确的边界盒回归的损失,打败G/E/CIoU,效果明显!!!

MPDIoU: A Loss for Efficient and Accurate Bounding Box Regression 论文简介MPDIoU核心设计思路论文方法实验部分加入YOLOv5代码论文地址:https://arxiv.org/pdf/2307.07662.pdf 论文简介 边界盒回归(Bounding box regression, BBR)广泛应用于目标检测和实例分割,是目标…

word显示书签并给书签添加颜色

CTRg 定位书签 在 Word 的用户界面中&#xff0c;没有直接的选项可以批量为所有书签设置颜色。但你可以使用 VBA 宏或者编写自定义的功能来实现这个需求。这里给出一个简单的 VBA 宏&#xff0c;它可以设置当前文档中所有书签内文本的颜色&#xff1a;vba Sub ColorAllBookmark…

【高级数据结构】线段树

目录 最大数&#xff08;单点修改&#xff0c;区间查询&#xff09; 线段树1&#xff08;区间修改&#xff0c;区间查询&#xff09; 最大数&#xff08;单点修改&#xff0c;区间查询&#xff09; 洛谷&#xff1a;最大数https://www.luogu.com.cn/problem/P1198 题目描述 …

11-3_Qt 5.9 C++开发指南_QSqlQuery的使用(QSqlQuery 是能执行任意 SQL 语句的类)

文章目录 1. QSqlQuery基本用法2. QSqlQueryModel和QSqlQuery联合使用2.1 可视化UI设计框架2.1.1主窗口的可视化UI设计框架2.1.2 对话框的可视化UI设计框架 2.2 数据表显示2.3 编辑记录对话框2.4 编辑记录2.5 插入记录2.6 删除记录2.7 记录遍历2.8 程序框架及源码2.8.1 程序整体…

unity关于匀速移动某些值的方法

可能很多人会用到Verctor3.Lerp、Mathf.LerpUnclamped等等 这种其实不是匀速 看一下这个整体差不多的逻辑 public static float Lerp(float a, float b, float t){return a (b - a) * t;};这个逻辑就是&#xff0c;从a值到b值&#xff0c;返回一个a值加&#xff08;b值-a值&…

msvcp140.dll丢失怎么办?(详细解决方法)

1.msvcp140.dll有什么用&#xff1f; 运行C程序&#xff1a;msvcp140.dll文件包含了许多C程序所需的函数和资源&#xff0c;使得C程序能够在计算机上正确运行。 提供运行时库&#xff1a;msvcp140.dll文件包含了C程序在运行时所需的库文件&#xff0c;如输入/输出操作、内存管…

【梯度下降在波士顿房价预测中的应用】

数据准备 我们首先需要加载波士顿房价数据集。该数据集包含房屋特征信息和对应的房价标签。 import pandas as pd import numpy as npdata_url "http://lib.stat.cmu.edu/datasets/boston" raw_df pd.read_csv(data_url, sep"\s", skiprows22, headerN…

运算放大器基础(二)

5.4.4基于理想运放的放大倍数分析 集成运放两个工作区&#xff1a; 线性区、非线性区 集成运放的理想化参数&#xff1a; 理想运放在线性区的特点 集成运放工作在线性区的电路特征

DSA之查找(1):线性表的查找

文章目录 0 知识回顾1 查找1.1 查找的概念 2 线性表的查找2.1 顺序查找2.1.1 顺序查找算法2.1.2 顺序查找的性能分析2.1.3 顺序查找的特点 2.2 折半查找&#xff08;二分&#xff09;2.2.1 折半查找算法2.2.2 折半查找的性能分析2.2.3 折半查找的特点 2.3 分块查找2.3.1 分块查…

背包问题求具体方案数问题--板子题

12. 背包问题求具体方案 - AcWing题库 思路&#xff1a;先将v[i]和w[i]先输入进去&#xff0c;然后我们进行倒叙dp&#xff0c;这个做的目的就是为了后边我们为了匹配确定路径做好准备&#xff0c;如果我们倒叙输入进去&#xff0c;我们再正序的时候就可以用推导式来进行路径输…

MySql000——MySql的下载和安装

一、下载MySql 二、下载MySQL驱动 三、安装 到此&#xff0c;成功安装