决策树 #数据挖掘 #Python

news2024/11/25 11:44:41

拓展:

sklearn简介:

sklearn(Scikit-learn)是一个广泛使用的Python机器学习库,它是由Pedregosa等人在2011年创建的。这个库是基于NumPy和SciPy库构建的,提供了一系列简单易用的接口,用于数据预处理、模型选择、特征提取、模型训练和评估等机器学习任务。它包含了各种监督学习(如线性回归、决策树、支持向量机、随机森林等)、无监督学习(聚类、降维)、半监督学习、集成学习以及模型选择和交叉验证工具。

sklearn的特点包括:

  1. 模块化设计:将机器学习算法分为多个独立的模块,使得代码结构清晰,易于理解和使用。
  2. 易用性:提供了直观的API,对新手友好,同时也支持高级用法。
  3. 丰富的算法:涵盖了众多常用的机器学习算法。
  4. 可扩展性:允许用户自定义特征工程和模型参数。
  5. 集成:与其他Python库(如NumPy, Pandas, Matplotlib等)无缝集成。

使用sklearn进行机器学习的基本流程通常包括数据加载、预处理(如标准化、编码等)、划分训练集和测试集、选择合适的模型、训练模型、评估性能和调整超参数等步骤。

 sklearn.datasets简介:

sklearn.datasets是scikit-learn库中的一个重要模块,它包含了各种预定义的数据集,用于机器学习和数据科学的入门和实验。这些数据集覆盖了多个领域,如分类、回归、聚类和无监督学习任务,包括经典的鸢尾花(Iris)、波士顿房价、糖尿病数据集等,以及一些更复杂的文本、图像和时间序列数据。

sklearn.datasets中,你可以找到以下类型的函数和数据集:

  1. 加载功能:如load_iris()load_boston()等,用于加载预定义的数值型数据集。
  2. 加载分类数据:如load_digits(),用于手写数字分类任务。
  3. 加载回归数据:如load_diabetes(),包含糖尿病患者的相关特征和血糖水平。
  4. 加载文本数据:如fetch_20newsgroups(),用于文本分类的新闻组数据。
  5. 加载图像数据:如load_digits()中的图像数据,或fetch_openml()可以获取OpenML平台上的图片数据。
  6. 加载模拟数据:如make_classification()make_regression()等,用于生成定制的数据集以进行特定模型的训练。

通过这些数据集,开发人员可以直接使用进行模型训练、评估和调试,无需从头开始创建数据。同时,它们也常常被用作示例,帮助理解不同算法在实际问题上的应用。


对sklearn.datasets中的鸢尾花(Iris)数据集,按训练集:测试集=7:3构建决策树模型并对模型进行评估。

#导入模块
import pandas as pd
from sklearn.metrics import classification_report
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
#from sklearn.tree import export_graphviz
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']    #指定默认字体
plt.rcParams['axes.unicode_minus'] = False      #用来正常显示负号


#加载数据
iris = load_iris()
irisdf = pd.DataFrame(iris.data,columns=iris.feature_names)
irisdf.head(5)
#划分数据集
from sklearn import model_selection
x_train,x_test,y_train,y_test = model_selection.train_test_split(iris.data,
                                                                 iris.target,
                                                                 test_size=0.3,
                                                                 random_state=1)

#训练模型
dct = DecisionTreeClassifier()
fm = dct.fit(x_train,y_train)
pred = dct.predict(x_test)

#输出精确度、召回率和F1分数等信息
print(classification_report(y_test,pred,target_names=iris.target_names))

#可视化决策树
from sklearn import tree
tree.plot_tree(fm,filled=True,
               feature_names=iris.feature_names,
               class_names=iris.target_names)
'''
filled=True:填充颜色;
feature_names:特征变量名称
class_names:类别名称
'''

#报告模型结果 函数
def reprt_model(model,feature_name,class_name):
    '''
    model:模型;feature_name:特征变量名称;class_name:类别名称
    '''

    model_preds = model.predict(x_test)
    print(classification_report(y_test,model_preds,
                                target_names=iris.target_names))
    print('\n')
    plt.figure(figsize=(12,8),dpi=150)
    tree.plot_tree(model,filled=True,
                   feature_names=feature_name,
                   class_names=class_name)

#输出 报告模型结果
reprt_model(dct,iris.feature_names,iris.target_names)

#列联表
cross_table = pd.crosstab(y_test, pred)
print(cross_table)

输出结果:

  列联表:从列联表可以看出,在测试集的45个样本中错误分类的只有2个。1个将1类误分类到2类中,一个将2类误分类到1类中。

模型评估:

 

指标说明:

1、precision:精确度;recall:召回率;f1-score:f1分数;support:支持度。

2、accuracy:准确度;macro avg:宏平均;weighted avg:加权平均。

3、setosa、versicolor、Virginica为鸢尾花卉的三种属性,在数据集中分别用0、1、2代替。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1817147.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从源码分析 vllm + Ray 的分布式推理流程

一、前言 随着 LLM 模型越来越大,单 GPU 已经无法加载一个模型。以 Qwen-14B-Chat 模型为例,模型权重大概 28GB,但是单个 NVIDIA A10 仅有 24GB 显存。如果想要在 A10 上部署 Qwen-14B-Chat 模型,我们需要将模型切分后部署到 2 个…

Vue2+Element-ui实现el-table表格自适应高度

效果图 新建指令 Vue.directive(height, {inserted(el, _binding, vnode) {const paginationRef vnode.context.$refs.paginationRefconst calculateHeight () > {const windowHeight window.innerHeightconst topOffset el.getBoundingClientRect().topconst otherEle…

怎么提高音频的播放速度?提高音频播放速度的四种方法

怎么提高音频的播放速度?提高音频的播放速度是在处理音频文件时经常需要面对的问题。音频播放速度的调整可以带来多种应用场景和效果,例如加快语音记录的回放速度以节省时间、提高听力理解和语速训练的效果等。然而,对于不同的音频播放工具和…

【Python】Python 2 测试网络连通性脚本

文章目录 前言1. 命令行传参2. 代码 前言 最近在只有python2的服务器上部署服务,不能用三方类库,这里出于好奇心学习下python。这里简单做个脚本,实现了检验网络连通性的功能(类似于curl)。 1. 命令行传参 使用命令…

LeetCode | 58.最后一个单词的长度

这道题要求最后一个单词的长度,第一个想到的就是反向遍历字符串,寻找最后一个单词并计算其长度。由于尾部可能会有’ ,所以我们从后往前遍历字符串,找到第一个非空格的字符,然后记录下到下一个空格前依次有多少个字母即…

芯片后端对于芯片设计公司的重要性

在芯片设计流程中,后端设计是一个至关重要的环节,它直接关系到芯片从设计到实际生产的转化,以及最终产品的性能、可靠性、成本和上市时间。 以下是为什么芯片后端非常重要的几个关键原因: 物理实现:后端设计是芯片从逻…

20240612前端问题总结

20240612前端问题总结 给定固定大小的父 子盒子&#xff0c;要实现子盒子上下左右居中 使用calc()计算&#xff0c;子绝父相和子元素调整位置&#xff0c;flex弹性盒布局&#xff0c;transform&#xff0c;table-cell&#xff0c;浮动六种方法展示子元素垂直水平居中。 <…

人工智能系统中毒是一个日益严重的威胁

咨询公司 Protiviti 最近与一家客户公司合作&#xff0c;该公司遭遇了一次不寻常的攻击&#xff1a;一名黑客试图操纵输入该公司人工智能系统的数据。 公司领导仍在调查此次攻击&#xff0c;公司怀疑黑客试图扭曲人工智能系统的输出。 此类攻击并非新鲜事&#xff0c;但在网络…

stable diffusion中的negative prompt是如何工作的

https://stable-diffusion-art.com/how-negative-prompt-work/https://stable-diffusion-art.com/how-negative-prompt-work/https://zhuanlan.zhihu.com/p/644879268

技术速递|Microsoft Build 2024 中的 .NET 公告和更新

作者&#xff1a;.NET 团队 排版&#xff1a;Alan Wang 在 Microsoft Build 2024 上&#xff0c;我们很高兴推出一系列旨在使 .NET 开发更快、更容易的新功能和工具。 探索 Microsoft Build 2024 上的 .NET 会议&#xff0c;了解新功能的实际效果&#xff0c;或者通过下载 .NE…

【六】Linux安装部署Nginx web服务器--及编写服务器启动脚本

一、部署安装nginx 1、查看nginx是否安装依赖包 [rootlocalhost ~]# rpm -q zlib-devel pcre-devel package zlib-devel is not installed package pcre-devel is not installed 2、若没有则安装nginx 依赖包 [rootlocalhost ~]# yum -y install zlib-devel* pcre-dev…

30、 shell脚本进阶

shell脚本ifcase 一、条件测试 1.1、条件测试&#xff1a;$?----返回码&#xff0c;判断命令或者脚本是否执行成功&#xff08;最近的一条&#xff09; 0 true 为真就是成功 成立 非0 false 失败或者异常。 二、test命令 test命令&#xff1a;可以进行条件测试&#xff…

RAM IP核配置

REVIEW 之前已经学习过&#xff1a; ROM:FPGA寄存器 Vivado IP核-CSDN博客 串口接收&#xff1a;Vivado 串口接收优化-CSDN博客 1. 今日摸鱼计划 RAM创建与测试 小梅哥视频&#xff1a; 21C_嵌入式块存储器RAM介绍_哔哩哔哩_bilibili 21D_嵌入式块存储器RAM实现和仿真_哔哩…

C++ 实现HTTP的客户端、服务端demo和HTTP三方库介绍

本文使用C模拟实现http的客户端请求和http的服务端响应功能&#xff0c;并介绍几种封装HTTP协议的三方库。 1、实现简单HTTP的服务端功能 本程序使用C tcp服务端代码模拟HTTP的服务端&#xff0c;服务端返回给客户端的消息内容按照HTTP协议的消息响应格式进行了组装。 demo如…

腾讯云 BI 数据分析与可视化的快速入门指南

前言 腾讯云 BI 是一款商业智能解决方案&#xff0c;提供数据接入、分析、可视化、门户搭建和权限管理等全流程服务。它支持敏捷自助设计&#xff0c;简化报表制作&#xff0c;并通过企业微信等渠道实现协作。产品分为个人版、基础版、专业版和私有化版&#xff0c;满足不同规…

联想电脑 调节屏幕亮度不起使用,按F5,F6,屏幕上的hotkeys进度条是在改变,但是屏幕没有一些作用的处理方法

1、查看驱动是否正常 Win键X &#xff0c;设备管理器 发现似乎挺正常的。 查看原厂驱动&#xff1a;联想电脑管家 这样看来&#xff0c;驱动是没有问题了。 2、看看设置电池模式 其实还是这个电池模式的问题导致。 如果处于养护模式的话&#xff0c;充电只在75%~80%&#x…

探索Edge

目录 1.概述 1.1.什么是浏览器 1.2.浏览器的作用 2.Edge 2.1.什么是Edge 2.2.诞生背景 2.3.历史版本 2.4.作用 2.5.优缺点 2.5.1.优点 2.5.2.缺点 3.对比 3.1.和360浏览器的对比 3.2.和谷歌浏览器&#xff08;Chrome&#xff09;的对比 4.未来展望 5.总结 1.概…

浏览器f12控制台怎么获取vue实例,并且修改data数据

我们在日常的生产工作中&#xff0c;经常会遇到一些问题&#xff0c;比如&#xff0c;若产品已经部署&#xff0c;或是目前无法查看源代码&#xff0c;或者向用命令直接修改查询默认表单数据&#xff0c;那我们怎么去查看Vue实例呢&#xff1f; 我们在浏览器直接打印this不能得…

[Alogithm][动态规划][背包问题][组合总和IV][不同的二叉搜索树]详细讲解

目录 1.组合总和 Ⅳ1.题目链接2.算法原理详解3.代码实现 2.不同的二叉搜索树1.题目链接2.算法原理详解3.代码实现 1.组合总和 Ⅳ 1.题目链接 组合总和 Ⅳ 2.算法原理详解 本题是个排列题&#xff0c;而并非组合题&#xff0c;所以并非背包问题 思路&#xff1a; 确定状态表示…

【spring 】支持spring WebFlux 的容器

spring WebFlux 是 Spring 5 引入的响应式 Web 框架&#xff0c;它支持非阻塞、事件驱动的编程模型&#xff0c;特别适合处理高并发的场景。 Spring WebFlux 可以运行在多种容器上 包括下面&#xff1a; Netty: Netty 是一个异步事件驱动的网络应用程序框架&#xff0c;用于快…