24/8/8算法笔记 决策树构建鸢尾花

news2024/9/24 15:19:37

决策树是一种由算法自动设计的模型。在机器学习中,构建决策树的过程通常遵循以下步骤:

  1. 特征选择:算法会评估每个特征,并选择一个特征作为节点分裂的依据。这个选择基于某种准则,如信息增益(ID3算法)或Gini不纯度(CART算法)。

  2. 最佳分裂点确定:算法会计算每个特征的所有可能分裂点,并选择一个使得不纯度最小(或信息增益最大)的分裂点。

  3. 递归分裂:在选择了特征和分裂点后,算法会递归地对数据集的每个子集重复上述过程,直到满足停止条件。

  4. 停止条件:停止条件可以是多种因素,例如:

    • 数据集的不纯度低于某个阈值。
    • 达到预设的最大树深度。
    • 节点中的样本数量低于某个阈值。
    • 没有更多的特征可以用来分裂。
  5. 剪枝:为了防止过拟合,算法可能会采用剪枝技术来减少树的复杂度。这包括预剪枝(在生长过程中限制树的大小)和后剪枝(先生长整棵树,然后从底部剪除不必要的分支)。

  6. 输出模型:最终,算法会输出一个决策树模型,该模型可以通过一系列的问题(特征和分裂点)来对新的数据点进行分类。

首先导入库和数据,分割数据集,创建 DecisionTreeClassifier 的实例并使用训练集数据对其进行训练。预测分数

import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn import datasets
import graphviz
from sklearn.model_selection import train_test_split
from sklearn import tree

iris = datasets.load_iris()
X = iris['data']
y = iris['target']

feature_names = iris['feature_names']

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state =256)


model = DecisionTreeClassifier()
model.fit(X_train,y_train)


print('测试数据得分',model.score(X_test,y_test))

print('算法预测结果',model.predict(X_test))
print('真实结果    ',y_test)

#逻辑斯蒂回归中,手动计算过概率
model.predict_proba(X_test)

构建决策树

dot_data = tree.export_graphviz(model,filled=True,rounded=True,feature_names=feature_names)

graphviz.Source(dot_data)

我们可以分析出构建的决策树使用了以下特征和策略:

  1. 特征选择:决策树使用了鸢尾花数据集中的以下特征:

    • petal length (cm):花瓣长度
    • petal width (cm):花瓣宽度
    • sepal width (cm):萼片宽度
  2. 分裂准则:决策树的每个节点都基于某个特征的阈值进行分裂,例如 "petal length (cm) <= 2.45" 表示如果花瓣长度小于或等于2.45厘米,则按照这个条件进行数据的分裂。

  3. Gini不纯度:每个节点都显示了Gini不纯度值,这是衡量数据集纯度的指标。Gini不纯度越低,表示数据集的纯度越高。例如,一个节点显示 "gini = 0.666" 表示该节点的不纯度较高,而 "gini = 0.0" 表示该节点的样本全部属于同一类别。

  4. 样本数量:每个节点都显示了该节点下的样本数量,例如 "samples = 120" 表示该节点下有120个样本。

  5. 类别分布:每个节点都显示了该节点下各个类别的样本数量,例如 "value = [39, 39, 42]" 表示该节点下有39个样本属于第一类,39个样本属于第二类,42个样本属于第三类。

  6. 递归分裂:决策树通过递归的方式进行分裂,直到满足停止条件,例如Gini不纯度降至0(所有样本属于同一类别)或者达到预设的最大深度。

  7. 停止条件:当一个节点的Gini不纯度降至0,或者样本数量很少时,分裂会停止。例如,"gini = 0.0" 表示该节点下的所有样本都属于同一类别,不需要进一步分裂。

  8. 特征重要性:从截图中可以看出,花瓣长度和宽度的特征在多个节点中被用作分裂准则,这表明这些特征对于分类可能更为重要。

  9. 树的深度:从截图中可以看出,树的深度相对较浅,这意味着模型可能没有过拟合,但也可能没有捕捉到数据的所有特征。

  10. 预测结果:最终,每个叶节点都会给出一个预测结果,通常是多数投票的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1993289.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

手把手教你去掉WinRAR中的广告?

你是否在使用WinRAR的时候&#xff0c;打开压缩包的时候&#xff0c;它就会给你弹出一个广告窗口&#xff0c;是不是很烦人。本章教程&#xff0c;教你如何将它去除掉。 1、下载所需软件 通过百度网盘分享的文件&#xff1a;reshacker 链接&#xff1a;https://pan.baidu.com/s…

基础复习(前端部分)

MVVM(Model-View-ViewModel)的前端开发思想 Model: 数据模型&#xff0c;特指前端中通过请求从后台获取的数据 View: 视图&#xff0c;用于展示数据的页面&#xff0c;可以理解成我们的htmlcss搭建的页面&#xff0c;但是没有数据 ViewModel: 数据绑定到视图&#xff0c;负责…

SQL Server端口设置完整详细步骤

​ 大家好&#xff0c;我是程序员小羊&#xff01; 前言&#xff1a; 前面是对SQLserver服务器一些介绍&#xff0c;不想了解的可直接点击目录跳入正题&#xff0c;谢谢&#xff01;&#xff01;&#xff01; SQL Server 是由微软公司开发的关系数据库管理系统 (RDBMS)。它主要…

伪原创改写软件,最便捷的改文章选择

说到改文章&#xff0c;很多人的直接想法就是自己动手去修改&#xff0c;但自己动手改文章的过程中是需要花大量时间阅读并理解透文章写的意思&#xff0c;然后才便于修改&#xff0c;然而伪原创改写软件的出现却在修改文章的工作中提供了非常大多的作用&#xff0c;不管是节省…

揭秘人工智能三大基石:数据、算法与算力的深度融合

在科技日新月异的今天&#xff0c;人工智能&#xff08;AI&#xff09;作为引领未来科技浪潮的核心力量&#xff0c;正以前所未有的速度改变着我们的生活、工作乃至整个社会的面貌。人工智能的快速发展并非偶然&#xff0c;而是建立在三大坚实基石之上&#xff1a;数据、算法与…

Nacos-配置中心

1.为什么要使用配置中心&#xff1f; 2.常用的配置中心组件&#xff1f; 3.如何使用&#xff1f; 在配置中心创建配置文件 启动一个单列的nacos服务 点击发布 在微服务中使用 添加依赖 <!--nacso配置中心的依赖--><dependency><groupId>com.alibaba.cloud&l…

zdppy+vue3+onllyoffice开发文档管理系统项目实战 20240808 上课笔记

遗留的问题 1、实现删除的功能 2、分享的功能暂时往后放&#xff0c;因为目前没有用户&#xff0c;等有了用户之后再考虑做 3、增加新建和导入按钮 zdppy的学习计划 机器学习平台&#xff0c;QQ音乐的开源项目&#xff0c;https://github.com/tencentmusic/cube-studio&#…

Python语法基础常识

01 #中英文格式问题 我们用Python编程时用到的所有字母、符号、函数格式等都应当使用英文格式。 不少同学在刚入门的时候&#xff0c;可能会因为用错格式而频频报错、运行失败&#xff0c;这就需要我们时刻留意啦。 02 #print函数的使用 print函数会是我们接触Python时第一个…

万字解析文件fd,深刻理解:fd文件描述符、位图、标准输入、标准输出、标准错误、文件打开、文件关闭、Linux一切皆文件理解、进程和文件的关系、虚拟软件系统

建议全文阅读&#xff01;&#xff01;&#xff01; 建议全文阅读&#xff01;&#xff01;&#xff01; 建议全文阅读&#xff01;&#xff01;&#xff01; 目录 文章概述 一、文件操作 1、什么叫当前路径 2、常见文件操作 &#xff08;1&#xff09;fopen函数 &…

YASKAWA安川直驱电机DD马达Σ-7系列介绍

随着智能制造的兴起&#xff0c;对设备精度、效率及可靠性的要求日益提升&#xff0c;安川Σ-7系列无需减速机即可直接驱动负载的“直驱伺服电机”&#xff0c;以其独特的优势正逐步成为众多高精度、高效率应用场景下的运动控制解决方案。 一、直驱技术的革命性突破 传统伺服…

When can a sum and integral be interchanged?

https://math.stackexchange.com/questions/83721/when-can-a-sum-and-integral-be-interchanged https://math.stackexchange.com/questions/1334907/reversing-the-order-of-integration-and-summation

【大模型从入门到精通12】openAI API 提示链的力量3

这里写目录标题 实践问题 实践部分场景概述场景步骤初始产品询问故障排除请求保修问题额外产品推荐 示例实现 实践问题 编写一个名为retrieve_model_response的Python函数&#xff0c;该函数接受一个消息序列作为输入&#xff0c;并根据给定参数返回模型的响应。包括模型、温度…

如何去掉el-input自带边框

<style lang"scss" scoped>::v-deep .inputDeep .el-input__inner {border: none !important;box-shadow: none !important;padding: 0px; }</style> //先定义一个类名 <el-input v-model"form.name" class"inputDeep"><…

7.3.1.算法设计与分析-总结及真题讲解

总结 分治法特征&#xff1a;把一个问题拆分成多个小规模的相同子问题&#xff0c;一般可用递归解决。 经典问题&#xff1a;斐波那契数列、归并排序、快速排序、矩阵乘法、二分搜索、大整数乘法、汉诺塔 回溯法特征&#xff1a;系统的搜索一个问题的所有解或任一解。 经典问题…

10个理由告诉你,为什么鸿蒙是下一个职业风口!

在当今科技飞速发展的时代&#xff0c;新的技术和趋势不断涌现&#xff0c;为人们带来了前所未有的机遇和挑战。鸿蒙操作系统作为我国自主研发的创新成果&#xff0c;正逐渐成为科技领域的焦点&#xff0c;被认为是下一个职业风口。 10个理由告诉你&#xff0c;为什么鸿蒙是下一…

C++(week15): C++提高:(五)Redis数据库

文章目录 零、Redis的安装、API1.redis、hiredis、redis-plus-plus安装2.HiRedis的API 一、Redis数据库的基本概念1.关系型数据库与非关系型数据库的区别2.非关系型数据库的分离3.Redis的概念4.Redis的特性5.Redis的优点 二、Redis常用命令三、Redis的五大数据类型及其命令1.st…

清除 Nuxt 状态缓存:clearNuxtState

title: 清除 Nuxt 状态缓存&#xff1a;clearNuxtState date: 2024/8/7 updated: 2024/8/7 author: cmdragon excerpt: 摘要&#xff1a;本文介绍了Nuxt.js框架中clearNuxtState方法的使用&#xff0c;该方法用于清除useState管理的状态缓存&#xff0c;确保应用状态的有效性…

Apache POI 实现 Excel 表格下载

这里以苍穹外卖中数据导出功能为例&#xff0c;记录下 Apache POI 导出 Excel 表格的过程。 首先在 pom.xml 中导入相关依赖 <!-- poi 用于操作 excel 表格--> <dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId&…

详细LVS实验配置

一、LVS的NAT模式 1、实验环境 主机名ipVIP角色lvs192.168.0.100172.25.254.100调度器webserver1192.168.0.10&#xff0c;网关192.168.0.100null 真实服务器&#xff08; RS &#xff09; webserver2192.168.0.20&#xff0c;网关192.168.0.100null 真实服务器&#xff08; R…

【C语言初阶】C语言操作符全攻略:提升编程效率的关键步骤

&#x1f4dd;个人主页&#x1f339;&#xff1a;Eternity._ ⏩收录专栏⏪&#xff1a;C语言 “ 登神长阶 ” &#x1f921;往期回顾&#x1f921;&#xff1a;C语言数组 &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; ❀操作符 &#x1f4d2;1. 算术操作…