【机器学习】——决策树模型

news2024/9/23 13:21:10

 💻博主现有专栏:

                C51单片机(STC89C516),c语言,c++,离散数学,算法设计与分析,数据结构,Python,Java基础,MySQL,linux,基于HTML5的网页设计及应用,Rust(官方文档重点总结),jQuery,前端vue.js,Javaweb开发,设计模式、Python机器学习等
🥏主页链接:

                Y小夜-CSDN博客

目录

🎯本文目的

🎯成绩预测决策树模型

🎃内容

🎃代码解析

🎯不同参数的决策树算法和随机森林算法

🎃内容

🎃代码解析

🎯心脏病数据集寻找最佳max_features参数。

🎃内容

🎃代码解析

🎯总结


🎯本文目的

  • (一)理解决策树的基本原理
  • (二)能够使用sklearn.datasets制作分类数据集
  • (三)能够使用sklearn库进行决策树模型的训练和预测
  • (四)掌握随机森林的简单原理
  • (五)能够使用sklearn库进行随机森林的训练和预测

🎯成绩预测决策树模型

🎃内容

如下表的所示训练集数据和验证集数据,其中“性别”、“机器学习作业”是属性特征,“成绩高”是标记。

表 1 训练集数据

编号

性别

机器学习作业

成绩高

1

喜欢

优秀

2

喜欢

优秀

3

不喜欢

普通

4

不喜欢

普通

5

不喜欢

优秀

表 2 测试集数据

编号

性别

机器学习作业

成绩高

6

喜欢

优秀

7

喜欢

普通

8

不喜欢

普通

9

不喜欢

普通

要求:

数据集中, “性别”特征,用0表示女,1表示男, “喜欢”机器学习作业特征中,1表示喜欢,0表示不喜欢 , “成绩”列,表示最后分类的标签,1表示成绩“优秀”,0表示成绩普通”)

  1. 创建决策树模型,并使用训练集数据对模型进行训练。
  2. 查看并输出模型在测试集上的准确率?
  3. 使用tree.plot_tree()函数图形化显示训练好的决策树。
  4. 决策树模型的参数criterion默认值为“gini”,表示使用的是CART算法,可以尝试设置criterion = 'entropy',让模型使用ID3算法,观察一下训练的模型是否相同。

🎃代码解析

import pandas as pd
from sklearn import tree
data={
    '性别':[1,0,1,1,0],
    '机器学习作业':[1,1,0,0,0],
    '成绩高':[1,1,0,0,1]
}
df=pd.DataFrame(data)
df.head()

        这段代码创建了一个包含性别、机器学习作业和成绩高三个特征的数据集,并将其存储在一个Pandas DataFrame中。这个DataFrame对象可以用于实现一些机器学习的功能,例如:

  1. 分析性别、机器学习作业和成绩高之间的关系。
  2. 使用决策树算法训练一个模型,以预测成绩高是否与性别和机器学习作业有关。
  3. 可以进行特征工程,如标准化或归一化,然后用于其他机器学习模型的训练和预测。

x=df.drop('成绩高',axis=1)
y=df['成绩高']
clf=tree.DecisionTreeClassifier(max_depth=2)
clf.fit(x,y)

数据分割

  • x = df.drop('成绩高', axis=1): 从 DataFrame 中去掉'成绩高'这一列,将其余的列作为特征。这将得到包含"性别"和"机器学习作业"的特征数据。
  • y = df['成绩高']: 提取'成绩高'这一列,作为目标变量。

创建决策树模型

  • clf = tree.DecisionTreeClassifier(max_depth=2): 创建一个决策树分类器,最大深度为2。这意味着决策树最多可以有两个分支。较小的最大深度可以避免过拟合,但也可能导致模型欠拟合。

训练模型:

  • clf.fit(x, y): 使用特征数据 x 和目标数据 y 来训练决策树分类器。这个步骤完成后,模型将会根据给定的特征来预测目标变量。

在这个例子中,模型被训练来预测“成绩高”是否与“性别”和“机器学习作业”相关。经过训练后,可以使用这个模型来预测新的数据样本中的"成绩高"状态。


data1={
     '性别':[1,0,1,0],
    '机器学习作业':[1,1,0,0],
    '成绩高':[1,0,0,0]
}
df1=pd.DataFrame(data1)
x1=df1.drop('成绩高',axis=1)
y1=df1['成绩高']
clf.score(x1,y1)

  1. 创建了一个新的 DataFrame df1,包含了与之前相同的特征:'性别'和'机器学习作业',以及新的目标变量 '成绩高'。
  2. 提取了特征和目标变量,分别存储在 x1 和 y1 中。
  3. 使用 clf.score(x1, y1) 方法计算了模型在新数据集上的准确率。

tree.plot_tree(clf)

    clf 是你的决策树模型,x 是特征数据。这段代码将绘制出决策树的结构,并使用特征名和类别名进行标注。你可以运行这段代码来查看决策树的结构。


clf2=tree.DecisionTreeClassifier(max_depth=2,criterion = 'entropy')
clf2.fit(x,y)
tree.plot_tree(clf2)

        

        创建了一个新的决策树分类器 clf2,并指定了最大深度为2以及使用信息熵(entropy)作为分裂标准。现在,你可以使用 tree.plot_tree() 函数来可视化这个新的决策树模型。

🎯不同参数的决策树算法和随机森林算法

🎃内容

(1)生成一个简单的数据集。

(2)尝试用不同参数的决策树算法进行试验。

(3)尝试用不同参数的随机森林进行试验,查看随机森林的预测准确率是否更高

🎃代码解析

from sklearn.datasets import make_blobs
x,y=make_blobs(n_samples=100,centers=3,n_features=2)
x.shape
import matplotlib.pyplot as plt
plt.figure(figsize=(9,6))
plt.scatter(x[:,0],x[:,1],c=y,cmap='autumn',edgecolors='k')

        使用了 make_blobs 函数生成了一个包含100个样本,2个特征和3个聚类中心的数据集。接下来,你绘制了这个数据集的散点图,其中不同颜色的点表示不同的聚类。这样的可视化有助于直观地理解数据的分布和聚类情况。


max_depth=1时:

from sklearn import tree 
import numpy as np
clf1=tree.DecisionTreeClassifier(max_depth=1)
clf1.fit(x,y)
x_min,x_max=x[:,0].min()-1,x[:,0].max()+1
y_min,y_max=x[:,1].min()-1,x[:,1].max()+1
xx,yy=np.meshgrid(np.arange(x_min,x_max,0.02),np.arange(y_min,y_max,0.02))
z=clf1.predict(np.c_[xx.ravel(),yy.ravel()])
z=z.reshape(xx.shape)
plt.pcolormesh(xx,yy,z,cmap='spring')
plt.scatter(x[:,0],x[:,1],c=y,cmap='autumn',edgecolors='k',s=80)
plt.xlim(xx.min(),xx.max())
plt.ylim(yy.min(),yy.max())
plt.title("Tree:(max_depth=1)")

        使用决策树模型 clf1 对数据进行了分类,并绘制了分类结果的决策边界。决策边界被绘制成了色块,不同的颜色表示不同的分类区域。另外,你还绘制了原始数据的散点图,不同颜色的点表示不同的类别。

这个图表清晰地展示了决策树模型在最大深度为1时学到的决策边界。由于最大深度限制,决策树只能进行一次分裂,因此决策边界是一条直线。这种可视化方式有助于理解模型的学习情况和对数据的分类效果。


max_depth=2时

from sklearn import tree 
import numpy as np
clf1=tree.DecisionTreeClassifier(max_depth=2)
clf1.fit(x,y)
x_min,x_max=x[:,0].min()-1,x[:,0].max()+1
y_min,y_max=x[:,1].min()-1,x[:,1].max()+1
xx,yy=np.meshgrid(np.arange(x_min,x_max,0.02),np.arange(y_min,y_max,0.02))
z=clf1.predict(np.c_[xx.ravel(),yy.ravel()])
z=z.reshape(xx.shape)
plt.pcolormesh(xx,yy,z,cmap='spring')
plt.scatter(x[:,0],x[:,1],c=y,cmap='autumn',edgecolors='k',s=80)
plt.xlim(xx.min(),xx.max())
plt.ylim(yy.min(),yy.max())
plt.title("Tree:(max_depth=2)")


from sklearn.ensemble import RandomForestClassifier
from sklearn import set_config
set_config(print_changed_only=False)
x,t=make_blobs(n_samples=100,centers=3,n_features=2,random_state=42)
forest= RandomForestClassifier().fit(x,y)
Forest

   RandomForestClassifier() 创建了一个随机森林分类器对象,并使用 fit() 方法将其拟合到数据集 (x, y) 上。然后,你将这个分类器赋值给了变量 forest

🎯心脏病数据集寻找最佳max_features参数。

🎃内容

(1)使用本章的心脏病数据集,找到最佳的max_features参数,以及该参数下模型在验证集上的准确率。

🎃代码解析

import pandas as pd
heart=pd.read_csv('bank/heart.csv')
heart.head()

        导入了 pandas 库并使用 read_csv() 函数读取了名为 "heart.csv" 的文件,并将其存储在名为 heart 的 DataFrame 中。然后,你使用 head() 方法查看了 DataFrame 的前几行数据。


from sklearn import tree 
clf_tree=tree.DecisionTreeClassifier()
from sklearn.model_selection import train_test_split
x=heart.drop('target',axis=1)
y=heart['target']
x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=0)
clf_tree.fit(x_train,y_train)
print(clf_tree.score(x_test,y_test))

使用了 scikit-learn 库中的决策树分类器来建立一个模型,并对心脏病数据集进行了训练和评估。

  1. 首先,你使用 tree.DecisionTreeClassifier() 创建了一个决策树分类器对象,并将其赋值给 clf_tree 变量。
  2. 然后,你从 sklearn.model_selection 中导入了 train_test_split 函数,用于将数据集划分为训练集和测试集。
  3. 接着,你准备了特征和标签数据。特征数据 x 是除了目标列之外的所有列,而标签数据 y 是目标列。
  4. 使用 train_test_split 函数将数据集划分为训练集和测试集,并指定了 random_state 参数以确保结果的可重复性。
  5. 最后,使用训练集训练了决策树分类器,并使用测试集评估了模型的性能,打印了分类器在测试集上的准确率。

from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt
score_list=[] 
for i in range(10,100,10):
    clf_forest=RandomForestClassifier(n_estimators=i,random_state=0)
    clf_forest.fit(x_train,y_train)
    score_list.append(clf_forest.score(x_test,y_test))
plt.plot(range(10,100,10),score_list)

使用了随机森林分类器来建立模型,并对不同数量的决策树数量进行了评估,以确定最佳数量的决策树。具体来说,你进行了以下操作:

  1. 导入了 RandomForestClassifier 类和 matplotlib.pyplot 模块。
  2. 创建了一个空列表 score_list 用于存储不同数量决策树的性能评分。
  3. 使用 for 循环迭代不同的决策树数量(从 10 到 90,步长为 10)。
  4. 对于每个迭代,使用当前数量的决策树创建随机森林分类器对象,并将其拟合到训练数据集上。
  5. 计算并存储该模型在测试集上的准确率。
  6. 最后,使用 plt.plot() 函数绘制决策树数量与模型准确率之间的关系。

🎯总结

决策树模型是一种基本且常用的机器学习算法,它通过树状结构来进行分类和回归任务。以下是关于决策树模型的知识点总结:

  1. 基本概念

    • 决策树是一种树状结构,其中每个内部节点表示一个特征或属性测试,每个分支代表一个测试结果,每个叶节点代表一个类别标签或回归值。
    • 决策树的目标是通过将数据集划分为不同的区域来构建一个可以对新实例进行预测的模型。
  2. 构建过程

    • 决策树的构建过程通常采用递归地将数据集划分为子集的方式,直到满足某个停止条件。
    • 划分过程通常基于某种度量指标(如信息增益、基尼不纯度等),选择最佳的划分特征。
  3. 特征选择

    • 特征选择是决策树算法中的关键步骤,常用的特征选择指标包括信息增益、基尼不纯度、方差等。
  4. 剪枝

    • 决策树容易过拟合训练数据,因此需要进行剪枝操作来防止过拟合。剪枝分为预剪枝和后剪枝两种方式。
  5. 优缺点

    • 优点包括易于理解和解释、对缺失值不敏感、能够处理不相关特征等。
    • 缺点包括容易过拟合、对噪声敏感、不稳定性等。
  6. 应用领域

    • 决策树模型广泛应用于分类和回归任务,包括金融、医疗、工业等各个领域。
  7. 算法变体

    • 基于决策树模型衍生出了许多变体算法,如随机森林、梯度提升树等,用于进一步提升模型性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1906517.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Java+SpringMvc+Vue技术的在线学习交流平台的设计与实现---60页论文参考

博主介绍:硕士研究生,专注于Java技术领域开发与管理,以及毕业项目实战✌ 从事基于java BS架构、CS架构、c/c 编程工作近16年,拥有近12年的管理工作经验,拥有较丰富的技术架构思想、较扎实的技术功底和资深的项目管理经…

vulhub-activemq(CVE-2016-3088)

在 Apache ActiveMQ 5.12.x~5.13.x 版本中,默认关闭了 fileserver 这个应用(不过,可以在conf/jetty.xml 中开启);在 5.14.0 版本后,彻底删除了 fileserver 应用。【所以在渗透测试过程中要确定好 ActiveMQ …

Avalonia 常用控件四 Text Controls

1、AutoCompleteBox <StackPanel Margin"20"><TextBlock Margin"0 5">选择一种动物</TextBlock><AutoCompleteBox x:Name"animals" FilterMode"StartsWith"/><!--AutoCompleteBox:Items:要匹配的项目列表。…

Redis集群篇

目录 传送门前言一、Redis主从复制二、Redis哨兵模式&#xff08;自动选举老大的模式&#xff09;三、Redis集群架构&#xff08;最佳&#xff09;四、Redis缓存穿透和雪崩&#xff08;面试高频&#xff09; 传送门 SpringMVC的源码解析&#xff08;精品&#xff09; Spring6的…

唤醒知识循环,共筑绿色阅读梦——探索旧书回收小程序的无限可能

在这个信息爆炸的时代&#xff0c;书籍作为知识与智慧的载体&#xff0c;其重要性不言而喻。然而&#xff0c;随着电子阅读的兴起和书籍更新换代的加速&#xff0c;大量旧书被束之高阁&#xff0c;甚至面临被遗弃的命运。这不仅是对宝贵文化资源的浪费&#xff0c;也是对环境保…

51单片机嵌入式开发:5、按键、矩阵按键操作及protues仿真

按键、矩阵按键操作及protues仿真 1 按键介绍1.1 按键种类1.2 按键应用场景 2 按键电路3 按键软件设计3.1 按键实现3.2 按键滤波方法3.3 矩阵按键软件设计3.4 按键Protues 仿真 4 按键操作总结 提示 1 按键介绍 1.1 按键种类 按键是一种用于控制电子设备或电路连接和断开的按…

UGC与AI引领的下一个10年,丝芭传媒已经准备好

丝芭传媒最近传来的消息&#xff0c;都跟技术相关。 基于自研AI大模型“Paro&#xff08;心乐舞河&#xff09;”的AIGPT及AIGC生成工具APP“鹦鹉人”开启用户内测。2023年3月技术测试的图形化智能社交基座“美踏元宇宙”&#xff0c;也将开放首轮用户内测。 此外&#xff0c…

搭建一个成功的短视频社区,你需要知道这些

近年来&#xff0c;短视频以其独特的魅力在全球范围内迅速崛起。无论是抖音、快手等国内巨头的迅速扩张&#xff0c;还是国外各类短视频应用的不断涌现&#xff0c;都证明了短视频时代的来临。短视频以其消费门槛低、娱乐性强、信息获取快等特点&#xff0c;赢得了广大用户的青…

node使用express在服务器上创建接口,携带参数访问时返回参数

一、下载nodejs​​​​​​Node.js — 在任何地方运行 JavaScriptNode.js is a JavaScript runtime built on Chromes V8 JavaScript engine.https://nodejs.org/zh-cn 二、 安装Express 找一个文件夹&#xff0c;创建 mkdir myapp cd myapp三、初始化一个新的Node.js项目&…

入门PHP就来我这(高级)15 ~ 图书删除功能

有胆量你就来跟着路老师卷起来&#xff01; -- 纯干货&#xff0c;技术知识分享 路老师给大家分享PHP语言的知识了&#xff0c;旨在想让大家入门PHP&#xff0c;并深入了解PHP语言。 今天给大家接着上篇文章实现图书删除功能&#xff0c;来实现删除图书信息记录行的功能。 1 删…

HTML-CSS 入门介绍

1.web 网站的工作流程 2.web前端开发 简单示例 <html> <head> <title>HTML快速入门</title> </head> <body> <h1>Hello HTML</h1> <img src1.jpg></img> <img src1.jp…

RPA影刀 | 循环 + 嵌套循环 + 循环中的continue和break

一、循环 循环的构成 重复在做的事&#xff08;不变的&#xff09;&#xff1a;循环体每次操作的对象&#xff08;变化的&#xff09;&#xff1a;循环项 二、ForEach列表循环 三、循环相似元素 四、For次数循环 五、嵌套循环 测试目标&#xff1a;遍历所有页面&#xff0…

连升2级,3区变1区,这本计算机杂志当投~

福利✨✨福利✨✨ &#x1f914;想快速录用&#xff0c;顺利毕业/评职吗&#xff1f;没问题&#xff01;&#x1f4af; &#x1f3af;EI期刊征稿&#xff0c;提交后2个月返修&#xff0c;修改后1个月录用&#xff0c;1周见刊&#xff0c;2周检索&#xff1b; &#x1f4e2;人工…

C语言学习笔记[22]:分支语句switch

switch语句 switch语句也是一种分支语句&#xff0c;常用于多分支的情况 switch语句的语法形式是&#xff1a; switch(整型表达式) {语句项; }而语句项是什么呢&#xff1f; case 整型常量表达式:语句; switch语句中的break 对于case 语句来说&#xff0c;我们day输入的多…

SpringMVC源码解析(一):web容器启动流程

SpringMVC源码系列文章 SpringMVC源码解析(一)&#xff1a;web容器启动流程 目录 一、SpringMVC全注解配置1、pom文件2、web容器初始化类(代替web.xml)3、SpringMVC配置类(代替springmvc.xml)4、测试Controller 二、SpringServletContainerInitializer1、web容器初始化入口2、…

linux19:程序替换

一&#xff1a;最简单的看看程序替换是什么样的&#xff08;单个进程版&#xff09; 1 #include<stdio.h>2 #include<unistd.h>3 #include<stdlib.h>4 int main()5 {6 printf("Before : I am a process , myPid:%d,myPPid:%d\n",getpid(),getpp…

为什么要做智慧水务信息化平台建设?带来的好处

随着科技的飞速发展&#xff0c;我们的生活正在经历一场前所未有的变革。在这场变革中&#xff0c;智慧水务信息化建设如同一股清流&#xff0c;以其独特的魅力&#xff0c;悄然改变着我们对水务管理的传统认知。 为何要进行智慧水务信息化建设&#xff1f;答案显而易见——为…

Miniconda的常见用法——以Isaacgym为例

1. ubuntu24.04安装minicondda mkdir -p ~/miniconda3 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh解释下这段代码 bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3~/miniconda3/miniconda.sh: 指向Mi…

2024HW必修高危漏洞集合_v4.0

高危风险漏洞一直是企业网络安全防护的薄弱点&#xff0c;也成为HW攻防演练期间红队的重要突破口;每年 HW期间爆发了大量的高危风险漏洞成为红队突破网络边界防护的一把利器,很多企业因为这些高危漏洞而导致整个防御体系被突破、甚至靶标失守而遗憾出局。 HW 攻防演练在即&…

SpringCloud学习Day7:Seata

概念 Seata是一款开源的分布式事务解决方案&#xff0c;致力于在微服务架构下提供高性能和简单易用的分布式事务服务 工作流程 TC以Seata服务器形式独立部署&#xff0c;TM和RM则是以Seata Client的形式集成在微服务中运行