决策树与机器学习实战【代码为主】

news2024/9/24 11:23:32

文章目录

  • 🛴🛴引言
  • 🛴🛴决策树使用案例
  • 🛴🛴`numpy`库生成模拟数据案例
  • 🛴🛴决策树回归问题
  • 🛴🛴决策树多分类问题

🛴🛴引言

决策树是一种经典的机器学习算法,在数据挖掘和预测分析中广泛应用。它是一种基于树结构进行决策的模型,可以用于分类和回归问题。

决策树的基本原理是通过对特征进行逐步划分,生成一棵树形结构,以实现对数据的分类或回归。从根节点开始,根据特征的不同取值,将数据划分到不同的子节点中。这个划分过程是基于一些衡量指标(例如信息增益、基尼系数等),目标是在每个节点上选择最佳的划分属性。

决策树的生成过程通常遵循下列步骤:

  • 特征选择:从给定的特征集合中选择最佳的特征作为当前节点的划分属性。衡量指标常包括信息增益、基尼系数等。
  • 树的构建:根据选择的划分属性,将数据集划分为多个子集,并生成相应的子节点。如果某个子集中的样本属于同一类别或达到终止条件,则将该节点标记为叶子节点。
  • 递归过程:对于每个子节点,重复步骤1和步骤2,直到所有数据划分完毕或达到停止条件。
  • 剪枝:为了避免过拟合,可以对生成的决策树进行剪枝。剪枝可以通过预剪枝和后剪枝两个方法实现,其中预剪枝是在生成树的过程中决定是否分裂节点,后剪枝是在生成树之后进行节点合并。
    请添加图片描述
    决策树的优点包括易于理解和解释、能够处理离散和连续特征、具有较好的可解释性等。此外,决策树还可以处理缺失值和异常值。

然而,决策树也有一些限制,包括容易过拟合、对特征空间划分较为敏感等。为了解决过拟合问题,可以通过剪枝、调整参数等方法进行优化。

在使用决策树时,需要注意以下几点:

  • 特征选择:选择合适的特征作为划分属性对决策树的性能至关重要。
  • 停止条件:设置递归停止的条件,防止过度拟合。常见的停止条件包括叶子节点中样本数量的最小值、树的最大深度、信息增益或基尼系数的阈值等。
  • 数据预处理:决策树对数据的尺度不敏感,通常不需要进行归一化或标准化处理。
  • 模型评估:决策树的常见评估指标包括准确率、精确率、召回率、F1分数等。

总之,决策树是一种直观且易于理解的机器学习模型,适用于一般的分类和回归问题。理解决策树的基本原理和构建过程,有助于更好地应用和解释该算法,为实际问题提供有效的预测和决策。
请添加图片描述



🛴🛴决策树使用案例

以下是一个使用真实数据集的示例代码,数据类型是csv,文件名称是data.csv:

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
from matplotlib import pyplot as plt
from sklearn import tree

# 读取数据集
data = pd.read_csv('data.csv')

# 分割特征和目标变量
X = data.drop('target', axis=1)
y = data['target']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并拟合决策树模型
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

# 使用模型进行预测
y_pred = model.predict(X_test)

# 计算模型准确率
accuracy = metrics.accuracy_score(y_test, y_pred)
print('模型准确率:', accuracy)

# 可视化决策树
fig = plt.figure(figsize=(10, 10))
_ = tree.plot_tree(model, feature_names=X.columns, class_names=['0', '1'], filled=True)
plt.show()

导入必要的库:

  • pandas用于数据分析和处理。
  • DecisionTreeClassifier用于构建决策树模型。
  • train_test_split用于将数据集划分为训练集和测试集。
  • metrics提供了一些评估模型性能的方法。
  • tree用于可视化决策树。

读取数据集:

  • 使用read_csv()函数读取名为data.csv的数据文件。

分割特征和目标变量:

  • 使用drop()函数从数据中移除目标变量,得到特征数据集X
  • 将目标变量保存在y中。

划分训练集和测试集:

  • 使用train_test_split()函数将数据集划分为训练集和测试集,其中测试集占比为0.2。

创建并拟合决策树模型:

  • 创建DecisionTreeClassifier类的实例作为模型。
  • 使用fit()方法拟合模型,传入训练集的特征数据和目标变量。

使用模型进行预测:

  • 调用已训练的模型的predict()方法,传入测试集的特征数据,得到预测结果y_pred

计算模型准确率:

  • 使用accuracy_score()函数计算模型在测试集上的准确率,传入真实的目标变量y_test和预测值y_pred

可视化决策树:

  • 创建一个图形对象fig
  • 使用tree.plot_tree()方法绘制决策树,参数包括模型、特征名称和类别名称。
  • 使用plt.show()方法显示绘制好的图形。

请确保在运行代码之前,将数据集文件data.csv放在与代码文件相同的目录下。这段代码展示了如何使用决策树模型对真实数据集进行分类预测,并可视化决策树结构。希望这可以帮助您更好地理解决策树模型的应用。如有任何疑问,请随时提问。



🛴🛴numpy库生成模拟数据案例

import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt
from sklearn import metrics
from sklearn import tree

# 生成特征数据
X = np.random.rand(100, 3)  # 生成100个样本,每个样本有3个特征

# 生成目标变量
y = np.random.choice([0, 1], size=100)  # 生成100个目标变量,取值为0或1

# 创建数据框
data = pd.DataFrame(X, columns=['feature1', 'feature2', 'feature3'])
data['target'] = y

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并拟合决策树模型
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

# 使用模型进行预测
y_pred = model.predict(X_test)

# 计算模型准确率
accuracy = metrics.accuracy_score(y_test, y_pred)
print('模型准确率:', accuracy)

# 可视化决策树
fig = plt.figure(figsize=(10, 10))
_ = tree.plot_tree(model, feature_names=data.columns[:-1], class_names=['0', '1'], filled=True)
plt.show()

在这里插入图片描述
在这里插入图片描述
请添加图片描述

这段代码生成了具有3个特征和一个目标变量的模拟数据,并使用决策树模型进行学习和预测。你可以调整生成数据的方式,修改特征数量、样本数量,以及目标变量的取值等。

导入必要的库:

  • numpy用于生成随机数组作为特征数据。
  • pandas用于创建和处理数据框。
  • DecisionTreeClassifier用于创建决策树模型。
  • train_test_split用于将数据集划分为训练集和测试集。
  • metrics提供了一些评估模型性能的方法。
  • tree用于可视化决策树。

生成特征数据:

  • 使用numpy.random.rand()函数生成一个形状为(100, 3)的随机数组,表示100个样本,每个样本有3个特征。

生成目标变量:

  • 使用numpy.random.choice()函数生成一个长度为100的随机数组,随机选择值为0或1作为目标变量。

创建数据框:

  • 使用pandas.DataFrame()函数将特征数据X和目标变量y组合成一个数据框,特征列的名称为feature1feature2feature3,目标变量列的名称为target

划分训练集和测试集:

  • 使用train_test_split()函数将数据集划分为训练集和测试集,其中测试集占比为0.2。

创建并拟合决策树模型:

  • 创建DecisionTreeClassifier类的实例作为模型。
  • 使用fit()方法拟合模型,传入训练集的特征数据X_train和目标变量y_train

使用模型进行预测:

  • 调用已训练的模型的predict()方法,传入测试集的特征数据X_test,得到预测结果y_pred

计算模型准确率:

  • 使用accuracy_score()函数计算模型在测试集上的准确率,传入真实目标变量y_test和预测值y_pred

可视化决策树:

  • 创建一个图形对象fig
  • 使用tree.plot_tree()方法绘制决策树,参数包括模型、特征名称和类别名称。
  • 使用plt.show()方法显示绘制好的图形。

这段代码演示了如何使用决策树模型对生成的模拟数据进行分类预测,并可视化生成的决策树结构



🛴🛴决策树回归问题

import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor
from matplotlib import pyplot as plt

# 生成特征数据
X = np.random.rand(100, 1)  # 生成100个样本,每个样本有1个特征

# 生成目标变量
y = np.sin(2 * np.pi * X) + np.random.normal(0, 0.1, size=(100, 1))  # 生成目标变量,使用正弦函数,并添加噪声

# 创建并拟合决策树回归模型
model = DecisionTreeRegressor()
model.fit(X, y)

# 预测新数据
new_data = np.linspace(0, 1, 100).reshape(-1, 1)
prediction = model.predict(new_data)

# 可视化结果
plt.scatter(X, y, label='Actual')
plt.plot(new_data, prediction, color='red', label='Prediction')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

在这里插入图片描述
请添加图片描述

  • 导入必要的库:

    • numpy用于生成随机数和数学计算。
    • matplotlib.pyplot用于绘制图形。
    • DecisionTreeRegressor用于创建决策树回归模型。

  • 生成特征数据:

    • 使用numpy.random.rand()生成一个形状为(100, 1)的随机数组,表示100个样本,每个样本有1个特征。

  • 生成目标变量:

    • 使用正弦函数np.sin()生成目标变量y,并添加服从正态分布的噪声np.random.normal()

4- 创建并拟合决策树回归模型:

  • 创建DecisionTreeRegressor类的实例作为回归模型。
  • 使用fit()方法拟合模型,传入特征数据X和目标变量y

  • 预测新数据:
    • 生成一组新的特征数据new_data,使用np.linspace()生成0到1之间的等差数列。
    • 使用已训练的模型的predict()方法对新数据进行回归预测,得到预测结果prediction

  • 可视化结果:
    • 使用plt.scatter()绘制原始数据散点图。
    • 使用plt.plot()绘制预测结果曲线。
    • 设置横轴和纵轴标签。
    • 使用plt.legend()显示图例。
    • 使用plt.show()显示图形。

该代码演示了如何使用决策树回归模型来解决回归问题,并使用可视化方式展示预测结果。



🛴🛴决策树多分类问题

import numpy as np
from sklearn.tree import DecisionTreeClassifier
from matplotlib import pyplot as plt

# 生成特征数据
X = np.random.rand(100, 2)  # 生成100个样本,每个样本有2个特征

# 生成目标变量
y = np.random.randint(0, 3, size=100)  # 生成目标变量,取值为0、1、2

# 创建并拟合决策树分类模型
model = DecisionTreeClassifier()
model.fit(X, y)

# 预测新数据
new_data = np.random.rand(10, 2)  # 生成10个新数据样本
prediction = model.predict(new_data)

print('预测结果:', prediction)

在这里插入图片描述

  • 导入必要的库:
    • numpy用于生成随机数组。
    • DecisionTreeClassifier用于创建决策树分类模型。

  • 生成特征数据:
    • 使用numpy.random.rand()生成一个形状为(100, 2)的随机数组,表示有100个样本,每个样本有2个特征。

  • 生成目标变量:
    • 使用numpy.random.randint()生成一个长度为100的随机数组,取值范围为0到2,表示3个分类。

  • 创建并拟合决策树分类模型:
    • 创建DecisionTreeClassifier类的实例作为分类模型。
    • 使用fit()方法拟合模型,传入特征数据X和目标变量`

请添加图片描述







本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1701480.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Https自签名证书

openSSL下载 https://slproweb.com/products/Win32OpenSSL.html 1_整体流程 (1)https介绍 HTTPS 是 Hypertext Transfer Protocol Secure 的简称,是基于 SSL 加密方式的 HTTP 协议 (2)CA机构介绍 介绍&#xff1a…

PHP之fastadmin系统配置分组增加配置和使用

目录 一、实现功能:fasttadmin实现添加系统配置分组和添加参数、使用 二、添加分组 三、配置分组参数 四、最终存储位置 五、获取配置参数 一、实现功能:fasttadmin实现添加系统配置分组和添加参数、使用 二、添加分组 在字典配置中找到分组对应键值…

高效掌控速卖通自养号测评:成本、步骤、技巧全方位掌握

在跨境电商的汹涌浪潮中,速卖通犹如一颗璀璨的领航星,引领着无数寻求海外拓展的企业和商家驶向国际市场的广阔海域。从最初的C2C模式起步,速卖通历经蜕变,如今已华丽转身成为B2C跨境电商领域的翘楚,承载着无数中国卖家…

新业务 新市场 | 灵途科技新品亮相马来西亚亚洲防务展

5月6日,灵途科技携新品模组与武汉长盈通光电(股票代码:688143)携手参加第18届马来西亚亚洲防务展。首次亮相海外,灵途科技便收获全球客户的广泛关注,为公司海外市场开拓打下坚实基础。 灵途科技与长盈通共同…

探索Facebook:数字社交的新时代

Facebook,作为全球最大的社交网络平台之一,一直在引领着数字社交的发展潮流。随着科技的不断进步和社会的不断变迁,Facebook也在不断演进和创新,迎接着数字社交的新时代。本文将探索Facebook在数字社交领域的新发展,以…

fpga系列 HDL: 05 阻塞赋值(=)与非阻塞赋值(<=)

在Verilog硬件描述语言(HDL)中,信号的赋值方式主要分为两种:连续赋值和过程赋值。每种赋值方式有其独特的用途和语法,并适用于不同类型的电路描述。 1. 连续赋值(Continuous Assignment,assign 和&#xf…

pycharm中无法激活conda虚拟环境

在windwos的cmd命令行中能激活,但是pycharm中无法激活虚拟环境,报错提示: 后来发现pycharm默认命令行是powershell,改成cmd重启pycharm命令行即可

windows安全配置

环境:本文我们以Windows Server 2012 R2为例,进行加固 Windows 不论什么版本,进行安全配置均包含以下两个常用维度 1、账户策略 ①密码策略 强制密码历史,建议设置为24个 密码最长使用期限,建议设置60天 密码最短…

Excel函数之SCAN

SCAN 语法 SCAN([initial_value], array, lambda(accumulator,value,calculation)) initial_value:用于设置累加器的初始值,即accumulator的初始值,该值为空时,array的首个值将直接赋值给累加器,并且该值将不参与函数运算array:需要进行循环计算的数组accumulator:累加…

HTML5 基本框架

HTML5基本的内容 文章目录 系列文章目录前言一、HTML5 基本框架二、具体框架结构三、知识补充总结 前言 HTML5的介绍: HTML5 是一种用于构建网页内容的标准化语言。它是 HTML(超文本标记语言)的第五个版本,引入了许多新的功能和特…

wordpress主题给网站增加一个版权声明区块代码分享

在数字化时代,网络上的信息传播变得越来越便捷,给人们生活和工作带来了极大的便利。然而,在这个过程中也产生了很多版权问题。为了更好地保护自己的版权,许多网站开始在其网页上添加版权声明。本文将探讨在网站上添加版权声明的重…

PageHelper分页查询时,count()查询记录总数与实际返回的数据数量不一致

目录 场景简介代码判断异常情况排查原因解决 场景简介 1、使用PageHelper进行分页查询 2、最终构建PageInfo对象时,total与实际数据量不符 代码判断 异常情况 排查 通过对比count()查询的SQL与查询记录的SQL,发现是PageHelper分页查询时省去了order b…

Object类——toString方法和equals方法

前言: 在java中,所有类都是有继承关系存在的,都默认继承Object类。当一个类继承了其他父类,它并不会直接继承Object类,但是它的父类若是没有其他继承关系也会默认继承Object类,子类也可以继续调用Object类…

无线麦克风哪个品牌音质最好,揭示麦克风什么牌子的音质效果好!

​随着科技的不断发展,无线领夹麦克风已经成为现代演讲、演出和采访中不可或缺的工具。这种小巧便携的设备,能够让我们摆脱线缆的束缚,自由地在舞台上或讲台上移动,同时保持声音的清晰和稳定。在这篇文章中,我们将介绍…

基于Ubuntu的Bash脚本实现SystemUI的编译真机验证

使用场景描述 当开发SystemUI的时候,开发完一个需求后需要到真机上验证,虽然SystemUI模块开发最后的产物也是APK,但是这个APK 却不能单独安装查看效果,因为SystemUI是系统级别的应用,需要放置到系统指定的目录下。这时…

牛客热题:最小的k个数

📟作者主页:慢热的陕西人 🌴专栏链接:力扣刷题日记 📣欢迎各位大佬👍点赞🔥关注🚓收藏,🍉留言 文章目录 牛客热题:最小的k个数题目链接方法一&…

三轴加速度计M-A352AD实现实时的动态监测

地震监测设备如何快速监测到地震波的发生?如何快速地将地震信号传输到系统或设备上,让人快速做出相应对策?如何在恶劣的环境下,仍能保持稳定可靠的监测?其核心之一就是采用了传感器技术和相关设备,我们可以在地震易发生区域或重点观察的区…

人大金仓 KingBase查询死锁,释放死锁

人大金仓(kingbase)查询数据库死锁及释放 kingbase锁表排查以及释放锁 总结下 -- 查询,可自己添加where条件 SELECT * FROM sys_stat_activity WHERE state ! idle AND wait_event_typeLock-- 结束进程 SELECT sys_terminate_backend(pid);

学习Java的日子 Day49 函数,DOM

Day48 1.流程控制语句 if else for for-in(遍历数组时,跟Java是否一样) While do while break 语句用于跳出循环 continue 用于跳过循环中的一个迭代 2.函数 2.1 JavaScript 函数语法 函数就是包裹在花括号中的代码块,前面使用了关键词 function funct…

【NumPy】关于numpy.subtract()函数,看这一篇文章就够了

🧑 博主简介:阿里巴巴嵌入式技术专家,深耕嵌入式人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向…