分类算法——决策树 详解

news2024/11/4 23:56:23

决策树的底层原理

        决策树是一种常用的分类和回归算法,其基本原理是通过一系列的简单决策,将数据集划分为多个子集,从而实现分类。决策树的核心思想是通过树形结构表示决策过程,节点代表特征,边代表决策,叶子节点代表类别。

        下面是一个决策树例子(用挑选好西瓜来举例,最终结果为判断是好瓜还是坏瓜):

1. 决策树的基本结构
  • 根节点:表示整个数据集。
  • 内部节点:表示根据某一特征进行的决策。
  • 叶子节点:表示最终的分类结果或回归值。

决策树的构建

        决策树的构建过程通常采用递归的方式,核心步骤包括特征选择、数据划分和停止条件。

2. 特征选择

在每个节点上,需要选择一个特征来划分数据集,常用的特征选择标准包括:

  • 信息增益:基于香农信息论,信息增益是划分前后信息的不确定性减少量。公式为:

    IG(D,A)=H(D)-\sum_{v\in A}^{} \frac{\left | D_{v} \right |}{\left | D \right |}H(D_{v})

    其中,H(D) 为数据集 D 的熵,D_{v}​ 为特征 A 取值为 v 的子集。

  • 信息增益率:为了解决信息增益偏向于选择取值较多的特征的问题,信息增益率在信息增益的基础上进行归一化:

    GainRatio(D,A)= \frac{IG(D,A)}{H(A)}

  • 基尼指数:主要用于 CART(Classification and Regression Trees)算法,计算某个特征的基尼指数,公式为:

    Gini(D)=1-\sum_{i=1}^{C}p_{i}^{2}

    其中,p_{i}​ 为类 i 在数据集 D 中的比例。

3. 数据划分

        根据选择的特征,将数据集划分为多个子集。对于连续特征,通常会选取一个阈值,将数据集分为小于阈值和大于阈值两部分;对于分类特征,则根据每个取值进行划分。

4. 停止条件

决策树的构建过程需要设定停止条件,常见的条件包括:

  • 达到最大深度。
  • 节点样本数低于某一阈值。
  • 信息增益或基尼指数的减少低于某一阈值。

决策树的剪枝

为了解决过拟合问题,决策树通常会进行剪枝,分为预剪枝和后剪枝:

  • 预剪枝:在树的构建过程中,实时评估当前分裂的效果,决定是否继续分裂。
  • 后剪枝:先构建完整的树,再从叶子节点向上进行剪枝,去掉一些不必要的分支。

决策树的算法

决策树的构建算法主要有 ID3、C4.5、CART 等。

  • ID3:使用信息增益作为特征选择的标准,适用于分类任务。
  • C4.5:改进了 ID3,使用信息增益率作为标准,支持连续特征和缺失值。
  • CART:使用基尼指数进行特征选择,支持分类和回归任务。

决策树的优缺点

优点:
  1. 直观易懂:决策树模型易于理解和可视化。
  2. 无需特征缩放:对特征的缩放和归一化不敏感。
  3. 适用性广:可以处理分类和回归问题,且对数据类型没有强要求。
缺点:
  1. 过拟合:决策树容易在训练数据上过拟合,尤其是深度较大的树。
  2. 不稳定性:对训练数据的微小变化敏感,可能导致树的结构有较大差异。
  3. 偏向于某些特征:使用信息增益时,可能偏向于选择取值较多的特征。

决策树的实现

在 Python 中,使用 scikit-learn 库可以非常方便地实现决策树。以下是一个基本的实现示例:

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import tree
import matplotlib.pyplot as plt

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建决策树模型
clf = DecisionTreeClassifier(criterion='gini', max_depth=3)
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 可视化决策树
plt.figure(figsize=(12, 8))
tree.plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()

决策树的应用

决策树广泛应用于金融、医疗、市场分析等多个领域,如:

  • 信用评分:评估客户的信用风险。
  • 医学诊断:帮助医生进行疾病预测和诊断。
  • 客户分类:根据客户特征进行市场细分。

总结

        决策树是一种强大的分类和回归模型,通过树形结构进行决策。其构建过程包括特征选择、数据划分、剪枝等步骤,易于理解和实现,但需注意过拟合和模型稳定性的问题。在实际应用中,可以根据具体场景选择合适的决策树算法和参数设置。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2232172.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python 使用进程池并发执行 SQL 语句

这段代码使用了 Python 的 multiprocessing 模块来实现真正的并行处理,绕过 Python 的全局解释器锁(GIL)限制,从而在多核 CPU 上并发执行多个 SQL 语句。 from pyhive import hive import multiprocessing# 建立连接 conn hive.…

[ 问题解决篇 ] win11中本地组策略编辑器gpedit.msc打不开(gpedit.msc缺失)

🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…

[Python学习日记-55] 软件开发目录设计规范

[Python学习日记-55] 软件开发目录设计规范 简介 为什么要设计好目录结构? 目录组织方式 关于 README 的内容 关于 setup.py 和 requirements.txt 关于配置文件的使用方法 简介 我们在浏览一些开源项目或者是一些安装后的软件的时候会发现,不同的两…

18.农产品销售系统(基于springboot和vue的Java项目)

目录 1.系统的受众说明 2.开发环境与技术 2.1 Java语言 2.2 MYSQL数据库 2.3 IDEA开发工具 2.4 Spring Boot框架 3.系统分析 3.1 可行性分析 3.1.1 技术可行性 3.1.2 经济可行性 3.1.3 操作可行性 3.2 系统流程 3.2.1 操作流程 3.2.2 登录流程 3.2.3 删除信…

嵌入式常用功能之通讯协议1--IIC

嵌入式常用功能之通讯协议1--串口 嵌入式常用功能之通讯协议1--IIC(本文) 嵌入式常用功能之通讯协议1--SPI 一、IIC总线协议介绍 Inter-Integrated Circuit(集成电路总线),是由 Philips 半导体公司(现在的 NXP 半导体…

一位纯理科生,跨界自学中医,自行组方治好胃病、颈椎病与高血脂症,并在最权威的中国中医药出版社出版壹本专业中医图书!

这是一位铁杆中医迷, 也是《神农本草经——精注易读本》的作者。 希望更多的人能够受到启发,感受中医之神奇,敢于跨界,爱好中医,学习中医! 一个病人以自己的切身感受与诊断,并使之汤药治愈疾病&…

java项目之个人博客系统的设计与实现(springboot)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的闲一品交易平台。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: springboot个人博客系统的…

使用 Sortable.js 库 实现 Vue3 elementPlus 的 el-table 拖拽排序

文章目录 实现效果Sortable.js介绍下载依赖添加类名导入sortablejs初始化拖拽实例拖拽完成后的处理总结 在开发过程中,我们经常需要处理表格数据,并为用户提供便捷的排序方式。特别是在需要管理长列表、分类数据或动态内容时,拖拽排序功能显得…

使用Kafka构建大规模消息传递系统

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 使用Kafka构建大规模消息传递系统 引言 Kafka 简介 安装 Kafka 创建主题 生产者 消费者 高级特性 分区 持久化 消费者组 消息确认…

队列(Queue)的介绍与实现

文章目录 队列队列的概念及结构 队列的实现初始化队列销毁队列队尾入队列队头出队列获取队列头部元素检测队列是否为空获取队列中有效元素个数 队列 队列的概念及结构 队列:只允许在一端进行插入数据操作,在另一端进行删除数据操作的特殊线性表。队列遵…

【大模型之Graph RAG系列之二】对比传统RAG技术中使用的向量搜索技术,知识图谱有哪些优缺点?

向量搜索和知识图谱是两项用于改善搜索体验的重要技术。结合这两种技术形成的Graph RAG可以进一步提高搜索的准确性和上下文相关性。本文将深入对比向量搜索和知识图谱,让读者快速了解这两种技术的原理及优缺点,以便于将来的技术决策。 向量搜索 向量搜…

电赛入门之软件stm32keil+cubemx

hal库可以帮我们一键生成许多基本配置,就不需要自己写了,用多了hal库就会发现原来用基本库的时候都过的什么苦日子(笑 下面我们以f103c8t6,也就是经典的最小核心板来演示 一、配置工程 首先来新建一个工程 这里我们配置rcc和sys&…

从“技术深耕”到“品牌绽放”,解码遨游通讯的高成长路径!

在粤港澳大湾区这片充满活力的土地上,科技创新正以前所未有的速度推动着各行各业的发展。在这样一个充满机遇与挑战的环境中,遨游通讯以其在危险作业场景和应急救援场景中提供的定制化智能终端解决方案,脱颖而出,成为危急特赛道的…

golang通用后台管理系统02(RSA加密解密,登录密码加密解密)

参考:https://blog.csdn.net/lady_killer9/article/details/118026802 1.加密解密工具类PasswordUtil.go package utilimport ("crypto/rand""crypto/rsa""crypto/x509""encoding/pem""fmt""log"&qu…

【HarmonyOS NEXT】在 HarmonyOS NEXT 中实现优雅的加载动画

【HarmonyOS NEXT】在 HarmonyOS NEXT 中实现优雅的加载动画 在移动应用开发中,加载动画是提升用户体验的重要工具。在应用程序处理数据或加载页面时,为用户提供视觉反馈尤为关键。在这篇博客中,我们将探讨如何在 HarmonyOS NEXT 中使用 Sta…

群控系统服务端开发模式-应用开发-菜单功能开发

为什么优先开发菜单,而不是优先开发管理员?查看一下程序草图就明白,还有一个重点就是,管理员需要添加图片,而我还没有封装上传工具及上传目标。 一、添加路由 在根目录下route文件夹下的app.php文件里面,添…

服务器新建用户

文章目录 前言一、步骤二、问题三、赋予管理员权限总结 前言 环境: 一、步骤 创建用户需要管理员权限sudo sudo useradd tang为用户设置密码 sudo passwd tang设置密码后,可以尝试使用 su 切换到 tang 用户,确保该用户可以正常使用&#…

AI产品独立开发变现实战营

亮点: 1、三大真实商业项目,商业盈利、AI产品开发综合能力提升 2、掌握一人公司、副业产品设计-开发-运营-盈利落地全流程 3、大牛私藏AI盈利工具倾囊相授 4、借势增加睡后收入,从容应对裁员大环境与年龄危机 大纲: 第1章 独立…

Spring Boot技术:校园社团信息管理的高效路径

5系统详细实现 5.1 管理员模块的实现 5.1.1 学生管理 校园社团信息管理系统的系统管理员可以管理学生,可以对学生信息修改删除以及查询操作。具体界面的展示如图5.1所示。 图5.1 学生信息管理界面 5.1.2 社长管理 系统管理员可以查看对社长信息进行修改&#xff0…

Python小游戏20——超级玛丽

首先,你需要确保你的Python环境中安装了pygame库。如果还没有安装,可以使用以下命令进行安装: bash pip install pygame 运行效果展示 代码展示 python import pygame import sys # 初始化pygame pygame.init() # 设置屏幕尺寸 screen_width …