决策树 | 分裂算法:ID3,C4.5,CART

news2024/11/16 23:39:01

这里写目录标题

  • 一. ID3算法
    • 1. 信息增益
    • 2. ID3算法特点
  • 二. C4.5算法
    • 1. 信息增益率
    • 2. C4.5算法特点
  • 三. CART算法
    • 1. Gini系数公式
    • 2. CART算法特点
    • 3. CART回归树的分裂评价指标
  • 小节

决策树算法逻辑篇中,我们讲解了决策树的构建方式,下面我们来聊一聊决策树中常用的三个算法

一. ID3算法

1. 信息增益

ID3算法是构造决策树的一个经典算法

	使用信息熵以及信息增益来进行构建
	每次迭代选择信息增益最大的特征属性作为分割属性

2. ID3算法特点

  1. ID3算法只支持离散的特征属性,不支持连续的特征属性
  2. 若想处理连续的特征属性,要先对连续值进行离散化处理
  3. ID3算法构建的是多叉树,不保证二叉树

详细过程参考决策树算法逻辑篇中的银行示例

二. C4.5算法

对于ID3算法以信息增益为划分的标准,可以发现存在这样一种极端:

当收入按照60,80,87.5,95划分为五叉树时,可以直接得到熵为0的五个叶子节点,且此时系统的信息增益最大

此方案进行划分时,只需一次分裂就可以建好决策树

但是,显然上述这种情况下的划分并不合理;为了解决信息增益划分时的不合理情况,我们引入信息增益率的概念

1. 信息增益率

C4.5算法

	使用信息增益率来进行构建
	每次迭代选择信息增益率最大的特征属性作为分割属性

G a i n − r a t i o ( D , a ) = G a i n ( D , a ) I V ( a ) Gain-ratio(D,a) = \frac{Gain(D,a)}{IV(a)} Gainratio(D,a)=IV(a)Gain(D,a)

G a i n ( D , a ) Gain(D,a) Gain(D,a):信息增益
I V ( a ) IV(a) IV(a):属性a的固有值

I V ( a ) = − ∑ v = 1 v ∣ D v ∣ ∣ D ∣ log ⁡ 2 ∣ D v ∣ ∣ D ∣ IV(a) = -\sum_{v=1}^{v}\frac{|D^{v}|}{|D|}\log_{2}{\frac{|D^{v}|}{|D|}} IV(a)=v=1vDDvlog2DDv
例子:
房子样本4个是,6个否
I V ( 房产 ) = − 4 10 log ⁡ 2 4 10 − 6 10 log ⁡ 2 6 10 = 3.747 IV(房产) = -\frac{4}{10}\log_{2}{\frac{4}{10}} -\frac{6}{10}\log_{2}{\frac{6}{10}}=3.747 IV(房产)=104log2104106log2106=3.747
婚姻样本4个单身,3个已婚,3个离婚
I V ( 婚姻 ) = − 4 10 log ⁡ 2 4 10 − 3 10 log ⁡ 2 3 10 − 3 10 log ⁡ 2 3 10 = 4.003 IV(婚姻) = -\frac{4}{10}\log_{2}{\frac{4}{10}} -\frac{3}{10}\log_{2}{\frac{3}{10}}-\frac{3}{10}\log_{2}{\frac{3}{10}}=4.003 IV(婚姻)=104log2104103log2103103log2103=4.003

2. C4.5算法特点

	C4.5算法以信息增益率为划分标准
		有效避免了叉越多,信息增益越大的影响
	
	结合上面的公式分析,我们可以得出:
		树分支越多,IV(a)固有属性越大,信息增益率也就相对越小
  1. 在树的构造过程中会进行剪枝操作进行优化
  2. 能够自动完成对连续属性的离散化处理
  3. C4.5构建的是多分支的决策树

三. CART算法

1. Gini系数公式

CART算法

	采用Gini系数来衡量划分的有效性

G i n i = ∑ i = 1 n [ p i ∗ ( 1 − p i ) ] = 1 − ∑ i = 1 n p i 2 Gini = \sum_{i=1}^{n}[p_{i}*(1-p_{i})] =1-\sum_{i=1}^{n}p_{i}^{2} Gini=i=1n[pi(1pi)]=1i=1npi2

2. CART算法特点

  1. 选择gini增益最大的属性作为当前数据集的分割属性
  2. 可用于分类和回归两类问题
  3. CART构建是二叉树

3. CART回归树的分裂评价指标

MSE均方误差划分指标:

	样本越集中,值越小,划分越好

M S E = 1 n ∑ i = 1 n ( y i − y ˉ i ) 2 MSE=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\bar{y}_{i})^{2} MSE=n1i=1n(yiyˉi)2

MAE绝对误差划分指标:
M A E = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ MAE=\frac{1}{n}\sum_{i=1}^{n}|y_{i}-\hat{y}_{i}| MAE=n1i=1nyiy^i

小节

  • ID3,C4.5,CART三种算法适用在小规模数据集上,即内存要能装得下

  • ID3,C4.5,CART采用单变量决策树

      	单变量的决策树:每次分裂时只选择了一个特征进行分裂
      		实际现实任务时每次只选择一个特征进行分裂效果并不好
      		因此我们希望一次分裂时综合考虑好几个特征,组合成一个综合条件,但此时模型会相对复杂,计算量大
    
  • 一般采用CART算法构造树,ID3和C4.5算法在sklearn库中没有真正实现

  • 回归树中,叶子节点的预测值一般为叶子节点中所有值的均值

  • 分类树中,叶子节点的预测值一般为叶子节点中概率最大的类别

在这里插入图片描述
注意:三种算法的主要区别在于划分指标不同
      本质区别在于是否为二叉树

	也就说,CART算法的划分指标当然也可以选用信息增益率来划分
	只要明确构建的树为二叉树,那么关于ID3存在的问题和C4.5想要解决的问题也就不存在了

感谢阅读🌼
如果喜欢这篇文章,记得点赞👍和转发🔄哦!
有任何想法或问题,欢迎留言交流💬,我们下次见!
本文相关代码存放位置
    【[决策树 基于鸢尾花数据集的分类]

祝愉快🌟!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1517209.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

边缘计算全面概述

什么是边缘计算? 边缘计算是一种分布式计算概念,将智能集成到边缘设备(边缘节点)中,使数据能够在数据采集源附近实时处理和分析。由于边缘计算在网络边缘本地处理数据,而不是在云端或集中式数据中心&#…

脑电信号处理的学习记录

【脑电信号处理与特征提取】https://www.bilibili.com/video/BV1Sg411775g?p6&vd_source77fb52274de00164fa71d28e4ce52cc5 滤波:对特定频率进行有效提取,并对提取部分进行特定的处理(增益、衰减、滤除)。 低通滤波&#x…

电商场景下 ES 搜索引擎的稳定性治理实践

继上文在完成了第一阶段 ES 搜索引擎的搭建后,已经能够实现对千万级别的商品索引的读写请求的支持。目前,单机房读流量在 500~1000 QPS 之间,写流量在 500 QPS 左右。 但随着业务的发展,问题也逐渐开始暴露&#xff0…

Python Web开发记录 Day9:Django part3 用户管理

名人说:莫道桑榆晚,为霞尚满天。——刘禹锡(刘梦得,诗豪) 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 1、数据库准备2、用户列表3、新建用户4、编辑用…

Linux之shell变量

华子目录 什么是变量?变量的名称示例 变量的类型变量的定义示例 自定义变量查看变量(自定义变量和全局变量) 环境变量定义环境变量(全局变量)法一法二法三env,printenv,export注意 C语言与shell…

计算机网络(001-1)

计算机网络-方老师 总时长 24:45:00 共50个视频,6个模块 此文章包含1.1到1.4的内容 简介 1.1计算机网络的作用 三网融合(三网合一) 模拟信号就是连续信号 数字信号是离散信号 1.2互联网概述 以前2兆带宽就要98 现在几百兆带宽也就几百块 …

Ajax学习笔记(一):原生AJAX、HTTP协议、AJAX案例准备工作、发送AJAX请求、AJAX 请求状态

目录 一、原生AJAX 1.1AJAX 简介 1.2 XML 简介 1.3 AJAX的特点 二、HTTP协议 三、AJAX案例准备工作 四、发送AJAX请求 1.发送GET请求 2.发送POST请求 3.JSON响应 IE缓存问题: 五、AJAX 请求状态 一、原生AJAX 1.1AJAX 简介 AJAX 全称为 Asynchronous …

Java基础-泛型

泛型 基本概念为什么我们需要泛型泛型类型泛型类简单泛型类多元泛型类 泛型接口泛型方法为什么要使用泛型方法呢?使用方法 泛型的上下限上限下限加点难度的例子例子一例子二例子三 深入理解泛型什么是泛型擦除后保留的原始类型泛型类型擦除原则如何进行擦除的?怎么证明存在类…

腾讯云轻量服务器地域选择教程以及不同地域的区别

腾讯云服务器地域怎么选择?不同地域之间有什么区别?腾讯云哪个地域好?地域选择遵循就近原则,访客距离地域越近网络延迟越低,速度越快。腾讯云百科txybk.com告诉大家关于地域的选择还有很多因素,地域节点选择…

WPF —— TabControl、StackPanel 控件详解

1 TabControl简介 表示包含多个项的控件,这些项共享屏幕上的同一空间。 TabControl有助于最大程度地减少屏幕空间使用量,同时允许应用程序公开大量数据。 TabControl包含共享同一屏幕空间的多个 TabItem 对象。一次只能看到 TabControl 中的一个 Ta…

Oracle登录错误ERROR: ORA-01031: insufficient privileges解决办法

这个问题困扰了我三个星期,我在网上找的解决办法: 1.控制面板->管理工具->计算机管理->系统工具->本地用户和组->ORA_DBA组。 但我电脑上根本找不到。 2.在oracle安装目录下找到oradba.exe运行。 最开始我都不到这个oradba.exe文件在哪…

数字生活的未来:探索Web3的全新世界

随着科技的飞速发展,我们正迈向一个数字化的未来。而在这个数字化的时代,Web3技术的崛起正引领着我们进入一个全新的世界。本文将深入探讨Web3技术的特点以及它给我们带来的全新体验。 1. 去中心化的特点 Web3的去中心化是其最显著的特点之一&#xff0…

设置jmeter默认语言为中文

问题描述 通过面板上面的选项修改语言(如下图),每次运行程序都需要重新再设置一遍,我需要每次打开都是中文界面 解决方案 进入jmeter的文件目录 bin——> jmeter.properties 打开这个文件 搜索Preferred GUI language在下方添…

linux环境基础开发工具1(vim 、 yum)

目录 前言 Linux编辑器-vim使用 Linux 软件包管理器 yum 前言 集成开发环境(IDE,Integrated Development Environment )是用于提供程序开发环境的应用程序,一般包括代码编辑器、编译器、调试器和图形用户界面等工具。集成了代码…

如何利用百度SEO优化技巧将排到首页

拥有一个成功的网站对于企业和个人来说是至关重要的,在当今数字化的时代。在互联网上获得高流量和优质的访问者可能并不是一件容易的事情,然而。一个成功的SEO战略可以帮助你实现这一目标。需要一些特定的技巧和策略、但要在百度搜索引擎中获得较高排名。…

爬虫3_爬取翻页URL不变的网站

之前实现了对大学排数据爬取:爬虫2_2019年549所中国大学排名. 近期复现代码,发现原网站升级,在翻页时,发现URL不改变,修改代码,使用网页自动化工具selenium实现对该类网站数据获取。 #-*- coding: UTF-8 -…

hadoop伪分布式环境搭建详解

(操作系统是centos7) 1.更改主机名,设置与ip 的映射关系 hostname //查看主机名 vim /etc/hostname //将里面的主机名更改为master vim /etc/hosts //将127.0.0.1后面的主机名更改为master,在后面加入一行IP地址与主机名之间的…

数字排列 - 华为OD统一考试(C卷)

OD统一考试(C卷) 分值: 200分 题解: Java / Python / C 题目描述 小明负责公司年会,想出一个趣味游戏: 屏幕给出 1−9 中任意 4 个不重复的数字,大家以最快时间给出这几个数字可拼成的数字从小到大排列位于第 n 位置…

稀碎从零算法笔记Day17-LeetCode:有效的括号

题型:栈 链接:20. 有效的括号 - 力扣(LeetCode) 来源:LeetCode 题目描述(红字为笔者添加) 给定一个只包括 (,),{,},[,] 的字符串 …

CentOS无法解析部分网站(域名)

我正在安装helm软件,参考官方文档,要求下载 get-helm-3 这个文件。 但是我执行该条命令后,报错 连接被拒绝: curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 # curl: (7) Fai…