西瓜书读书笔记整理(五)—— 第四章 决策树

news2024/11/24 14:00:12

第四章 决策树

    • 4.1 基本流程
      • 4.1.1 什么是决策树算法
      • 4.1.2 决策树学习的目的
      • 4.1.3 决策树学习基本过程
      • 4.1.4 决策树学习基本算法
      • 4.1.5 递归结束的三种情况
    • 4.2 划分选择
      • 4.2.1 信息增益(information gain)—— ID3 决策树学习算法属性划分准则
      • 4.2.2 信息增益率(information gain rate)—— C4.5 决策树学习算法属性划分准则
      • 4.2.3 基尼指数(Gini index)—— CART 决策树学习算法属性划分准则
    • 4.3 剪枝算法
      • 4.3.1 剪枝的目的
      • 4.3.2 预剪枝(prepuning)
      • 4.3.3 后剪枝(postpruning)
    • 4.4 连续与缺失值
      • 4.4.1 连续值处理
      • 4.4.2 缺失值处理
    • 4.5 多变量决策树
    • 4.6 总结

4.1 基本流程

4.1.1 什么是决策树算法

决策树算法 是一种通过构建 树形结构 进行分类和回归的机器学习算法。

4.1.2 决策树学习的目的

决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单且直观的 “分而治之”(divide-and-conquer)策略。

4.1.3 决策树学习基本过程

决策树学习的基本过程如下:

  1. 数据准备:首先,收集和准备用于训练的数据集,包含输入特征和对应的标签(类别或数值)。

  2. 特征选择:根据特征的不同属性(离散或连续),选择合适的特征选择方法来找到对分类或回归预测有最大信息增益、基尼系数或均方误差等的特征。这一步骤是决策树学习中最重要的一步。

  3. 数据划分:将数据集按照选定的特征划分为更小的子集。每个子集中的数据都具有相同的特征值,或者至少有类似的特征属性。

  4. 递归构建树:从根节点开始,对每个子集递归地进行特征选择和数据划分,直到满足某个终止条件。终止条件可以是:节点中的数据属于同一类别,节点中的数据样本数量小于某个阈值,或者达到了预先设定的树深度。

  5. 叶节点标记:在构建树的过程中,每个叶节点都对应着一个类别标签或回归数值,这些标签或数值由训练数据决定。

  6. 剪枝(可选):为了避免过拟合,可以对构建完成的决策树进行剪枝,即去掉一些分支,使得树的结构更简单,同时也可以提高泛化能力。

  7. 预测:使用构建好的决策树对新的输入数据进行预测。从根节点开始,根据输入数据的特征值逐步遍历决策树的分支,直到到达叶节点,然后输出叶节点的类别标签或回归数值作为预测结果。

  8. 模型评估:使用测试数据集来评估决策树的性能,通常使用准确率、召回率、F1 分数等指标来评估分类问题的性能,均方误差等指标来评估回归问题的性能。

4.1.4 决策树学习基本算法

原书第 74 页图 4.2

在这里插入图片描述

定义一个函数 TreeGenerate(D,A) 并且这是一个递归算法,因此算法伪代码最后将会重新调用本方法,直到所有的特种特征用尽为止。

面试常常问的可能是其中某一个环节、或者是大体概述整个过程。

4.1.5 递归结束的三种情况

  1. 当前结点包含的样本全属于同一类别,无需划分;
  2. 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;
  3. 当前结点包含的样本集合为空,无法划分。

4.2 划分选择

如何选择最优划分属性 (选择属性问题)

4.2.1 信息增益(information gain)—— ID3 决策树学习算法属性划分准则

“信息熵” (information entropy)是度量样本集合纯度最常用的一种指标。

假定当前样本集合 D D D 中第 k k k 类样本所占的比例为 p k ( k = 1 , 2 , . . . , ∣ Y ∣ ) p_k(k=1,2,...,|\mathcal{Y}|) pk(k=1,2,...,Y),则 D D D 的信息熵定义为

Ent ⁡ ( D ) = − ∑ k = 1 ∣ Y ∣ p k log ⁡ 2 p k . (4.1) \operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_k \log _2 p_k. \tag{4.1} Ent(D)=k=1Ypklog2pk.(4.1)

Ent ⁡ ( D ) \operatorname{Ent}(D) Ent(D) 的值越小,则 D D D 的纯度越高。

假设离散属性 a a a V V V 个可能的取值 { a 1 , a 2 , . . . , a V } \{a^1, a^2, ...,a^V\} {a1,a2,...,aV},若使用 a a a 对样本集 D D D 进行划分,则会产生 V V V 个分支结点,其中第 v v v 个分支结点包含了 D D D 中所有在属性 a a a 上取值为 a v a^v av 的样本,记作 D v D^v Dv。我们可根据式 ( 4.1 ) (4.1) (4.1) 计算出 D v D^v Dv 的信息熵,再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重 ∣ D v ∣ / ∣ D ∣ |D^v|/|D| Dv∣/∣D,即样本数越多的分支结点的影响越大,于是可计算出用属性 a a a 对样本集 D D D 进行划分所获得的 “信息增益” (information gain)

Gain ⁡ ( D , a ) = Ent ⁡ ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ Ent ⁡ ( D v ) (4.2) \operatorname{Gain}(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^V \frac{\left|D^v\right|}{|D|} \operatorname{Ent}\left(D^v\right) \tag{4.2} Gain(D,a)=Ent(D)v=1VDDvEnt(Dv)(4.2)

一般而言,信息增益越大,则意味着使用属性 a a a 进行划分所获得的 “纯度提升” 越大。因此,我们用信息增益来进行决策树的划分属性选择。著名的 ID3 决策树学习算法就是以信息增益为准则来选择划分属性。

4.2.2 信息增益率(information gain rate)—— C4.5 决策树学习算法属性划分准则

实际上,信息增益准则对可取值数目较多的属性有所偏好 ,为了减少这种偏好可能带来的不利影响,著名的 C4.5 决策树算法不直接使用信息增益,而使用 “增益率(gain rate)” 来选择最优划分属性。

Gain_ratio ⁡ ( D , a ) = Gain ⁡ ( D , a ) IV ⁡ ( a ) (4.3) \operatorname{Gain\_ ratio}(D, a)=\frac{\operatorname{Gain}(D, a)}{\operatorname{IV}(a)} \tag{4.3} Gain_ratio(D,a)=IV(a)Gain(D,a)(4.3)

其中,

IV ⁡ ( a ) = − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ log ⁡ 2 ∣ D v ∣ ∣ D ∣ (4.4) \operatorname{IV}(a)=-\sum_{v=1}^V \frac{\left|D^v\right|}{|D|} \log _2 \frac{\left|D^v\right|}{|D|} \tag{4.4} IV(a)=v=1VDDvlog2DDv(4.4)

称为属性 a a a 的 “固有值” (intrinsic value)。属性 a a a 的可能性取值数目越多(即 V V V 越大),则 I V ( a ) IV(a) IV(a) 的值通常会越大。

需注意的是,增益率准则对可取值数目较少的属性有所偏好,因此,C4.5 算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

4.2.3 基尼指数(Gini index)—— CART 决策树学习算法属性划分准则

CART 决策树使用 “基尼系数” 来选择划分属性。

Gini ⁡ ( D ) = ∑ k = 1 ∣ Y ∣ ∑ k ′ ≠ k p k p k ′ = 1 − ∑ k = 1 ∣ Y ∣ p k 2 . (4.5) \begin{aligned} \operatorname{Gini}(D) & =\sum_{k=1}^{|\mathcal{Y}|} \sum_{k^{\prime} \neq k} p_k p_{k^{\prime}} \\ & =1-\sum_{k=1}^{|\mathcal{Y}|} p_k^2 . \end{aligned} \tag{4.5} Gini(D)=k=1Yk=kpkpk=1k=1Ypk2.(4.5)

直观来说, G i n i ( D ) Gini(D) Gini(D) 反映了从数据集 D D D 中随机选取两个样本,其类别标记不一致的概率。因此, G i n i ( D ) Gini(D) Gini(D) 越小,则数据集 D D D 的纯度越高。

属性 a a a 的基尼指数定义为:

Gini_index ⁡ ( D , a ) = ∑ v = 1 V ∣ D v ∣ ∣ D ∣ Gini ⁡ ( D v ) (4.6) \operatorname{Gini\_ index}(D, a)=\sum_{v=1}^V \frac{\left|D^v\right|}{|D|} \operatorname{Gini}\left(D^v\right) \tag{4.6} Gini_index(D,a)=v=1VDDvGini(Dv)(4.6)

于是,我们在候选属性集 A A A 中,选择那个使得划分后基尼指数最小的属性作为最优划分属性,即 a ∗ = arg min ⁡ a ∈ A Gini_index ⁡ ( D , a ) a_*=\underset{a \in A}\argmin \operatorname{Gini\_index}(D, a) a=aAargminGini_index(D,a)

4.3 剪枝算法

人类的局限性导致人类在解决一个问题的同时,往往会制造新的问题。

4.3.1 剪枝的目的

剪枝(pruning)是决策树学习算法对付 “过拟合” 的主要手段。

4.3.2 预剪枝(prepuning)

预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。

4.3.3 后剪枝(postpruning)

后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上对非叶子结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。

4.4 连续与缺失值

4.4.1 连续值处理

决策树通常通过二分法来处理连续值特征。在构建决策树的过程中,对于连续值特征,需要选择一个阈值来将其划分为两个子集。以下是处理连续值特征的一般步骤:

  1. 特征选择:从所有特征中选择一个连续值特征作为当前节点的划分依据。通常,使用特征选择方法(例如信息增益、信息增益比、基尼系数等)来选择最优的特征。

  2. 阈值选择:对于选定的连续值特征,选择一个合适的阈值来将其划分为两个子集。通常的做法是遍历所有可能的阈值,并选择使得划分后的子集使得目标函数最优的阈值。

  3. 样本划分:使用选择的阈值,将训练数据中的连续值特征划分为两个子集,一个子集包含小于等于阈值的样本,另一个子集包含大于阈值的样本。

  4. 递归构建:对于每个子集,递归地重复步骤1至步骤3,直到满足停止条件(例如达到预定深度、样本数量少于阈值等)。

  5. 叶节点标签确定:对于每个划分后的子集,决定叶节点的标签。在分类问题中,通常选择子集中最频繁出现的类别作为叶节点的标签。在回归问题中,可以选择子集中样本标签的平均值作为叶节点标签。

需要注意的是,决策树的构建过程中,连续值特征的选择和阈值的确定是至关重要的,直接影响到决策树的性能和泛化能力。因此,对于连续值特征,特征选择和阈值的选择是决策树算法中的重要环节。在实际应用中,可以使用不同的特征选择方法和阈值搜索策略,或者采用其他预处理技术(如离散化)来更好地处理连续值特征。

4.4.2 缺失值处理

决策树在处理缺失值时有几种常见的策略:

  1. 缺失值剔除:最简单的方法是直接删除带有缺失值的样本。这样做可以简化问题,但可能会导致数据的信息损失,特别是当缺失值的数量较大时。

  2. 缺失值填充:另一种常见的方法是填充缺失值,使得样本在该特征上具有有效的值。填充方法可以采用均值、中位数、众数等简单的统计量,或者使用其他预测模型来估计缺失值。

  3. 缺失值作为单独类别:对于分类问题,可以将缺失值视为一个单独的类别,让决策树根据数据的其他特征来判断样本是否属于缺失值类别。

  4. 缺失值分支:在决策树的构建过程中,如果遇到某个样本在某个特征上缺失值,可以考虑将其划分到不同的分支中。这样,在测试时,如果样本的该特征缺失,就可以根据不同分支的情况来进行预测。

  5. 缺失值处理算法:一些特定的决策树算法或扩展版本(如XGBoost)具有内置的缺失值处理能力,可以自动处理缺失值并在构建树时考虑缺失值的影响。

需要根据具体情况选择合适的缺失值处理方法。对于某些数据集,直接删除缺失值可能是合理的选择,而在其他情况下,填充缺失值或将其视为独立类别可能更为适用。重要的是在处理缺失值时要注意不引入额外的偏见或错误,并考虑缺失值对模型性能的影响。

4.5 多变量决策树

多变量决策树(Multivariate Decision Trees)是对传统决策树算法的一种扩展,旨在处理多个特征之间的相互作用和关联。传统的决策树算法(如ID3、C4.5、CART)每次只考虑一个特征来进行划分,因此可能无法充分捕捉多个特征之间的复杂关系。

多变量决策树通过同时考虑多个特征来进行划分,以更好地建模多个特征之间的交互作用。在构建每个节点的决策条件时,它会考虑多个特征的联合情况,而不仅仅是单个特征的划分。这样可以更好地处理特征之间的相关性和非线性关系,提高模型的表现和泛化能力。

多变量决策树的构建过程相对复杂,需要考虑更多的特征组合和划分方式。通常,多变量决策树的构建过程可以通过以下几种方法来实现:

  1. 多变量划分准则:传统决策树使用单变量划分准则(如信息增益、基尼系数)来选择最优划分特征。而多变量决策树可以使用多变量划分准则来选择多个特征的组合作为划分依据。

  2. 贪心算法:多变量决策树的构建可以采用贪心算法,每次选择能够最大程度提升整体模型性能的多变量划分。

  3. 剪枝策略:在多变量决策树的构建过程中,为了防止过拟合,可以采用剪枝策略来简化模型。

  4. 集成学习:多变量决策树也可以与集成学习方法(如随机森林、梯度提升树)相结合,进一步提高模型的性能。

需要注意的是,多变量决策树的构建和优化相对复杂,可能需要更多的计算资源和时间。在实际应用中,根据数据集的大小和复杂性,需要权衡不同决策树算法的优势和劣势,选择合适的方法来构建和训练多变量决策树模型。

4.6 总结

决策树算法是一种非常经典、可解释性强的算法,值得好好学习,并把这个作为其他更加复杂、更加高效的算法的学习基础。

Smileyan
2023.08.06 21:54

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/846695.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在工作中使用ChatGPT需要担心泄密问题吗?

​OpenAI的ChatGPT可以通过自动简化繁琐的任务,针对挑战性问题的提供创造性的解决方案来提高员工的生产力。但随着这项技术被整合到人力资源平台和其他工作场所中,它给各个企业带来了巨大的挑战。苹果、Spotify、Verizon和三星等大公司已禁止或限制员工在…

【网络基础实战之路】基于OSPF协议建立两个MGRE网络的实验详解

系列文章传送门: 【网络基础实战之路】设计网络划分的实战详解 【网络基础实战之路】一文弄懂TCP的三次握手与四次断开 【网络基础实战之路】基于MGRE多点协议的实战详解 【网络基础实战之路】基于OSPF协议建立两个MGRE网络的实验详解 PS:本要求基于…

问道管理:布林线选股绝招?

布林线是一种由布林格尔夫提出的股票技术目标,常用于剖析股票价格动摇的趋势和动摇幅度。许多股票投资者和剖析师都广泛使用布林线来找到或许获利的股票。在本文中,我们将从多个角度剖析布林线选股的绝技。 首要,了解布林线是什么。布林线由中…

objectMapper.getTypeFactory().constructParametricType 方法的作用和使用

在使用 Jackson 库进行 JSON 数据的序列化和反序列化时,经常会使用到 ObjectMapper 类。其中,objectMapper.getTypeFactory().constructParametricType 方法用于构造泛型类型。 具体作用和使用如下: 作用: 构造泛型类型&#x…

PDF文件太大怎么办?快来试试这个方法

在办公中,我们常常面临着发送文件时遇到的各种难题,例如文件格式不支持、文件太大无法发送、发送速度过慢等,这些问题严重影响了我们的办公效率。但是这些难题并非没有解决办法,比如当我们遇到PDF文件太大的情况时,我们…

2023世界机器人大会新闻发布会召开,我国机器人产业持续释放活力

原创 | 文 BFT机器人 01 高端机器人市场被国外厂商长期占据,中国的国产替代和创新迫在眉睫。 8月2日在北京召开了2023年世界机器人大会新闻发布会。2023年世界机器人大会将于8月16日至22日在北京举行,大会也将围绕机器人场景应用和产业链协同&#xff0…

在Ruoyi中采用Ajax动态生成Echarts图表实践

前言 在之前博文中,我们讲解了如何使用java在后台进行Echarts的图表生成组件,博文如下: 序号 博客连接1一款基于JAVA开发的Echarts后台生成框架2Ruoyi单体项目与Echarts4.2.1地图集成时的思路及解决办法3解决Ruoyi单体版本集成Echarts多图表时…

OpenSource - 分布式重试平台

文章目录 概述重试方案对比设计思想流量管理平台预览场景应用强通知场景发送MQ场景回调场景异步场景 概述 在当前广泛流行的分布式系统中,确保系统数据的一致性和正确性是一项重大挑战。为了解决分布式事务问题,涌现了许多理论和业务实践,其…

Idea全局搜索(ctrl+shift+F),搜索不全问题

今天idea突然出现,全局搜索,命名html文件中有这个字符,但是全局搜索居然匹配内容是空。。。。而且全局搜索界面也设置好了 经查发现是缓存问题,于是: 清空缓存后发现全局搜索功能可正常使用...

9.1网络通信基础

一.基础概念: 1)IP地址:描述网络上的一个设备所在的位置. 2)端口号(port):区分一个主机上不同的进程,和pid一样的作用,但两者不同. 3)协议:网络通信传输数据的含义,协议表示一种约定,这种约定可以是任意的.协议分层之后,上层不需要知道下层协议的细节,可以灵活地调整,替换某…

数字电路基础(MOS管)

1.PMOS和NMOS MOS晶体管的物理结构如下,由衬底和注入粒子的材质不同分为PMOS和NMOS。 2.CMOS CMOS由PMOS和NMOS组成,是一个反相器,其电路图如下所示。当In为1时,PMOS断开,NMOS导通,Out输出为0;…

探索ES高可用:滴滴自研跨数据中心复制技术详解

Elasticsearch 是一个基于Lucene构建的开源、分布式、RESTful接口的全文搜索引擎,其每个字段均可被索引,且能够横向扩展至数以百计的服务器存储以及处理TB级的数据,其可以在极短的时间内存储、搜索和分析大量的数据。 滴滴ES发展至今&#xf…

Python实战之使用Python进行数据挖掘详解

一、Python数据挖掘 1.1 数据挖掘是什么? 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过算法,找出其中的规律、知识、信息的过程。Python作为一门广泛应用的编程语言,拥有丰富的数据挖掘库&#…

Java课题笔记~ AOP 概述

AOP 简介 AOP(Aspect Orient Programming)面向切面编程。 面向切面编程是从动态角度考虑程序运行过程。 AOP的底层,就是采用动态代理的方式实现的。 采用了两种代理:JDK动态代理、CGLIB动态代理。 JDK动态代理:使…

ElasticSearch 7.4学习记录(基础概念和基础操作)

若你之前从未了解过ES,本文将由浅入深的一步步带你理解ES,简单使用ES。作者本人就是此状态,通过学习和梳理,产出本文,已对ES有个全面的了解和想法,不仅将知识点梳理,也涉及到自己的理解&#xf…

聊聊springcloud如何与k8s configMap整合实现配置动态刷新

前言 配置中心在微服务的服务治理场景基本上是属于标配,常见可以用来做配置中心有nacos、apollo、zookeeper、springcloud config、consul、etcd、redis、disconf、dimond、xxl-conf等。这些组件的特点都是需要安装,如果大家的部署环境中有用到k8s&…

创意项目管理软件推荐:满足客户需求的完美解决方案

发现功能强大的工作管理软件,让创意大放异彩。将您团队的愿景变成引人注目的项目。 一、交付总是令人印象深刻的工作 Zoho Projects的创意项目管理软件可帮助您和您的团队在一个地方监督多个项目。使用我们的内置管理工具和模板,花更少的时间在管理上&a…

Verilator仿真环境搭建

Verilator简介与使用_Hwang_shuo的博客-CSDN博客 Verilator是一种开源的Verilog/SystemVerilog仿真器,可用于编译代码以及代码在线检查,Verilator能够读取Verilog或者SystemVerilog文件,并进行lint checks(基于lint工具的语法检测)&#xff…

第六章:Linux基础IO

系列文章目录 文章目录 系列文章目录前言打开文件预备知识回顾C文件IO操作C语言I/O库函数fopen/fcloseperrorfwrite/freadfgets/fputsprintf/fprintf/sprintf/snprintfstdin/stdout/stderr 标志位系统调用IO接口open/closeumaskwrite/read lseek库函数IO操作与系统调用IO操作比…