决策树的划分依据之：信息增益率

news2026/2/12 17:26:30

在上面的介绍中，我们有意忽略了"编号"这一列.若把"编号"也作为一个候选划分属性，则根据信息增益公式可计算出它的信息增益为 0.9182，远大于其他候选划分属性。

计算每个属性的信息熵过程中,我们发现,该属性的值为0, 也就是其信息增益为0.9182. 但是很明显这么分类,最后出现的结果不具有泛化效果.无法对新样本进行有效预测.

实际上，信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，著名的 C4.5 决策树算法 [Quinlan， 1993J 不直接使用信息增益，而是使用"增益率" (gain ratio) 来选择最优划分属性.

增益率：增益率是用前面的信息增益Gain(D, a)和属性a对应的"固有值"(intrinsic value) [Quinlan , 1993J的比值来共同定义的。

在这里插入图片描述

属性 a 的可能取值数目越多(即 V 越大)，则 IV(a) 的值通常会越大.

案例一

a.计算类别信息熵

b.计算性别属性的信息熵(性别、活跃度)

c.计算活跃度的信息增益(性别、活跃度)

d.计算属性分裂信息度量

用分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息，我们把这些信息称为属性的内在信息(instrisic information)。信息增益率用信息增益/内在信息，会导致属性的重要性随着内在信息的增大而减小(也就是说，如果这个属性本身不确定性就很大，那我就越不倾向于选取它)，这样算是对单纯用信息增益有所补偿。

在这里插入图片描述

e.计算信息增益率

在这里插入图片描述

活跃度的信息增益率更高一些，所以在构建决策树的时候，优先选择

通过这种方式，在选取节点的过程中，我们可以降低取值较多的属性的选取偏好。

案例二

如下图，第一列为天气，第二列为温度，第三列为湿度，第四列为风速，最后一列该活动是否进行。

我们要解决：根据下面表格数据，判断在对应天气下，活动是否会进行?

在这里插入图片描述

该数据集有四个属性，属性集合A={ 天气，温度，湿度，风速}，类别标签有两个，类别集合L={进行，取消}。

a.计算类别信息熵

类别信息熵表示的是所有样本中各种类别出现的不确定性之和。根据熵的概念，熵越大，不确定性就越大，把事情搞清楚所需要的信息量就越多。

Ent(D)=−149log2149−145log2145=0.940

b.计算每个属性的信息熵

每个属性的信息熵相当于一种条件熵。他表示的是在某种属性的条件下，各种类别出现的不确定性之和。属性的信息熵越大，表示这个属性中拥有的样本类别越不“纯”。

在这里插入图片描述

c.计算信息增益

信息增益的 = 熵 - 条件熵，在这里就是类别信息熵 - 属性信息熵，它表示的是信息不确定性减少的程度。如果一个属性的信息增益越大，就表示用这个属性进行样本划分可以更好的减少划分后样本的不确定性，当然，选择该属性就可以更快更好地完成我们的分类目标。

信息增益就是ID3算法的特征选择指标。

加粗样式

e.计算信息增益率

天气的信息增益率最高，选择天气为分裂属性。发现分裂了之后，天气是“阴”的条件下，类别是”纯“的，所以把它定义为叶子节点，选择不“纯”的结点继续分裂。

在这里插入图片描述

在子结点当中重复过程1~5，直到所有的叶子结点足够"纯"。

现在我们来总结一下C4.5的算法流程

while(当前节点"不纯")：
    1.计算当前节点的类别熵(以类别取值计算)
    2.计算当前阶段的属性熵(按照属性取值吓得类别取值计算)
    3.计算信息增益
    4.计算各个属性的分裂信息度量
    5.计算各个属性的信息增益率
end while
当前阶段设置为叶子节点

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/820718.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

决策树的划分依据之：信息增益率

案例一

案例二

相关文章

学习记录——CFNet

常见的用户行为路径分析方法

使用HBuilder-X创建uniapp项目并启动演示

Java里的static import使用小结

记一次使用gophish开展的钓鱼演练

类的实例化

python scrapy框架实现某品牌数据采集

HawkEye设备智能维保平台：助力制药行业设备管理实现数字化转型

Java实战之网上书店管理系统的实现

文心大模型企业应用私享会·上海站：共话大模型前沿技术与产业应用创新

如何压缩图片大小？最新图片压缩技巧分享

BugKu CTF(杂项篇MISC)—善用工具

ipad手写笔有必要买苹果原装吗？平价电容笔推荐

展销系统springboot vue展会新闻场地管理java源代码mysql

【Java练习题汇总】《第一行代码JAVA》综合测试三，汇总Java练习题

亚马逊怎么样下单风控最低

限流式保护器在古建筑电气火灾中的应用

Spring的@Scheduled

ffmpeg + nginx 实现rtsp视频流转m3u8视频流，转码推流(linux)

【Spring框架】SpringMVC