ID3算法

news2025/3/1 20:05:05

目录

ID3算法

例子

ID算法总结

ID3算法

ID3算法是在每个结点处选取能获得最高信息增益的分支属性进行分裂

在每个决策结点处划分分支、选取分支属性的目的是将整个决策树的样本纯度提升

衡量样本集合纯度的指标则是熵；

举例来说，如果有一个大小为10的布尔值样本集Sb，其中有6个真值、4个假值，那么该布尔型样本分类的熵为：

计算分支属性对于样本集分类好坏程度的度量——信息增益

由于分裂后样本集的纯度提高，则样本集的熵降低，熵降低的值即为该分裂方法的信息增益

例子

此样本集有“饮食习性”、“胎生动物”、“水生动物”、“会飞”四个属性可作为分支属性，而“哺乳动物”作为样本的分类属性，有“是”与“否”两种分类，也即正例与负例。共有14个样本，其中8个正例，6个反例，设此样本集为 S，则分裂前的熵值为：

ID算法总结

由根结点通过计算信息增益选取合适的属性进行分裂，若新生成的结点的分类属性不唯一，则对新生成的结点继续进行分裂，不断重复此步骤，直至所有样本属于同一类，或者达到要求的分类条件为止

常用的分类条件：包括结点样本数最少于来设定的值、决策树达到预先设定的最大深度等

在决策树的构建过程中：会出现使用了所有的属性进行分支之后，类别不同的样本仍存在同一个叶子结点中。当达到了限制条件而被强制停止构建时，也会出现结点中子样本集存在多种分类的情况。对于这种情况，一般取此结点中子样本集占数的分类作为结点的分类

分支多的属性并不一定是最优的：就如同将100个样本分到99个分支中并没有什么意义，这种分支属性因为分支太多可能相比之下无法提供太多的可用信息，例如个人信息中的“省份”属性

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/18760.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

被裁后，狂刷607页JUC源码分析笔记，立马拿蚂蚁offer

被裁后，狂刷607页JUC源码分析笔记，立马拿蚂蚁offer

前言可能大家最近，在公众号，或者各大自媒体平台，都能够刷到，因为疫情美国经济面临结构性衰退，美联储疯狂印钞导致世界性经济波动，导致国际环境不是很好，也间接影响到了中国，中国也…

阅读更多...

跟艾文学编程《Python基础》（2）Python 容器

跟艾文学编程《Python基础》（2）Python 容器

作者： 艾文，计算机硕士学位，企业内训讲师和金牌面试官，公司资深算法专家，现就职BAT一线大厂。邮箱： 1121025745qq.com 博客：https://wenjie.blog.csdn.net/ 内容：跟艾文学编程《Pyt…

阅读更多...

JAVA微服务场景下分布式日志收集排查问题实战

JAVA微服务场景下分布式日志收集排查问题实战

问题产生的根由？不同服务的日志存在哪里？我们怎么去排查线上问题？ 问题场景：我们部署的java服务可能有几十个，不同的项目里面他是看不到别的服务的日志，只有服务的返回msg消息，相比传统的单体服…

阅读更多...

计算机体系结构：1.1.系统加速比计算例题

计算机体系结构：1.1.系统加速比计算例题

文章目录题目内容题目分析题目求解题目内容假设在某程序的执行过程中，浮点操作时间占整个执行时间的10%，现希望对浮点操作加速。 （1）设对浮点操作的加速比为Sf，请推导出程序总的加速比S和Sf之间的关系表达式&#…

阅读更多...

IoU的计算实现详解（基于Python）

IoU的计算实现详解（基于Python）

文章目录1. 交并比（IoU）2.原理3.代码实现1. 交并比（IoU） 具体来说，它是两边界框相交部分面积与相并部分面积之比，如下所示： 也就是两个框的交集和两个框的并集之比。 2.原理这里详细解释一…

阅读更多...

如何安装与配置Node.js

如何安装与配置Node.js

Node.js发布于2009年5月，由Ryan Dahl开发，是一个基于Chrome V8引擎的JavaScript运行环境，使用了一个事件驱动、非阻塞式I/O模型， 让JavaScript 运行在服务端的开发平台，它让JavaScript成为与PHP、Python、Perl、Ruby等…

阅读更多...

使用轻量应用服务器搭配宝塔面板搭建可道云kodbox私有云网盘的方法教程

使用轻量应用服务器搭配宝塔面板搭建可道云kodbox私有云网盘的方法教程

你是否有过网盘下载速度只有十几KB，时不时出现网盘的文件被删除的问题，不如自己搭建一个云网盘吧，只需要一云服务器，即可搭建一个跟某度云一样的云盘。可以自由下载，不限制网速，随时都可上传下载。这篇文章…

阅读更多...

nginx+redis+jvm三级缓存设计与落地实现

nginx+redis+jvm三级缓存设计与落地实现

由于涉及到个人隐私，使用的是阿里云平台，所以下面的IP地址和密码我都做了修改。不是真实的地址。此模拟秒杀商品列表信息缓存案例实现的技术解决方案。远程环境1版本操作系统ubuntu22.04openresty1.21.4.1jdkOracle JDK17IP192.168.1.1远程环境2版本redis7.0.5Springboot2.5…

阅读更多...

149. SAP UI5 Table 控件数据进行 Excel 导出时如何进行格式控制

149. SAP UI5 Table 控件数据进行 Excel 导出时如何进行格式控制

文章目录字符串类型的显示控制数值类型(Number)的值显示控制日期和时间显示的格式控制布尔值的显示控制BigNumber 和百分比数值的显示总结本教程的前一步骤，我们成功的将 sap.m.Table 控件里显示的数据导出到了本地 Excel 文件中。下图是使用 sap.m.Table 显示的表格页面：…

阅读更多...

菜小白聊聊开源和开源协议

菜小白聊聊开源和开源协议

最近想入linux的深坑，于是开启了马哥sre课程的探险之旅。在了解到Linux是一款自由和开放源码的类UNIX操作系统的历史时，深深被开源精神所折服。也强烈感受到了开源精神的伟大。也正是因为有了开放源码的精神，才有了国产百花齐放的android系统…

阅读更多...

【JUC源码专题】AQS 源码分析（JDK8）

【JUC源码专题】AQS 源码分析（JDK8）

文章目录同步队列同步队列结点 Node同步队列状态 state获取互斥锁acquire 方法tryAcquire 方法获取互斥锁addWaiter 方法enq() 入队acquireQueued()setHead 方法设置头节点shouldParkAfterFailedAcquire()parkAndCheckInterrupt()cancelAcquire 发生异常，取消线程获…

阅读更多...

第七章第一节：顺序查找和折半查找

第七章第一节：顺序查找和折半查找

文章目录教程1. 查找的基本概念1.1 对查找表的常见操作1.2 查找算法的评价指标2. 顺序查找2.1 顺序查找的算法思想2.2. 顺序查找的实现2.3 查找效率分析2.4 顺序查找的优化（对有序表）2.5 用查找判定树分析ASL2.6 顺序查找的优化（被查概率不相…

阅读更多...

在centos中注册gitlab runner

在centos中注册gitlab runner

注册runner 有几种不同的方式，这里介绍的是在centos7中使用 rpm包来安装按照gitlab runner的官网链接里面的介绍： gitlab runner 链接下载官网描述： ## Replace ${arch} with any of the supported architectures, e.g. amd64, arm, ar…

阅读更多...

python 空间滤波

python 空间滤波

均值滤波器空域变换包含灰度变换和空间滤波灰度变换是通过点对点的映射进行图像增强，是一种点运算空间滤波是基于邻域的一种运算，即图像像素的灰度值不仅和当前点有关，还和这个点周围邻域像素点的灰度值有关。所以空间滤波其实是一种加…

阅读更多...

如何管理oralce口令文件和参数文件

如何管理oralce口令文件和参数文件

口令文件口令文件审核 Step 1: 使用root账号将 oracle dba的权限移除 [rootoracle-db-19c ~]# su - oracle [oracleoracle-db-19c ~]$ [oracleoracle-db-19c ~]$ id oracle uid1501(oracle) gid1501(oinstall) groups1501(oinstall),1502(dba),1503(oper),1504(backupdba)…

阅读更多...

浅析linux 内核高精度定时器（hrtimer）实现机制（一）

浅析linux 内核高精度定时器（hrtimer）实现机制（一）

1 hrtimer 概述在Linux内核中已经存在了一个管理定时器的通用框架。不过它也有很多不足，最大的问题是其精度不是很高。哪怕底层的定时事件设备精度再高，定时器层的分辨率只能达到Tick级别，按照内核配置选项的不同，在100Hz到1000…

阅读更多...

灵界的科学丨一、灵界在哪里？

灵界的科学丨一、灵界在哪里？

摘自李嗣涔教授《灵界的科学》在国内物理学界近十位学者的见证下， 发现我们所处四度时空的物质世界之外， 似乎还有一个世界的存在， 当年我把这个世界称作信息场， 也就是俗称的灵界。二十世纪末宇宙大尺度谜团的重大发现──…

阅读更多...

设计模式学习记录

设计模式学习记录

设计模式 UML图： ------> 依赖 ——>关联 -------▲ 实现 —–—▲ 继承 🔺———> 聚合 ▲———> 组合（关联性更强） 一、策略模式（行为型） 策略模式：是一种定义一系列算法的方法…

阅读更多...

Java --- Spring6项目创建及注意事项

Java --- Spring6项目创建及注意事项

目录一、Spring框架解决的问题二、Spring介绍三、Spring八大模块四、Spring特点五、第一个Spring6入门程序六、spring的细节 6.1、配置文件的bean的id不能重复 6.2、spring底层是通过反射调用无参构造方法创建对象 6.3、spring会把创建好的对象存储在Map集合中 6.4…

阅读更多...

【数据结构初阶】树+二叉树+堆的实现

【数据结构初阶】树+二叉树+堆的实现

真正的勇士，就是在看清生活的真相后，依旧慷慨面对他所遭受的苦难与挫折。大学究竟教会了我们什么呢？或许答案只有一个，看清自己，与自己和解，和自己坐下来谈一谈。人生或许本就没有什么意义，…

阅读更多...

推荐文章

最新文章