C4.5算法

C4.5算法

news2026/2/7 21:04:32

假设我们有一个关于餐厅顾客的数据集，其中包括9个样本，每个样本有3个属性：天气、是否有预订和是否是周末，以及一个类别标签，表示该顾客是否会来餐厅（是或否)。

数据集如下：

使用C4.5算法来构建决策树。

1、首先，计算整个数据集的信息熵，公式为：

$H(D) = -\sum_{i=1}^{k} p_i log_{2}^{p_i}$

其中， $k$ 表示类别的个数， $p_i$ 表示样本属于第 $i$ 个类别的概率。

在本例中:

$k=2$

$p_1=\frac{5}{9}$

$p_2=\frac{4}{9}$

因此，整个数据集的信息熵为：

$H(D) = -\frac{5}{9}log_2^\frac{5}{9} -\frac{4}{9}log_2^\frac{4}{9}\approx 0.99$

2、接下来，计算每个属性的信息增益比。

以天气为例，计算其信息增益比的公式为：

$GainRatio(A) = \frac{Gain(A)}{IV(A)}$

其中

$A$ ：表示属性

$Gain(A)$ ：表示属性 $A$ 的信息增益

$IV(A)$ ：表示属性 $A$ 的固有值

计算公式为： $IV(A) = -\sum_{v=1}^{V} \frac{|D^v|}{|D|} log_2 \frac{|D^v|}{|D|}$

其中：

$V$ ：表示属性 $A$ 的取值个数

$D^v$ ：表示选出属性 $A$ 取值等于 $v$ 的样本集合

在本例中，天气有三个取值，即晴天、阴天和雨天，因此 $V=3$

我们可以根据数据集中天气的取值，将数据集划分为三个子集：

子集1：天气=晴天。该子集有5个样本，其中2个会来餐厅，3个不会来。
子集2：天气=阴天。该子集有2个样本，其中2个会来餐厅
子集3：天气=雨天。该子集有2个样本，其中1个会来餐厅，1个不会来。

计算子集1、子集2和子集3的信息熵：

$H(D^{sunny}) = -\frac{2}{5}log_2^\frac{2}{5} -\frac{3}{5}log_2^\frac{3}{5}\approx 0.971$

$H(D^{cloudy}) = -log_2^1 =0$

$H(D^{rain}) = -\frac{1}{2}log_2^\frac{1}{2} -\frac{1}{2}log_2^\frac{1}{2} = 1$

计算天气的信息增益和固有值：

$Gain(weather) = H(D) - \frac{5}{9}H(D^{sunny}) - \frac{2}{9}H(D^{cloudy})- \frac{2}{9}H(D^{rain})\approx 0.23$

$IV(weather) = -\frac{5}{9}log_2^\frac{5}{9} -\frac{2}{9}log_2^\frac{2}{9} -\frac{2}{9}log_2^\frac{2}{9} \approx 1.334$

因此，天气的信息增益比为：

$GainRatio(weather) = \frac{Gain(weather)}{IV(weather)} \approx 0.17$

同样地，我们可以计算出其他属性的信息增益比，结果如下：

由于是否有预订的信息增益比最大，因此我们选择是否有预订作为划分属性，将数据集划分为有预订和无预订两个子集。

对于有预订的子集，其中所有样本都会来餐厅，因此我们可以将其转换为一个叶子节点，并赋予类别标签“是”；

对于无预订的子集，需要继续递归地执行上述步骤，直到所有子集都被转换为叶子节点。

最终的决策树如下：

是否有预订 = 是: 是
是否有预订 = 否:
| 天气 = 晴天: 否
| 天气 = 阴天: 是
| 天气 = 雨天: .....

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/686455.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

DAMO-YOLO：一种平衡速度和准确性的新目标检测框架

DAMO-YOLO：一种平衡速度和准确性的新目标检测框架

DAMO-YOLO：一种平衡速度和准确性的新目标检测框架 1.介绍2.关键技术2.1. NAS主干网络：MAE-NAS2.2. Large Neck：RepGFPN2.3. Small Head：ZeroHead2.4. 标签分配：AlignOTA2.5 模型蒸馏 3.性能效果展示作者：K…

阅读更多...

$CART算法$

CART算法

假设我们有一个二元分类问题，数据集包含以下四个样本： 特征1特征2类别0.20.310.40.500.60.700.80.90 可以使用CART算法来建立一个决策树模型。 1、首先，我们需要选择一个特征和阈值来对数据集进行划分。假设我们选择特征1和阈值0.5&#x…

阅读更多...

基于Java中国咖啡文化宣传网站设计实现(源码+lw+部署文档+讲解等)

基于Java中国咖啡文化宣传网站设计实现(源码+lw+部署文档+讲解等)

博主介绍： ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精…

阅读更多...

IDEA创建maven工程JDBC连接MySQL数据库中的遇到的问题以及相应的解决方案

IDEA创建maven工程JDBC连接MySQL数据库中的遇到的问题以及相应的解决方案

首先创建一个maven工程然后点击进入pom.xml文件，输入安装依赖。输入数据库配置文件原码： <dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>5.1.49</version>…

阅读更多...

Docker 中的 .NET 异常了怎么抓 Dump

Docker 中的 .NET 异常了怎么抓 Dump

一：背景 1. 讲故事有很多朋友跟我说，在 Windows 上看过你文章知道了怎么抓 Crash, CPU爆高，内存暴涨等各种Dump，为什么你没有写在 Docker 中如何抓的相关文章呢？瞧不上吗？ 哈哈，在DUMP的分…

阅读更多...

Flutter 组件（三）按钮类组件

Flutter 组件（三）按钮类组件

Flutter开发笔记 Flutter 组件（三）按钮类组件 - 文章信息 - Author: Jack Lee (jcLee95) Visit me at: https://jclee95.blog.csdn.netEmail: 291148484163.com. Shenzhen ChineAddress of this article:https://blog.csdn.net/qq_28550263/article/det…

阅读更多...

Prophet 时间序列预测框架入门实践笔记

Prophet 时间序列预测框架入门实践笔记

1. Prophet时间序列预测框架概述 Prophet是Facebook开源的一种时间序列预测框架，旨在使时间序列分析更加容易和快速。Prophet可以处理具有多个季节性和突发事件的时间序列数据，并且在数据缺失或异常情况下仍然能够进行良好的预测。Prophet采用了一种基于…

阅读更多...

荣耀电脑怎么用U盘重装系统？荣耀电脑用U盘重装Win10系统教程

荣耀电脑怎么用U盘重装系统？荣耀电脑用U盘重装Win10系统教程

荣耀电脑怎么用U盘重装系统？用户想用U盘来给荣耀电脑重装Win10系统，但是不知道怎么操作才能完成Win10系统的重装，这时候用户需要准备一个大于8G的U盘，还有一个能够正常联网的荣耀电脑，最后根据小编分享的荣耀电脑用U盘…

阅读更多...

Linux文件系统论述

Linux文件系统论述

目录前言一.磁盘 1.1定义 1.2结构 1.3磁盘的寻找方式 1.4磁盘的逻辑/线性结构 1.5磁盘访问的基本单位 1.6磁盘的管理二.Linux文件系统 2.1系统结构 2.2属性解析： 2.3inode相关块的解析： 2.4数据块的解析： 前言学了一段时间的Linux操…

阅读更多...

DIM-00019、Unable to OpenSCManager: err=5、DBT-50000

DIM-00019、Unable to OpenSCManager: err=5、DBT-50000

在windows server 2016上安装部署Oracle 19C，出现较多的问题。例如在DBCA建库时出现[DBT-50000]无法检查可用内存报错： 根据MOS文档：DBCA fails with errors: [FATAL] [DBT-50000] Unable to check for available memory in “Specify conf…

阅读更多...

算法05-排序算法

算法05-排序算法

算法05-排序算法总结大纲要求【 3 】排序的基本概念各种排序算法【 3 】冒泡排序（Bubble Sort）冒泡排序排序规则冒泡排序优化【 3 】选择排序（Selection Sort）【 3 】插入排序（Insertion Sort）题目描述…

阅读更多...

怎么高效编写企业内部FAQ文档呢？

怎么高效编写企业内部FAQ文档呢？

企业内部FAQ文档是指包含常见问题和答案的文档，旨在为企业内部员工提供帮助和解答。编写这样的文档可以帮助企业内部员工更好地理解和掌握公司的政策和流程，提高工作效率。编写企业内部FAQ文档的一些高效方法： 确定文档的范围和目标受众 …

阅读更多...

Windows11安装oneAPI和Visual Studio 2022配置Fortran并行环境

Windows11安装oneAPI和Visual Studio 2022配置Fortran并行环境

Windows11安装oneAPI和Visual Studio 2022配置Fortran并行环境安装Visual Studio 2022 Community安装oneAPI建立Fortran工程项目测试建立单核运行的Fortran运行算例建立并行运行的Fortran运行算例结语安装Visual Studio 2022 Community 访问微软Visual Studio官网&#xff…

阅读更多...

SpringBoot 如何使用 Redis 作为缓存？

SpringBoot 如何使用 Redis 作为缓存？

SpringBoot 如何使用 Redis 作为缓存？ 引言在今天的互联网应用中，缓存是一个非常重要的概念。缓存可以减轻数据库的负担，提高系统的性能。Redis 是一个非常流行的内存数据库，它可以用作缓存，提供快速的读写速度和高…

阅读更多...

【C语言初阶（1）】分支语句

【C语言初阶（1）】分支语句

文章目录前言1. if 语句1.1 if 语法结构1.2 悬空 else1.3 “ ” 号引发的错误1.4 if 语句练习题 2. switch 语句2.1 switch 语法结构2.2 在switch语句中的 break2.3 default 子句2.4 switch 语句练习题前言 C语言是一门结构化的程序设计语言； 它分为：…

阅读更多...

【MySQL】不就是多表查询综合练习

【MySQL】不就是多表查询综合练习

前言嗨咯大家好！我们学习完毕了多表查询，今天我们就要对我们所学的成果进行测验，本期主要是对多表查询相关内容的练习课程。可以先试着自己敲，遇到不会可以查看查考代码。目录前言目录练习题 1.查询员工的姓名、年龄、职位…

阅读更多...

生物制药厂洁净区环境监测超限的标准是多少？

生物制药厂洁净区环境监测超限的标准是多少？

对于一些生物制药企业来说，质量管理部门应加深对环境监测的质量认识，掌握环境监测的技术手段，定期评估环境监测程序的有效性和完整性，并且对环境监测数据进行趋势分析以寻找可以更好控制的区域，以保证企业的生产符合GM…

阅读更多...

网络安全合规-网络安全工程师（一）

网络安全合规-网络安全工程师（一）

网络安全工程师的工作种类很多，当前这个图片说明了具体的工程师的工作种类有哪些，列举了一下。互联网时代网络及科技迅速发展，随之而来的首要问题就是网络安全，因为已经出现的网络问题带来了巨大的经济损失，甚至各种…

阅读更多...

ModaHub魔搭社区：安装、启动 Milvus 服务（CPU版）教程

ModaHub魔搭社区：安装、启动 Milvus 服务（CPU版）教程

目录安装、启动 Milvus 服务安装前提操作系统硬件软件确认 Docker 状态拉取 Milvus 镜像下载配置文件启动 Milvus Docker 容器常见问题接下来你可以安装、启动 Milvus 服务 CPU 版 MilvusGPU 版 Milvus 安装前提操作系统操作系统版本 CentOS 7…

阅读更多...

node 单线程、多线程和多进程模型

node 单线程、多线程和多进程模型

文章目录 node 启动过程单线程多线程node 启动过程相关线程node 多线程特点创建多线程多进程创建多进程cluster进程守护 node 启动过程 C 层引导：Node.js 启动时，会初始化 C 层的结构和依赖项，如 V8 引擎、Libuv 事件循环、核心模块等。此外…

阅读更多...

推荐文章

最新文章