统计学习方法第五章——决策树

统计学习方法第五章——决策树

news2026/2/12 22:25:07

x.1 决策树前言

decision tree决策树是一种分类和回归的方法，本章只考虑在分类领域的使用。决策树使用了归纳法划分特征空间，以此来达到分类的目的。决策树不同于KNN中的kd树，它是多叉树，不是二叉树。决策树是一种概率模型。

决策树采用了if-then规则，路径上的内部节点是对特征的分类，叶节点对应着规则的结论（即分类的结果）。

请添加图片描述

x.2 决策树学习算法

决策树的学习算法包括特征选择，决策树的生成与决策树的剪枝。其中核心要义是使用信息论的知识进行特征选择，决策树的生成就是使用了特征选择的方法更新下一节点（使用了特征增益是ID3算法，使用了特征增益比是C4.5算法），决策树的剪枝是为了避免过拟合的方法。

x.2.1 特征选择公式介绍

首先引入随机变量的entropy熵的定义，

请添加图片描述

entropy是用于表示随机变量不确定性的度量，当随机变量的entropy越小的时候，它就越规律，它的规律就越确定。当随机变量的取值等概率分布，即为均匀分布的时候，它的entropy就越大，随机变量就越不规律，它取那个值就越不确定，它的不确定性就越大， $entropy_{max}=\log_2 n$ 。entropy的取值范围如下：

请添加图片描述

条件熵是指在已知随机变量X条件下，某一随机变量Y的不确定性，如下所示 $X$ 可以指代一个特征，而 $x_i$ 是该类特征的取值：

请添加图片描述

information gain 信息增益指的是通过得知特征X的信息而使类Y的信息不确定性减少的过程，它通过经验熵和条件熵的差值来表示。

请添加图片描述

x.2.2 特征选择例题

下面将以下列讲解：

请添加图片描述

我们计算得到每个特征的信息增益，再根据选取信息增益的点作为根节点。循环直到确定所有特征。

在这里插入图片描述

请添加图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/528101.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

毕业2年，月薪25k，有时候人与人的差距比人和狗还大···

毕业2年，月薪25k，有时候人与人的差距比人和狗还大···

想起两年前交流过的一个应届生，当时他刚毕业技术水平不高，进了一个小公司做测试实习工作。最近联系上了，不问不知道，一问吓一跳，他现在已经进了某一线大厂，月薪25K。这位朋友其实也没比别人强多少&#xff…

阅读更多...

原神服务端架构搭建工具+环境配置资料

原神服务端架构搭建工具+环境配置资料

原神服务端架构搭建工具环境配置资料我是艾西，今天给大家分享一份详细的原神服务端结构资料教程，从服务端的获取到端口的使用以及安卓和ios的DAIL签名等一文让你明白怎么架设原神服务端，哪些工具资料又代表着什么意思（保姆级教学…

阅读更多...

RFM模型

RFM模型

目录标题定义指标分析模型分析如何衡量每个客户的RFM指标1. 确定时间范围2. 要定义指标的衡量标准3. 对客户指标进行打分4. 计算平均值5. 用户分类不同客户不同解决方案 RFM的最大短板RFM的深层问题R：用户离得越久就越有流失风险F：用户频次越高越忠诚M…

阅读更多...

SpringBoot 日志文件从入门到实战

SpringBoot 日志文件从入门到实战

文章目录 1. 日志的作用2. 日志怎么用3. 自定义日志打印3.1 程序中得到日志对象3.2 使用日志对象打印日志3.3 日志格式说明 4. 日志级别4.1 日志级别的作用4.2 日志级别的分类与使用4.3 日志级别的设置4.4 综合练习 5. 日志的持久化5.1 配置日志文件的保存路径:5.2 配置日志文件…

阅读更多...

MVP发布后，下一步该怎么办

MVP发布后，下一步该怎么办

MVP发布后，下一步该怎么办一、为什么要从发布MVP开始？二、发布MVP后该做什么？1、推广MVP2、收集用户反馈3、进行用户发展访谈4、确定功能的优先次序5、建立一个产品路线图三、如何衡量一个MVP的成功？1、分析仪表板的重要性2、创…

阅读更多...

图解LeetCode——160. 相交链表

图解LeetCode——160. 相交链表

一、题目给你两个单链表的头节点 headA 和 headB ，请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点，返回 null 。图示两个链表在节点 c1 开始相交： 题目数据保证整个链式结构中不存在环。注意，函数返回…

阅读更多...

怎么把jfif改成png格式？这四种方法值得一试

怎么把jfif改成png格式？这四种方法值得一试

怎么把JFIFf改成PNG格式？众所周知，JFIF是一种JPEG图像格式的子集，可以提供高质量的压缩效果。但是，JFIF格式有一些限制，例如它不支持透明度和多图层等功能，而PNG格式则是一种无损压缩的图像文件格式&#x…

阅读更多...

从零开始Vue3+Element Plus后台管理系统(九)——使用API协作平台Mock数据

从零开始Vue3+Element Plus后台管理系统(九)——使用API协作平台Mock数据

截止目前，本项目用了2个接口，一个登录，一个获取列表数据。接下来想做的页面和功能，为了看起来更真实，就需要增加更多的模拟数据。 Mock语法写得有些随意，看起来还是很假 😁 Mock数据可以使用M…

阅读更多...

认识IPv6---寻址模式与地址类型与格式

认识IPv6---寻址模式与地址类型与格式

本文目录 1、IPv6寻址模式1.1、单播(unicast)1.1、组播(multicast)1.1、任播(Anycast) 2、IPv6地址的类型与格式2.1、IPv6地址的格式2.2、IPv6地址的类型2.2.1、单播地址简介2.2.2、组播地址简介2.2.3、任播地址简介 IPv6的出现，最重要的原因是为了解决IPv4地址不足…

阅读更多...

我扛住字节面试了，太干了......

我扛住字节面试了，太干了......

春招进展快 2 个月，今年相比往年我感觉比较卷，很少见到offer收割机的选手。不管环境如何，持续学习这个是不能放弃的，心态也要稳一稳，坦然面对失败，失败才是常态，成功可能才是偶然的。好了&a…

阅读更多...

LitCTF-web-WP(部分)

LitCTF-web-WP(部分)

前言 CSDN内容合伙人 2023年CSDN新星计划Web安全方向导师。华为MindSpore截至目前最年轻的优秀开发者阿里云专家博主、华为网络安全云享专家以及腾讯云自媒体分享计划博主。吉林师范大学CTF校队——SuD0战队的队长吉林师范大学网信网安学生负责人核心粉丝群超过50人带队…

阅读更多...

网址域名查询-域名注册查询工具

网址域名查询-域名注册查询工具

域名查找软件域名查找软件是一种能够帮助用户快速查询域名相关信息的工具。它通常提供了批量域名查询和实时域名查询服务，能够帮助用户查询域名的注册信息、到期时间、所有者信息、域名服务器等多种相关信息。以下是域名查找软件的主要特点： 批量域名查…

阅读更多...

roadmap go语言

roadmap go语言

技术类的Roadmap（路线图）具有许多好处，下面是其中几个主要的好处： 明确目标：Roadmap可以帮助技术团队明确目标和愿景。它提供了一个清晰的计划，使团队成员知道他们正在朝着什么方向前进，并且可…

阅读更多...

网络正常但是web、ftp、telnet应用新建连接偶尔卡顿处理方法

网络正常但是web、ftp、telnet应用新建连接偶尔卡顿处理方法

目录问题现象故障定位 TCP报头 options详解 Opions Kind有哪些 options中的Timestamp详解 TSval & TSecr Timestamp Value的单位是什么 TCP连接的建立与释放普通三次握手带时间戳的三次握手抓包展示带时间戳的tcp会话 WireShark中的时间 VS tcpdump 直接…

阅读更多...

KDZD400Q紫外臭氧浓度分析仪

KDZD400Q紫外臭氧浓度分析仪

一、产品概述检测仪用于快速检测多种气体浓度、温湿度测量并超标报警的场合。采用 2.31 寸高清彩屏实时显示，选用进口品牌的气体传感器，主要检测原理有： 电化学、红外、催化燃烧、热导、PID 光离子等。可以检测管道中或受限空间、大气环境…

阅读更多...

耗时几个月，终于决定把原本想用于商业的系统开源了

耗时几个月，终于决定把原本想用于商业的系统开源了

前言嗨，大家好，我是希留，一个被迫致力于全栈开发的老菜鸟。今天又来给小伙伴们分享一个基于 SpringBoot Vue 实现的前后端分离后台管理系统项目； 简介这个项目是基于xiliu-tenant脚手架项目搭建而成，原本是帮朋…

阅读更多...

USB转UART转串口芯片 GP232RNL国产低成本替代FT232RL/FT232RNL

USB转UART转串口芯片 GP232RNL国产低成本替代FT232RL/FT232RNL

近期收到很多人咨询FT232RL跟新版FT232RNL两者有什么区别，实际上就是内部做了一点升级，FT232RNL支持Windows11系统，参数并没有改动，完全可以直接替换使用。今天小编给大家讲讲FT232RNL国产低成本替代芯片–GP232RNL GP232RNL 是…

阅读更多...

动态规划：01背包理论基础一维dp数组（滚动数组）

动态规划：01背包理论基础一维dp数组（滚动数组）

确定dp数组的定义在一维dp数组中，dp[j]表示：容量为j的背包，所背的物品价值可以最大为dp[j]。一维dp数组的递推公式 dp[j]为容量为j的背包所背的最大价值，那么如何推导dp[j]呢？ dp[j]可以通过dp[j - weight[i]]推导…

阅读更多...

Ubuntu20.04解决疑难杂症问题问题合集

Ubuntu20.04解决疑难杂症问题问题合集

下列问题都是我一次性遇见的倒霉不。问题一： 安装 linux 版网络调试助手，安装成功后打不开运行文件解决办法： #通过执行可执行文件打开 # 进入到可执行文件下 cd /opt/mNetAssist/ # 运行主程序 ./mNetAssis 如果出现： libq…

阅读更多...

体检中心智能导检系统排队是什么流程？

体检中心智能导检系统排队是什么流程？

随着智能信息化建设的推进下，体检中心也越来越规范化、现代化、智能化，智能导检系统，有效完善体检中心服务水平，简化体检流程，节省排队等候时间，提高体检的效率，也能提升体检服务中心的形象。下…

阅读更多...

推荐文章

最新文章