机器学习-面经(part4、决策树)

机器学习-面经(part4、决策树)

news2026/2/14 13:37:40

7. 决策树

7.1 ID算法

核心是在决策树各个节点上应用信息增益准则选择特征，递归的构建决策树。

具体方法是：从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归的调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止。ID3相当于用极大似然法进行概率模型的选择。使用二元切分法则易于对树构建过程中进行调整以处理连续型特征。

具体的处理方法是: 如果特征值大于给定值就走左子树，否则走右子树。另外二元切分法也节省了树的构建时间。

7.2 C4.5算法

算法用信息增益率选择特征，在树的构造过程中会进行剪枝操作优化，能够自动完成对连续属性的离散化处理；在选择分割属性时选择信息增益率最大的属性。

7.2.1 C4.5为什么使用信息增益率

在使用信息增益的时候，如果某个特征有很多取值，使用这个取值多的特征会的大的信息增益，这个问题是出现很多分支，将数据划分更细，模型复杂度高，出现过拟合的机率更大。使用信息增益比就是为了解决偏向于选择取值较多的特征的问题. 使用信息增益比对取值多的特征加上的惩罚，对这个问题进行了校正.

7.3 CART算法

分类与回归树 —— 使用二元切分法来处理连续型数值。

使用Gini作为分割属性选择的标准，择Gini最大的作为当前数据集的分割属性。

Gini：表示在样本集合中一个随机选中的样本被分错的概率。

Gini指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。

即基尼指数（基尼不纯度）= 样本被选中的概率 * 样本被分错的概率

CART算法由以下两步组成：

决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大；

决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

7.3.1 基尼指数和信息熵都表示数据不确定性，为什么CART使用基尼指数？

信息熵0, logK都是值越大，数据的不确定性越大. 信息熵需要计算对数，计算量大；信息熵是可以处理多个类别，基尼指数就是针对两个类计算的，由于CART树是一个二叉树，每次都是选择yes or no进行划分，从这个角度也是应该选择简单的基尼指数进行计算.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1487814.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

2023第十届GIAC全球互联网架构大会：洞察未来互联网架构的革新与突破（附大会核心PPT下载）

2023第十届GIAC全球互联网架构大会：洞察未来互联网架构的革新与突破（附大会核心PPT下载）

随着互联网的迅猛发展，其底层架构的演进与革新成为了推动全球数字化进程的关键力量。2023年第十届GIAC全球互联网架构大会如期而至，汇聚了全球互联网架构领域的顶尖专家、学者、企业领袖和创新者，共同探讨和展望互联网架构的未来发展趋势。本…

阅读更多...

成都直播基地：势必打造开放、自由、灵活、个性化的数字直播空间

成都直播基地：势必打造开放、自由、灵活、个性化的数字直播空间

为了进一步推动直播经济的发展，成都天府新区迎来了一个好消息——天府锋巢直播产业基地正式落地科学城。这一成都规模最大的直播基地一经成立便为成都直播行业打造出一个开放、自由、灵活、个性化的数字直播空间，引领天府新区直播经济腾飞。天府锋巢直播…

阅读更多...

C++_红黑树

C++_红黑树

目录 1、红黑树的规则 2、红黑树节点的定义 3、红黑树插入节点的调整操作 3.1 情况一 3.2 情况二 3.3 情况三 4、红黑树的实现结语前言： 在C中，红黑树是二叉搜索树的另一种优化版本，他与AVL树的区别在于保持树的平衡方式不同&…

阅读更多...

STM32CubeMX实战教程: TIM6、TIM7 - 基本定时器

STM32CubeMX实战教程: TIM6、TIM7 - 基本定时器

基本定时器的作用基本定时器，主要用于实现定时和计数功能。作用包括： 定时功能：可以产生周期性的中断，用于实现定时任务。例如，可以设置一个定时器每隔一定时间（如1秒）产生一次中断&#xff0…

阅读更多...

状态码转文字！！！（表格数字转文字）

状态码转文字！！！（表格数字转文字）

1、应用场景：在我们的数据库表中经常会有status这个字段，这个字段经常表示此类商品的状态，例如：0->删除，1->上架，0->下架，等等。 2、我们返回给前端数据时，如果在页面显示0…

阅读更多...

【JavaWeb】

【JavaWeb】

Javaweb 数据库相关概念MySQL数据库MySQL数据模型SQLDDL--操作数据库图形化客户端工具DML--操作数据DQL数据库约束数据库设计多表查询事务数据库相关概念数据库存储数据的仓库，数据是有组织的进行存储英文：DataBase，简称DB 数据库管理系…

阅读更多...

高维中介数据：基于交替方向乘子法（ADMM）的高维度单模态中介模型的参数估计（入门+实操）

高维中介数据：基于交替方向乘子法（ADMM）的高维度单模态中介模型的参数估计（入门+实操）

全文摘要用于高维度单模态中介模型的参数估计，采用交替方向乘子法（ADMM）进行计算。该包提供了确切独立筛选（SIS）功能来提高中介效应的敏感性和特异性，并支持Lasso、弹性网络、路径Lasso和网络约束惩罚等不…

阅读更多...

详解：npm升级到pnpm对比优化点！！

详解：npm升级到pnpm对比优化点！！

npm3之前依赖树层级过深，导致依赖路径过长并且相同依赖模块会被重复安装,占用电脑磁盘空间 npm3之后修改为扁平化处理算法复杂存在多项目间依赖相同副本的情况导致没有明确被依赖的包也可以直接引用，管理复杂 pnpm node_modules改成非扁平化结构&a…

阅读更多...

uni-grid-item在小程序和APP中for循环不生效

uni-grid-item在小程序和APP中for循环不生效

<uni-grid-item v-for"(item, index) in list" :key"index"></uni-grid-item> 如上图类型的代码在H5是可以正常生效的但是在小程序和APP中不生效，我也没有搜索到答案，但是我最后一个格子是固定的，我发现是…

阅读更多...

ubuntu基础操作(1)-个人笔记

搜狗输入法Linux官网-首页搜狗输入法for linux—支持全拼、简拼、模糊音、云输入、皮肤、中英混输https://pinyin.sogou.com/linux 1.关闭sudo密码： 终端（ctrl alt t）输入 sudo visudo 打开visudo 找到 %sudo ALL(ALL:ALL) ALL 这一行…

阅读更多...

【go从入门到精通】go基本类型和运算符用法

【go从入门到精通】go基本类型和运算符用法

大家好，这是我给大家准备的新的一期专栏，专门讲golang，从入门到精通各种框架和中间件，工具类库，希望对go有兴趣的同学可以订阅此专栏。 --------------------------------------------------------------------------…

阅读更多...

架构设计方法（4A架构）-应用架构

架构设计方法（4A架构）-应用架构

1、应用架构（AA）：业务价值与产品之间的桥梁，是企业架构的一个子集 2、应用架构包含“应用系统模块、应用服务、应用系统集成”3个关键要素 3、收集AS-IS应用架构，描绘现状，并识别改进机会点 4、描述对新系统…

阅读更多...

xss.haozi:0x00

xss.haozi:0x00

0x00没有什么过滤所以怎么写都没有关系有很多解 <script>alert(1)</script>

阅读更多...

新书速览|Photoshop+CorelDRAW商业广告设计入门到精通：视频教学版

新书速览|Photoshop+CorelDRAW商业广告设计入门到精通：视频教学版

8章实例剖析商业案例，帮你提升设计效率。商业实战案例，真正掌握设计技能！ 本书内容《PhotoshopCorelDRAW商业广告设计入门到精通：视频教学版》以创作精美、类型多样的案例，全面地讲解Photoshop与CorelDRAW软件相结合…

阅读更多...

什么是五更泻及治疗方法

什么是五更泻及治疗方法

什么是五更泻有些人总是在黎明之前肚脐周围的腹部疼痛发作，肚子咕咕作响，马上就想大便，拉出来的大便不成形，甚至有未消化的食物，便后会感觉舒服很多，还常伴有小腹冷痛、喜温、腰酸肢冷、舌淡苔白等症状。…

阅读更多...

李沐动手学习深度学习——4.5练习

李沐动手学习深度学习——4.5练习

1. 在本节的估计问题中使用λ的值进行实验。绘制训练和测试精度关于λ的函数。观察到了什么？ 修改代码运行如图所示，可以发现对于lamda值的变化而言，对于训练loss和测试loss的影响不大。但是如果λ 太大后，train和test的loss会变得…

阅读更多...

欧拉回路(Eulerian Path)

欧拉回路(Eulerian Path)

1.定义如果图 G G G(有向图或者无向图)中所有边一次仅且一次行遍所有顶点的通路称作欧拉通路。如果图 G G G中所有边一次仅且一次行遍所有顶点的回路称作欧拉回路。具有欧拉回路的图成为欧拉图(简称 E E E图)。具有欧拉通路但不具有欧拉回路的图成为半欧拉图。顶点可以经…

阅读更多...

【Docker】Windows11操作系统下安装、使用Docker保姆级教程

【Docker】Windows11操作系统下安装、使用Docker保姆级教程

【Docker】Windows11操作系统下安装、使用Docker保姆级教程大家好我是寸铁👊 总结了一篇【Docker】Windows11操作系统下安装、使用Docker保姆级教程的文章✨ 喜欢的小伙伴可以点点关注 💝 前言什么是 Docker？ Docker 是一个开源平台&…

阅读更多...

yolov8-更换卷积模块-ContextGuidedBlock_Down

yolov8-更换卷积模块-ContextGuidedBlock_Down

源码解读 class ContextGuidedBlock_Down(nn.Module):"""the size of feature map divided 2, (H,W,C)---->(H/2, W/2, 2C)"""def __init__(self, nIn, dilation_rate2, reduction16):"""args:nIn: the channel of input fea…

阅读更多...

统信UOS及麒麟KYLINOS操作系统上如何切换键盘布局

统信UOS及麒麟KYLINOS操作系统上如何切换键盘布局

原文链接：如何切换键盘布局 | 统信UOS | 麒麟KYLINOS Hello，大家好啊，最近有朋友在群里提到他的键盘输入“Y”会显示“Z”，输入“Z”会显示“Y”。这个问题听起来可能有些奇怪，但其实并不罕见。出现这种情况的原因&…

阅读更多...

推荐文章

最新文章