决策树笔记

news2024/11/16 21:45:37

决策树模型学习过程

1.根节点选择什么特征
2.只关注决策树的左侧分支
3.再关注右侧分支
在这里插入图片描述
在这里插入图片描述

纯度

熵就是样本的混乱程度,熵越大,越混乱,纯度就越低
减小熵=信息增益

选择拆分信息增益

在这里插入图片描述
选择信息增益大的,以增加纯度
p1left 定义为等于左子树中具有正标签(即猫)的示例的分数
w^left 定义为转到左子分支的根节点的所有示例的示例的分数
p1right 定义为等于右子树中具有正标签(即猫)的示例的分数
w^right 定义为转到右子分支的根节点的所有示例的示例的分数

整合

在这里插入图片描述

独热编码One-hot

在这里插入图片描述

处理两个及两个以上离散的特征,其中一个特征始终取1(热特征)

连续有价值的功能

在这里插入图片描述
使用拆分时,只需考虑要拆分的不同值,执行通常的信息增益计算,并决定在该连续值特征提供尽可能高的信息增益时,进行拆分

回归树

预测一个数字
尝试减少每个数据子集的值Y的权重方差
在这里插入图片描述

使用多个决策树

一个决策树对数据比较敏感,构建多个决策树的树集成
使用树集合的原因是通过拥有大量决策树并让它们投票,它使整体算法对任何一棵树可能正在做的事情不太敏感,因为它只能获得三分之二的一票或i许多不同的投票,使整体算法更加健壮

有放回抽样(替代抽样)

会有重复,可能有的没有被抽样

随机森林(袋装决策树)

把训练示例放入虚拟包
选k个信息增益最大的特征 然后放入袋子里随机选一个分裂
将参数范围缩小有助于避免过拟合。而且也不用担心某些关键参数没被选上,因为是随机深林,这个决策树没选上,还有下一个决策树。
在这里插入图片描述

在这里插入图片描述

XGBoost

极端梯度提升,决策树多选择错误的示例
用于分类
在这里插入图片描述
用于回归
在这里插入图片描述

何时使用决策树

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/670707.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年功能测试会被淘汰?自动化测试到测试开发?我的测试之路...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 现在2023年&#…

数据技术在金融行业有哪些应用_光点科技

随着信息技术的迅猛发展,大数据技术逐渐成为金融行业的重要工具。大数据技术的应用,不仅可以提高金融机构的运营效率,还能够提供更准确的风险评估和预测,从而为投资者和决策者提供更好的决策依据。 那么,大数据技术在…

ES应用风暴

文章目录 使用案例启发使用ElasticSearch作为主要的后端,作为搜索引擎在现有系统增加ElasticSearch使用ElasticSearch和现有的工具 常用于日志收集(分析)系统、实时警报 使用案例 维基百科:全文检索、高亮、搜索推荐。The Guar…

【无标题】Instant NGP(使用哈希编码的多分辨率的即时神经图形原语)

论文基本信息 作者:THOMAS MLLER,NVIDIA,瑞士ALEX EV ANS,NVIDIA,英国CHRISTOPH SCHIED,美国NVIDIA ALEXANDER KELLER,德国 关键词: Image Synthesis, Neural Networks, En- codings…

[230606] 听力TPO66汇总·最终篇|L3-WATM Wether Animals have a Theory Mind|19:30-21:30

[230605] 听力TPO66汇总下篇|L2-Fish Movement|13:00~14:0015:20~17:00 http://t.csdn.cn/jxqyr [230604] 听力TPO66汇总上篇| C1 L1 C2|10:20~12:00 http://t.csdn.cn/zyEGw 极度缺少相关背景知识

蓝精灵协会 | 23 年 6 月通讯

您好,Smurf 朋友们,欢迎阅读我们的新版时事通讯。它旨在分享来自社区及其项目的最新更新。我们希望您会喜欢它! 水晶特卖:折扣从 6 月 19 日开始 根据社区的投票,我们延长了水晶薄荷的持续时间,并减少了折扣…

这所天津的热门院校,保护一志愿,曾连续两年专业课题目完全相同,平均140分!

一、学校及专业介绍 天津工业大学(Tiangong University),简称“天工大”,位于天津市,是教育部与天津市共建高校、国家国防科技工业局和天津市共建的天津市重点建设高校、国家“双一流”建设高校、天津市高水平特色大学…

Python 常用内置函数与匿名函数的应用

目录 一、前言二、常用内置函数2.1 max()2.2 enumerate()2.3 map()3.4 reduce()2.5 filter()2.6 sorted() 一、前言 我们知道,Python 函数总体可分为两类,一类是标准函数,一类是匿名函数。其中标准函数中又可细分为内置标准函数、自定义标准…

支付宝一面:如何基于Redis实现分布式锁?

复习八股文的时候,分布式锁大家应该不陌生,像很多阿里、美团的面试官就很喜欢问这个问题。 前几天一位读者面试阿里的时候,就被问到了这个问题。当时,面试官追问的比较深,一些细节他回答的不是很好。不过,…

遭遇疑似网络攻击时服务器异常情况排查方法

一、适用场景 该方法主要用于发生网信安全异常情况时的异常设备信息提取和登机排查指导,主要包括主机类设备,linux和windows操作系统为主。 二、处理原则 网络安全应急工作坚持统一指挥、分工负责、及时预警、分级响应、密切协同、快速处置、确保恢复、…

Android Studio设置不自动运行到run标签

点击run成功后会自动切换到run标签,很烦人 设置: Edit Configuration app下的Miscellaneous 下,取消勾选 Activate tool window

提升项目经理能力,有什么方法?

一,项目管理是职场的基础能力 他思考了一会,和我说:项目经理这个职业,同事专业性强,薪酬稳定,福利优越。只要有几年的项目管理经验,也能生存无忧。 但是,如果你不满足于只做一个普…

计网笔记--数据链路层

1--数据链路层三个问题 ① 封装成帧 ② 差错控制 差错检测:奇偶校验和循环冗余校验 ③ 可靠传输 2--三种可靠传输协议 ① 停止-等待协议(SW) 接收成功,发送ACK确认信号,接收失败,发送NAK否认信号&#xf…

Elasticsearch:ignore_malformed,映射异常的解药

我们知道在文档摄入到 Elasticsearch 时,如果文档的字段在 mapping 中已经有定义,而当前的文档的字段的类型和之前的类型是不一样的情况下,那么我们该如何处理呢?通常由如下的几种方法: 使用 coerce 属性。在这种情况…

python微信公众号推送消息

目录 准备数据 接口 代码 微信公众号开发文档:https://developers.weixin.qq.com/doc/offiaccount/Getting_Started/Overview.html 准备数据 1、微信公众号注册:https://mp.weixin.qq.com/debug/cgi-bin/sandbox?tsandbox/login 2、注册成功后可生…

基于TCP/UDP的Socket编程

---- socket概述: socket是在应用层和传输层之间的一个抽象层,它把TCP/IP层复杂的操作抽象为几个简单的接口供应用层调用已实现进程在网络中通信。 socket起源于UNIX,在Unix一切皆文件哲学的思想下,socket是一种"打开—读/写…

springboot启动流程 (3) 自动装配

在SpringBoot中,EnableAutoConfiguration注解用于开启自动装配功能。 本文将详细分析该注解的工作流程。 EnableAutoConfiguration注解 启用SpringBoot自动装配功能,尝试猜测和配置可能需要的组件Bean。 自动装配类通常是根据类路径和定义的Bean来应…

005 Settings可以直接通过AndroidStudio安装并调试(二)——Settings 打release包遇到的问题

一.背景 Settings迁移到AndroidStudio中直接打release包是有各种问题的,打不出来包,这里我们详细来描述下Settings打包出现的问题及解决方案。 二.Type com.android.settingslib.widget.BuildConfig is defined multiple times 首先遇到的拦路虎,也是最繁琐的包名冲突,之…

为什么配电室总出故障?这一点你做对了吗

配电室是供电系统中非常关键的组成部分,负责对电能进行分配和控制。然而,传统的配电室监控方式存在一些局限性,如人工巡检的局限性、监测数据获取困难、安全隐患无法及时发现等。 因此,为了提高配电室的管理水平、确保供电系统的安…

剑指offer03.数组中重复的数字

看到这道题的第一眼想到的是先给它排序,然后双指针从左往右遍历,写了一个冒泡排序,但是我想到了应该会超时,因为冒泡时间复杂度是n的平方,输入大小时10000,肯定会超时,然后右又看了一下题目看到…