03 decision tree(决策树)

news2025/1/17 17:59:13

一、decision tree(决策树)

1. classification problems(纯度)

i . entropy (熵)

​ 作用:衡量一组数据的纯度是否很纯 ,当五五开时他的熵都是最高的,当全是或者都不是时熵为 0

在这里插入图片描述

i i . information gain (信息增益)

​ 父节点到子节点的熵的减少称为信息增益,处理分支熵的时候,选择使用熵的加权平均值来衡量熵值的高低,计算信息增益是为了看两阶之间如果增益太小的话则不需要分了
在这里插入图片描述

i i i . 多个&连续特征

a)one hot coding(独热编码)

​ **使用:**如果一个特征有多个可能取值,我们可以将多个取值都变为一种特征,然后取值变为0,1是否

b) 连续特征

​ **解决:**如果一个特征有连续的取值,类似体重,可以按照信息熵来划分一个界限

2、regression tree(回归树)

i. how to choosing a spilt

a). 根据方差选择回归树

​ 先计算出根节点的方差,然后计算不同特征分类以后的方差,选择方差差值较大的一个作为划分条件

在这里插入图片描述

i i. weaknesses of desicion tree

​ 改变数据集中的一个数据就会对最后的树造成很大的影响,形成一个根据不同条件划分的树

​ 解决:多构建几个树,使用树的合集来共同决策最后的结果,来投票最后的结果

二、决策森林

i. Sampling with replacement(有放回抽样)

​ **作用:**通过有放回的多次抽样,得到多个和原始训练集大小一样的训练集,与原始的相似但不同的新训练集

i i . Random forest algorithm

a) 袋装决策树

使用 : 使用放回抽样来生成新的dataset,用生成的新的dataset来训练模型,得到新的decision tree,一共重复m次,m 的取值一般为64-228,一般是100往后可能会收益递减。

b) random forest algorithm

与上面的不同: 袋装决策树会因为dataset的小的改变而改变根节点和附近的划分特征,而这里会选择从n个feature中选择 k 个特征,从中选择entropy最大feature来进行划分。

为什么比单一的决策树更加健壮: 因为有放回抽样给了很多个具有微小误差的dataset,训练了不同的决策树,对训练集很多小的变化的求平均

i i i. XGBoost (极端梯度增强)

​ **作用:**在前面创建随机森林过程中,对于每次当前dataset中训练错误,在下一次有放回的dataset中都有更大的机会从错误的例子中取出看,进行有针对的错误训练,使得更加 的高效

使用:

在这里插入图片描述

三 、Conclusion

1 . 决策树,集成树,神经网络的优缺点

i . 决策树和集成树的优缺点:

  • 能够很好的处理表格数据(结构化数据),类似于房价问题,将数据都可以做成一个表格的形式,然后我们可以做出分类或者回归预测的任务
  • 不建议在视频,图像,音频和文本等非结构化数据使用,神经网络能很好的处理非结构数据

i i .神经网络的优缺点

  • 决策树的训练时间很快,大型的神经网络的训练时间通常都是很慢
  • 能够很好的和transfer learning协同工作
  • 多个机器学习模型协同工作的系统,多个神经网络一起训练比多个决策树更加容易

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1358059.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据结构】——期末复习题库(6)

🎃个人专栏: 🐬 算法设计与分析:算法设计与分析_IT闫的博客-CSDN博客 🐳Java基础:Java基础_IT闫的博客-CSDN博客 🐋c语言:c语言_IT闫的博客-CSDN博客 🐟MySQL&#xff1a…

【bug】【VSCode】远程终端TERMINAL打不开

【bug】【VSCode】远程终端TERMINAL打不开 可能的原因现象分析解决 可能的原因 昨天晚上vscode在打开多个TERMINAL的情况下,挂了一晚上,今早上来看的时候全都lost connections…。然后关闭再打开就出现了如上现象。 早上一来到实验室就要debug… 现象…

金蝶Apusic应用服务器 loadTree JNDI注入漏洞

产品介绍 金蝶Apusic是一款企业级应用服务器,支持Java EE技术,适用于各种商业环境。 漏洞概述 由于金蝶Apusic应用服务器权限验证不当,使用较低JDK版本,导致攻击者可以向loadTree接口执行JNDI注入,远程加载恶意类&a…

计算机Java项目|Springboot+vue 学生心理咨询评估系统

作者主页:编程指南针 作者简介:Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师 主要内容:Java项目、Python项目、前端项目、人工智能与大数据、简…

Linux内存管理:(五)反向映射RMAP

文章说明: Linux内核版本:5.0 架构:ARM64 参考资料及图片来源:《奔跑吧Linux内核》 Linux 5.0内核源码注释仓库地址: zhangzihengya/LinuxSourceCode_v5.0_study (github.com) 1. 前置知识:page数据结…

STM32 内部 EEPROM 读写

STM32 的某些系列 MCU 自带 EEPROM。笔者使用的 STM32L151RET6 自带 16 KB 的 EEPROM,可以用来存储自定义的数据。在芯片选型时,自带 EEPROM 也可以作为一个考量点,省去了在外接 EEPROM 的烦恼。 下面简单介绍下 STM32 内部 EEPROM 的读写流…

伦茨科技Apple Find My认证芯片-ST17H6x芯片

深圳市伦茨科技有限公司(以下简称“伦茨科技”)发布ST17H6x Soc平台。成为继Nordic之后全球第二家取得Apple Find My「查找」认证的芯片厂家,该平台提供可通过Apple Find My认证的Apple查找(Find My)功能集成解决方案。…

ARCGIS PRO SDK Geoprocessing

调用原型:Dim gpResult AS IGPResult await Geoprocessing.ExecuteToolAsync(调用工具名称, GPValue数组, environment, null, null, executeFlags) 一、调用工具名称:地理处理工具名称。如面转线:management.PolygonToLine,而非…

Spring Cloud Gateway 缓存区异常

目录 1、问题背景 2、分析源码过程 3、解决办法 最近在测试环境spring cloud gateway突然出现了异常,在这里记录一下,直接上干货 1、问题背景 测试环境spring cloud gateway遇到以下异常 DataBufferLimitException: Exceeded limit on max bytes t…

Wireshark本地回环网络抓包

背景 因为发往本机的数据包是通过回环地址的,即:数据包不会通过真实的网络接口发送,因此我们需要通过设置路由规则来让本来发到虚拟网络接口的数据包发送到真实网络接口即可。 场景描述:在网络程序开发的过程中,有时…

Linux中 /etc/sysconfig/network-scripts/ifcfg-<interface> 网络接口配置 详解 看这一篇够用

CSDN 成就一亿技术人! 今天就来讲讲Linux中的网络配置详解 CSDN 成就一亿技术人! 在 Linux 系统中,/etc/sysconfig/network-scripts 目录包含用于配置网络接口的脚本和配置文件。这些文件由 NetworkManager 服务使用来启动、停止和管理网络…

React组件之间的8种通讯方式

在 React 社区,遇到最多的其中一个问题是“不同组件之间如何相互通讯”。 在网上搜索了一些答案之后,早晚会有人提到 Flux,随后问题来了:“怎么用Flux解决通讯问题?Flux是必须的吗?”。 有时候 Flux 能解…

Activiti7官方在线流程设计器下载和部署

文章目录 一、流程设计器下载二、流程设计器简单运行三、流程设计器简单使用四、流程设计器持久化持久化会遇到的常见错误 五、流程设计器汉化说明菜单汉化操作汉化 参考文档 一、流程设计器下载 官网下载地址:https://www.activiti.org/get-started 点击直接获取官…

【hcie-cloud】【16】业务上云迁移、Rainbow详述

文章目录 前言华为业务迁移解决方案概述业务上云背景概述业务迁移场景需求及挑战业务迁移的价值华为业务迁移解决方案 - 全景图华为业务迁移解决方案的优势 Rainbow迁移工具介绍Rainbow迁移原理介绍Rainbow迁移工具简介Rainbow迁移工具定位Rainbow迁移视图Rainbow迁移原理 - Wi…

CRM系统是怎样进行客户管理的?系统定制功能选择

CRM管理系统一直被视为企业增长和客户管理的支柱。从管理互动到培育潜在客户,CRM毫无疑问地彻底改变了企业与客户互动的方式。但是,在如今多变的市场环境下,这类通用化的CRM系统愈来愈无法满足具体需求。随着企业发展和演化,其具体…

算法第五天-解码异或后的数组

解码异或后的数组 题目要求 解题思路 来自[宫水三叶] 这是道模拟(重拳出击)题。 根据题目给定的规则,利用如下异或性质从头做一遍即可: 1.相同数值异或结果为0; 2.任意数值与0进行异或,结果为数值本身&am…

如何将铁威马NAS设置为固定IP?

首先你需要配置正确的TNAS的网络设置,否则TNAS 将无法连接到互联网或无法被访问。 你可以在网络接口中设置TNAS的网络接口参数。TNAS设备可能配置有一个,两个或者两个以上的网络接口。你可以对网络接口逐一进行设置。 1、登录铁威马TOS系统&#xff0c…

实现播放m3u8视频流

实现m3u8视频流,网上查了很多用video-player插件可以实现,我开始也用的这个插件,但是没能实现,提示我要安装flash插件,但是安装后,也不能使用,在网上找了一下其实是不需要安装flash插件。反正试了我用不了&…

GUI二维绘图

低级绘图命令line 有什么点就点哪里,然后连起来,没什么细节,不光滑,所以基本不会用到。 x0:0.2*pi:2*pi; ysin(x); line(x,y);%画一条sin函数线 line([-5,5],[2,2]);%画一条水平线 line([5,5],[0,2]);%画一条竖线 高级绘图命令…

并发程序设计--D4GDB调试多进程程序

使用GDB调试此程序 start后 10行进入father进程,接下来会一直在父进程不断执行程序 那么如何进入子进程? 此时杀死此程序进程 重新gdb调试,使用以下命令,再使用n,可进入子进程 那么如何同时调试父进程和子进程 上图可…