决策树 和 集成学习、随机森林

news2024/9/9 1:30:14

决策树是非参数学习算法,可以解决分类问题,天然可以解决多分类问题(不同于逻辑回归或者SVM,需要通过OVR,OVO的方法),也可以解决回归问题,甚至是多输出任务,并且决策树有非常好的可解释性。决策树功能强大,能够拟合复杂的数据集。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在线dot转换png
https://onlineconvertfree.com/zh/

在这里插入图片描述

对于二分类:
H = − p ⋅ l o g ( p ) − ( 1 − p ) ⋅ l o g ( 1 − p ) H = -p \cdot log(p) - (1-p) \cdot log(1-p) H=plog(p)(1p)log(1p)

通过信息熵可以看到当前数据的不确定度。对于决策树,在根节点上要找到一个维度和一个阈值,对根节点进行划分,划分之后希望整体信息熵减小,进而对于划分出来的两个子节点重复递归划分的方法,逐步减小整体的信息熵。

在这里插入图片描述
对于二分类:
G = 1 − p 2 − ( 1 − p ) 2 = 1 − p 2 − 1 + 2 p − p 2 = − 2 p 2 + 2 p \begin{aligned} G &= 1 - p^2 - (1-p)^2 \\ &= 1 - p^2 -1 + 2p - p^2 \\ &= -2p^2 + 2p \end{aligned} G=1p2(1p)2=1p21+2pp2=2p2+2p

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

每次都是对半划分,决策树高度:logm
维度:n,样本:m ,遍历:n*m

在这里插入图片描述

在这里插入图片描述
如使用 CART 的方式,在每个叶子节点都包含若干个数据,如果这些数据的输出值是类别的话,则可以在叶子结点中让数据进行投票,归为多的一类的数据的类别。

在这里插入图片描述

在这里插入图片描述

决策树的局限性
1、
在这里插入图片描述
2、
在这里插入图片描述


集成学习

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
虽然分为 A 类只有两票,但是认为是 A 类的概率非常高,而分为 B 类的票数虽然是三票,都是得到的确定性都不太大。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
每个子模型可以用同一个算法,这样子模型之间的数据不同,是存在有一定的差异性。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

和集成学习的不同,不需要使用多种算法,使用一种算法就可以创建差异性
Bagging:使用随机取样的方式,包括在特征空间中随机取特征,创建诸多的子模型,把它们集成在一起。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
通过 n_jobs 参数控制并行运行的核数

在这里插入图片描述

在这里插入图片描述

在Bagging中,使用的集成学习的方式(基础分类器)是决策树,集成了很多决策树的集成学习,由于采用了随机取样的方式,具有随机性,所以叫做随机森林。

在这里插入图片描述

Extra-Trees:极其随机的随机森林,极其随机的特性表现在决策树节点的划分上。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1959215.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浅谈监听器之后端监听器

浅谈监听器之后端监听器 “后端监听器”(Backend Listener)是一种高级功能,用于异步地将测试结果数据发送至外部系统,如数据库、消息队列或时间序列数据库等,以便于长期存储、实时分析和可视化展示。 后端监听器的作…

python 可视化探索(二):高级图表与组合图表

总结:本文为和鲸python 可视化探索训练营资料整理而来,加入了自己的理解(by GPT4o) 原作者:作者:大话数据分析,知乎、公众号【大话数据分析】主理人,5年数据分析经验,前…

centos安装crictl

上章文章已经讲诉了如何安装centos安装containerd-CSDN博客,本文章讲解如何安装crictl 一、官网安装说明文档,官网 二、二进制安装 #!/bin/sh VERSION"v1.30.0" # check latest version in /releases page wget https://github.com/kubernet…

IDEA 本地有jar包依赖文件,但是所有引用的jar包全部爆红

前端时间 看源码,下载源码额按钮不见了,折腾了很久,遂打算重新安装idea,但是重新安装后,发现代码全都爆红,按照晚上说的删除idea 文件夹,idea缓存删除,都不好使,但是看到…

PMP冲刺题及知识点整理

PMP题目整理 冲刺题1错题整理冲刺题1相关重点记录:零散不熟悉知识点整理团队章程责任分配矩阵RAM定义是啥风险识别的工具都有啥 冲刺题2错题整理知识点整理情商风险登记在风险登记册,风险管理计划中没有风险团队章程项目经理来确保进行知识转移交付哪一个…

【C++】STL-红黑树封装出set和map

目录 1、实现红黑树的泛型 2、set和map的插入 3、set和map的迭代器 3.1 operator 3.2 operator-- 3.3 const迭代器 4、find 5、map的operator[] 6、完整代码 6.1 红黑树 6.2 set 6.3 map 1、实现红黑树的泛型 我们先引入上一节中写的红黑树 enum Colour {RED,BL…

Unity Shader 初学者指南

《Unity Shader 初学者指南》(3D Game Shaders For Beginners) 是一个面向初学者的教程项目,由David Lettier创建。该项目通过一系列分步指导,教授如何在3D游戏中实现各种着色技术,包括环境光遮蔽(SSAO)、景深(Depth of Field)、光照、法线贴…

产品经理-​简历内容的可准备点(24)

在互联网岗位中,产品经理是一个没有针对性的专业,知识结构不明确,那该具体准备哪些内容呢? 大家知道大公司实习含金量高,但作为纯产品“小白”,冷启动找实习很困难(本科生不太好找产品实习,普通…

OSI七层模型详解

OSI七层模型 OSI(Open System Interconnect),即开放式系统互连。 一般都叫OSI参考模型,是ISO组织在1985年研究的网络互连模型。该体系结构标准定义了网络互连的七层框架(物理层、数据链路层、网络层、传输层、会话层、…

loguru日志模块:简化Python自动化测试的日志管理!

引言 日志是软件开发中的关键组成部分,为开发和测试人员提供了调试和监控应用程序的重要手段。loguru 是一个第三方的 Python 日志库,以其简洁的 API 和自动化的功能脱颖而出。本文将探讨为什么项目中需要日志,loguru 为何受到青睐&#xff…

Python | ValueError: not enough values to unpack 解析

Python | ValueError: not enough values to unpack 解析 在Python编程中,ValueError: not enough values to unpack是一个常见的错误,通常发生在尝试将一个可迭代对象解包到太多的变量中时。本文将深入探讨此错误的根源,提供解决思路、方法…

Vue 中使用 inMap 创建动态遮罩覆盖物

本文由ScriptEcho平台提供技术支持 项目地址:传送门 Vue 中使用 inMap 创建动态遮罩覆盖物 应用场景 在基于 Vue 构建的地理信息系统应用中,经常需要在底图上绘制动态的遮罩覆盖物,以突出显示特定区域或隐藏敏感信息。 基本功能 这段代…

瑞芯微平台RK3568系统开发(2)Camera 开发2

基于上文,继续 瑞芯微平台RK3568系统开发(2)Camera 开发1-CSDN博客 1、使用v4l2-ctl说明 media-ctl工具的操作是通过/dev/medio0等media设备,它所管理是media的拓扑结构中各个节点的format,大小,链接。 …

CTF学习笔记汇总(非常详细)零基础入门到精通,收藏这一篇就够了

CTF学习笔记汇总 Part.01 Web 01 SSRF 主要攻击方式如下: 01 对外网、服务器所在内网、本地进行端口扫描,获取一些服务的banner信息。 02 攻击运行在内网或本地的应用程序。 03 对内网Web应用进行指纹识别,识别企业内部的资产信息。 …

Studying-代码随想录训练营day45| 115.不同的子序列、583. 两个字符串的删除操作、72. 编辑距离、编辑距离总结篇

第45天,子序列part03,编辑距离💪(ง •_•)ง,编程语言:C 目录 115.不同的子序列 583. 两个字符串的删除操作 72. 编辑距离 编辑距离总结篇 115.不同的子序列 文档讲解:代码随想录不同的子序列 视频讲…

高效能程序员的9个习惯

最近看了一本关于敏捷软件开发实践的指南,他文中主要是在帮助软件开发者和团队提升工作效率、提高产品质量,并建立良好的工作文化和协作模式。以下是根据目录整理出的一段总结: 书名:《敏捷之道》 本书深入探讨了敏捷开发的核心原…

从 1 到 100 万+连接数,DigitalOcean 负载均衡的架构演进

在前不久,DigitalOcean 全球负载均衡器(GLB)Beta版正式上线。该解决方案能给客户的跨区域业务带来更好的支持,可以增强应用程序的弹性,消除单点故障,并大幅降低终端用户的延迟。这是 DigitalOcean 负载均衡…

Python写UI自动化--playwright(pytest.ini配置)

在 pytest.ini 文件中配置 playwright 的选项可以更好地控制测试执行的过程。 在终端输入pytest --help,可以找到playwright的配置参数 目录 1. --browser{chromium,firefox,webkit} 2. --headed 3. --browser-channelBROWSER_CHANNEL 4. --slowmoSLOWMO 5. …

魔众文库-PHP文库管理系统

魔众文库是一套基于PHPMYSQL开发的适用于多平台的文档管理系统,提供doc、ppt、excel、pdf、压缩包、图片、CAD 等资源的在线预览和下载,文件被转换为H5或图片格式,文字放大无失真,响应速度更快速对SEO更友好,收录更快、…

NFTScan | 07.22~07.28 NFT 市场热点汇总

欢迎来到由 NFT 基础设施 NFTScan 出品的 NFT 生态热点事件每周汇总。 周期:2024.07.22~ 2024.07.28 NFT Hot News 01/ 数据:NFT 系列 Liberty Cats 地板价突破 70000 MATIC 7 月 22 日,据 Magic Eden 数据,NFT 系列 Liberty C…