决策树算法、随机森林算法

news2024/11/25 20:37:17

一、决策树

1、什么是决策树?如何进行高效的决策?

最早的决策树就是利用程序设计中的if-else结构分割数据的一种分类学习法。决策树的思想就是:如何高效的进行决策。而我们决策是有顺序的,即:我们在看不同的特征的时候,先看哪一个,后看哪一个是有讲究的。因为正确的特征先后顺序有利于我们进行高效的决策。比如:

从上图可以看出,该女生最在意的是男方的年龄,其次是长相,收入,职业。如果男方年龄不合适,则直接就不见了,就省去了后面的问题。所以正确的特征的先后顺序有利于我们进行高效决策。 

2、特征的先后顺序

举例:已知有四个特征:“年龄”,“是否有工作”,“是否有自己的房子”,“信贷情况”这四个特征,请你预测是否要贷款给某个人。

参考上图(以往的样本),如果我们先看是否有房子,再看是否有工作:

以往的样本中,有房子的都拿到了贷款:

 但是,有一些人没有房子也拿到了贷款,所以我们光看房子还不够,所以继续看是否有工作。

剩下的没放没工作的人,不论信用如何,都没有拿到贷款。所以如果我们先看房子,再看工作,就不用再看其他特征,就可以决定是否贷款了。

如果我们不按照这个顺序,比如我们先看年龄,再看信贷情况,再看工作,才能确定是否贷款。如下图:

我们需要看3个特征才能确定是否贷款,这个效率显然就比前面看2个特征的效率要低了。所以,特征的先后顺序会影响到我们决策的效率。

那么问题来了,我们如何找到高效的决策顺序呢?这里就要引入信息熵、信息增益的知识。

3、信息论基础——信息熵

1)什么是信息?

信息是消除随机不定性的东西是信息(香农定义的)。比如:我不确定小明的年龄。而小明说:“我今年18岁。”那么“我今年18岁。”就是一个信息。

为了进一步取理解什么是信息,我们再举一个例子:现在我已经知道小明18岁了,而小华说:“小明明年19岁。”那么“小明明年19岁。”这句话就不算信息了,因为小明之前已经告诉了我他的年龄,我对于小明年龄的不确定性已经被消除,所以小华这句话并没有消除我任何不确定性,所以不能算是信息。

2)信息的衡量——信息量和信息熵

信息熵并不直接等于信息量(很多人错误地以为信息熵=信息量,其实并不是!!!)

在信息论中,信息熵度量的是一条信息的不确定程度,不确定性越大,则信息熵越大

那么如何衡量我消除不确定性的大小呢?这需要我们去对信息进行量化,从而产生了一个新名词——信息熵,就是我们消除不确定性的大小

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/46880.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SSE AVX 发展简单介绍

SIMD全称是"Single Instruction, Multiple Data". SSE1是Pentium III引入的,它操作于16 bytes寄存器。在C和C中,这些寄存器以__m128的形式作为数据类型(128 bits16 bytes)。每个寄存器包含4个单精度浮点数float,指令集一共有8个这…

virtualbox下ubuntu虚拟机配置网络

一、目标: 1.在ubuntu虚拟机内可以联通外网 2.可以通过本机ssh连接上ubuntu虚拟机 二、Virtualbox配置 1.勾选 “系统->网络” 2.配置双网卡 网卡1配置为Nat,网卡2配置为Host-Only 三、ubuntu虚拟机内部设置 vi /etc/netplan/00-installer-confi…

OS_内存管理@非连续方式@段式和段页式

文章目录OS_内存管理非连续方式段式和段页式内存管理方式的发展基本分段存储逻辑结构图逻辑地址结构划分段表地址变换机构段表寄存器内容结构段和段表项的记号地址变换机构变换过程段的共享与保护段页式存储逻辑地址结构实现思路:段表和页表的变体🎈逻辑结构图sp-段…

HLS + ffmpeg 实现动态码流视频服务

一、简介 如下图,包含三部分,右边一列为边缘节点;中间一列代表数据中心;左边一列是项目为客户提供的一系列web管理工具: 具体来说在我们项目中有一堆边缘节点,每个节点上部署一台强大的GPU服务器及N个网络…

猴子也能学会的jQuery第十二期——jQuery遍历(下)

📚系列文章—目录🔥 猴子也能学会的jQuery第一期——什么是jQuery 猴子也能学会的jQuery第二期——引用jQuery 猴子也能学会的jQuery第三期——使用jQuery 猴子也能学会的jQuery第四期——jQuery选择器大全 猴子也能学会的jQuery第五期——jQuery样式操作…

0201导数的概念-导数与微分-高等数学

文章目录1 导数的定义2 常见函数的导数(导函数)3 单侧导数4 导数的几何意义5 可导和连续的关系6 后记1 导数的定义 设函数yf(x)yf(x)yf(x)在点x0x_0x0​的某个邻域内有定义,当自变量x在x0取得增量△xx在x_0取得增量\triangle xx在x0​取得增量△x(点x△xx\triangle …

品优购项目案例制作需要注意的内容笔记

个人在做的时候遇到的,自己觉得需要注意的内容 模块化 1.有些样式和结构在很多页面会出现,比如页面的头部和底部,大部分页面都有。此时可以把这些结构和样式单独作为一个模块,然后重复使用 2.这里最典型的应用就是common.css公…

虚拟内存系统【多级页表】

多级页表🏝️1. 考虑使用更大的页🏖️2. 使用段页式管理📖2.1 为什么采用段页式管理?📖2.2 段页式管理的缺点🏞️3. 多级页表📖3.1 多级页表的优点📖3.2 多级页表的缺点&#x1f4d6…

文本匹配实战:基于Glove+RNN实现文本匹配 详细教程

任务描述: 文本匹配是自然语言处理中一个非常核心的任务,主要目的是研究两段文本之间的关系。许多自然语言处理任务在很大程度上都可以抽象成文本匹配问题,比如信息检索可以归结为搜索词和文档资源的匹配,问答系统可以归结为问题和候选答案的匹配,复述问题可以归结为两个同…

数商云SRM系统招标流程分享,助力建筑材料企业降低采购成本,提高采购效率

近年来,随着主管部门对房地产市场的监管非常严格,房地产业的发展已进入瓶颈期,这对与房地产业密切相关的建材行业产生了很大的影响。同时,我国城市化进入成熟期,行业规模发展动力减弱,建材行业增长压力明显…

谷粒商城1.项目简介和项目环境预搭建(项目概述和环境搭建代码)

一.商城项目总体架构 从讲课篇看 从分块来看 项目知识概述 二.环境搭建代码 1.项目架构 建立父工程 pom文件 <description>聚合服务</description><packaging>pom</packaging><modules><module>gulimall-coupon</module><mo…

H2数据库端口占用

因为服务已经起来了&#xff0c;然后自己再想测试的时候&#xff0c;发现端口已经占用&#xff0c;找了好久在官网文档找到了对应的解决方案 意思是在服务端上&#xff08;就是我们的配置文件application.yml&#xff09;我们得加上tcp://localhost/也就是你的主机地址tcp://12…

Lambert (兰伯特)光照模型

漫反射的定义 漫反射是投射在粗糙表面上的光向各个方向反射的现象。当一束平行的入射光线射到粗糙的表面时&#xff0c;表面会把光线向着四面八方反射&#xff0c;所以入射线虽然互相平行&#xff0c;由于各点的法线方向不一致&#xff0c;造成反射光线向不同的方向无规则地反…

小程序赋能生鲜食品进销存,线上+物流系统两手抓

互联网、物联网和消费升级的多重影响下&#xff0c;生鲜食品市场的流通更加便捷。在国内外的生鲜产品的可用性不再受季节和地区的限制&#xff0c;需求也逐渐增加。 那么随着生鲜食品商城小程序和网上商城购物系统平台的数量逐渐增加&#xff0c;如何体现其价值在企业进销存系统…

基于EasyExcel锁定指定列导出数据到excel

基于EasyExcel锁定指定列导出数据到excel 大家好&#xff0c;我是llp。最近在做系统报表时中有一个需求时这样的&#xff0c;需要查询系统数据导出excel&#xff0c;并要求导出的excel列中有一些时锁定的有一些时不锁定的&#xff0c;即使实现动态列锁定的效果。看上去应该是一…

AWS 中文入门开发教学 39- AWS CLI - AWS认证 必须会的命令行工具

AWS CLI是什么 AWS Command Line Interface (AWS CLI) 是一种开源工具&#xff0c; 让您能够在命令行 Shell 中使用命令与 AWS 服务进行交互。 仅需最少的配置&#xff0c;即可使用 AWS CLI 开始运行命令&#xff0c;以便从终端 程序中的命令提示符实现与基于浏览器的 AWS 管理…

mysql基础知识篇(四)

1.MySQL 索引用的什么数据结构了解吗&#xff1f; MySQL 的默认存储引擎是 InnoDB&#xff0c;它采用的是 B树结构的索引。 B树&#xff1a;只有叶子节点才会存储数据&#xff0c;非叶子节点只存储键值。叶子节点之间使用双向指针连接&#xff0c;最底层的叶子节点形成了一个…

FTP服务配置和使用

FTP介绍 FTP&#xff08;文件传输协议20、21端口&#xff09;是典型的C/S架构的应用层协议&#xff0c;需要由服务端软件、客户端软件两个部分共同实现文件传输协议。FTP是客户端和服务器之间的连接是可靠的保证。 FTP是一种文件传输协议&#xff0c;它支持两种模式&#xff…

集合框架----源码解读LikedHashSet篇

1.官方介绍 Hash表和链表实现了Set接口&#xff0c;具有可预测的迭代顺序。该实现与HashSet的不同之处在于它维护了一个贯穿其所有条目的双向链表。该链表定义了迭代顺序&#xff0c;即元素插入集合的顺序(插入顺序)。注意&#xff0c;如果一个元素重新插入到集合中&#xff0c…

Git---idea中git的基本操作

idea中使用git仓库 idea中配置git仓库&#xff1a; 首先idea配置git仓库的位置 配置完成之后&#xff0c;有两种创建仓库的方式 从本地配置git仓库&#xff1a; idea本身设置好的&#xff0c;直接下一步就好 从远程克隆仓库&#xff1a; 如果远程仓库没有的话可以绑定完…