《机器学习》周志华-CH4(决策树)

news2024/9/24 19:17:40

4.1基本流程

  决策树是一类常见的机器学习方法,又称“判别树”,决策过程最终结论对应了我们所希望的判定结果。

一棵决策树 { 一个根结点 包含样本全集 若干个内部结点 对应属性测试,每个结点包含的样本集合根据属性测试结果划分到子结点中 若干个叶结点 对应决策结果 一棵决策树 \begin{cases} 一个根结点 &包含样本全集 \\ 若干个内部结点 & 对应属性测试,每个结点包含的样本集合根据属性测试结果划分到子结点中 \\ 若干个叶结点 & 对应决策结果 \\ \end{cases} 一棵决策树 一个根结点若干个内部结点若干个叶结点包含样本全集对应属性测试,每个结点包含的样本集合根据属性测试结果划分到子结点中对应决策结果

  决策树的生成是一个递归过程

  有三种情况会递归返回
在这里插入图片描述

4.2划分选择

  关键在于如何选择最优划分属性

  我们希望决策树分支结点所包含的样本尽可能属同一类别,即“纯度”(purity)越来越高

4.2.1信息增益

  “信息熵”(information entropy)是度量样本纯度的一种指标
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  学习一棵能预测是不是好瓜的决策树。 ∣ y ∣ = 2 |y|=2 y=2

  数据集一共17个西瓜,正例8个,反例9个。则 P 1 = 8 17 P_{1}=\frac{8}{17} P1=178, P 2 = 9 17 P_{2}=\frac{9}{17} P2=179

  信息熵:

  计算当前属性集合{色泽,根蒂,瞧声,纹理,脐部,触感}每个属性信息增益。

在这里插入图片描述
在这里插入图片描述
同理其他信息增益 { G a i n ( D , 根蒂 ) = 0.143 G a i n ( D , 敲声 ) = 0.141 G a i n ( D , 纹理 ) = 0.381 最大,选为划分属性 G a i n ( D , 脐部 ) = 0.289 G a i n ( D , 触感 ) = 0.006 同理其他信息增益 \begin{cases} Gain(D,根蒂)=0.143 &\\ Gain(D,敲声)=0.141 & \\ Gain(D,纹理)=0.381 & 最大,选为划分属性 \\ Gain(D,脐部)=0.289 & \\ Gain(D,触感)=0.006 & \\ \end{cases} 同理其他信息增益 Gain(D,根蒂)=0.143Gain(D,敲声)=0.141Gain(D,纹理)=0.381Gain(D,脐部)=0.289Gain(D,触感)=0.006最大,选为划分属性

在这里插入图片描述

在这里插入图片描述

4.2.2增益率

  信息增益准则对可取值数目较多的属性有所偏好

   C 4.5 C_{4.5} C4.5决策树算法不直接使用信息增益,而是使用“增益率”(gain ratio)

在这里插入图片描述

  增益率准则对可取值数目较少的属性有所偏好。

   C 4.5 C_{4.5} C4.5并不是直接使用增益率:先找信息增益高于平均水平的,再选择增益率最高。

4.2.3基尼参数

  CART决策树使用“基尼指数”选择划分属性
在这里插入图片描述

4.3剪枝处理

  剪枝(pruning)是用来解决“过拟合”,比如分支过多,把训练集自身的一些特点当作所有数据的一般性质。
在这里插入图片描述

4.3.1预剪枝

在这里插入图片描述

4.4连续与缺失值

4.4.1连续值处理

  由于连续属性的可取值数目不再有限,连续属性离散化技术可派上用场。比如二分法(bipartition-)对连续属性进行处理( C 4.5 C_{4.5} C4.5决策树机制)

  给定样本集 D D D,连续属性 a a a

  假定 a a a D D D上出现了 n n n个不同值,从小到大排序
在这里插入图片描述
在这里插入图片描述

4.4.2缺失值处理

  比如一些缺失属性值进行训练样例

  (1)如何在属性缺失的情况下进行划分属性选择?
  (2)给定划分属性,若该属性上的值缺失,如何对样本进行划分?
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
  举例,数据集看之前 C 4.5 算法策略如上页一样的解决方案 C_{4.5}算法策略如上页一样的解决方案 C4.5算法策略如上页一样的解决方案

   D D D一共有17个样例{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17},各样例权值均为1

  以属性“色泽”为例,属性上无缺失值的样例子集

在这里插入图片描述
在这里插入图片描述

4.5多变量决策树

  若我们把每个属性视为坐标空间中的一个坐标轴,则 d d d个属性描述的样本就对应了 d d d维空间中的一个数据点寻找,寻找不同样本的分类边界。
  决策树形成的分类边界特点:轴平行(axis-parallel),分类边界由若干个与坐标轴平行的分段组成

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2093476.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于ssm+vue的汽车租赁管理系统

摘要 随着移动应用技术的发展,越来越多的用户借助于移动手机、电脑完成生活中的事务,许多的传统行业也更加重视与互联网的结合,以提高商家知名度和寻求更高的经济利益。针对传统汽车租赁系统,租赁信息、续租信息等问题&#xff0c…

第4章-07-将WebDriver获取的Cookie传递给Requests

🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年CSDN全站百大博主。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 🏆本文已收录于专栏:Web爬虫入门与实战精讲,后续完整更新内容如下。 文章…

linux下基本指令(持续更新)

目录 1.adduser 2.passwd 3.userdel 4. su - 5.ls 6.pwd ​编辑 7.cd 8.touch 9.mkdir 🚀 10. rmdir && rm 🚀 11.whoami (who am i) 12.clear 13.tree (需要安装 yum install -y tree) 14.who 1.adduser 语法&…

TCP协议(1)

目录 一、TCP协议介绍 二、TCP协议格式 2.1、解包与分用 2.2、TCP的可靠性 2.3、TCP的工作模式 2.4、确认应答(ACK)机制 2.5、32位序号与确认序号 2.6 16位窗口大小 2.7 六个标志位 2.7.1、SYN 2.7.2、FIN 2.7.3、ACK 2.7.4、PSH 2.7.5、URG 2.7.6、RST 2.8、T…

Arco Voucher - 不知道有什么用的凭证单据录入表单插件

关于 Arco Voucher Arco Voucher 插件是一款不知道有什么用的凭证单据录入表单插件,可能只是为了看着像传统的凭证单据。 动态表头 附件上传/预览 添加凭证明细 https://apps.odoo.com/apps/modules/browse?authorzerone40 如有插件定制化需求或其他插件资源…

MATLAB智能优化算法-学习笔记(2)——变邻域搜索算法求解旅行商问题【过程+代码】

旅行商问题 (TSP) 旅行商问题(Traveling Salesman Problem, TSP)是经典的组合优化问题之一。问题的描述是:给定若干个城市以及每对城市之间的距离,一个旅行商需要从某个城市出发,访问每个城市恰好一次,最后回到出发城市,目标是找到一条总距离最短的环路。TSP 是 NP-har…

通用 PDF OCR 到 Word API 数据接口

通用 PDF OCR 到 Word API 数据接口 文件处理,OCR,PDF 高可用图像识别引擎,基于机器学习,超精准识别率。 1. 产品功能 通用识别接口;支持中英文等多语言字符混合识别;formdata 格式 PDF 文件流传参&#xf…

MySql执行计划(Explain关键字详解)

文章目录 预备知识学习本内容的前提必须了解1.什么是Explain?2.如何使用Explain?3.explain字段详解3.1、ID字段(情况1)、id值不同:(情况2)、id值相同:(情况3)、id列为null:(情况4)、子查询优化后3.2、select_type字段:表示那个是主要的查询1.simmple:2.primary:3.derived:…

WeStorm(没有指向JVM)

##一直困扰了好久,之前打开IDEA会弹出这个: 然后重启IDEA就没弹出来了。但是的但是,最近打开WebStorm也弹出来这个,重启也解决不了,一开始以为是JDK的问题,但是检查了好几遍,发现都没问题&…

沉浸式体验Stability AI文生图、图生图、图片PS功能(中篇)

今天小李哥就来介绍亚马逊云科技推出的国际前沿人工智能模型平台Amazon Bedrock上的Stability Diffusion模型开发生成式AI图像生成应用!本系列共有3篇,在上篇中我们学习了如何在亚马逊云科技控制台上体验该模型的每个特色功能,如文生图、图生…

Vue setup语法糖

未使用setup语法糖 <script lang"ts">export default {name: "App",setup() {let name "张三"let age 20function handleClick() {age 1}return {name,age,handleClick,}}} </script><template><div class"class&…

基于django+vue+uniapp的摄影竞赛小程序

开发语言&#xff1a;Python框架&#xff1a;djangouniappPython版本&#xff1a;python3.7.7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;PyCharm 系统展示 管理员登录 管理员主界面 教师管理 学…

open3d无法读取的obj点云文件处理方案

open3d无法读取的obj点云文件处理方案 open3d读取obj文件什么原因解决方案导入选择点云文件选择 file -> save->保存格式解决 数据下载 open3d读取obj文件 import open3d as o3dif __name__ __main__:# 读取obj文件mesh o3d.io.read_triangle_mesh(r/home/gj/gj/open3…

【DCVRP】元启发式算法进一步优化

为什么加入元启发式算法&#xff1f; DCVRP-IMGR的求解质量可以快速的达到10%之内&#xff0c;但在DCVRP_IMGR生成方案完成后至下一个动态事件发生之间存在一段时间&#xff0c;当动态事件发生的非常频繁&#xff0c;这段时间可能会非常短暂&#xff0c;然而动态事件发生得不是…

mmitmproxy 抓包工具使用

mitmproxy 抓包工具使用 前言 本章内容均来自&#xff0c;《Python3 网络爬虫开发实战》- 崔庆才&#xff0c;在学习过程中&#xff0c;遇到写问题故此记录一下 学习本文章前确保准备好如下内容&#xff1a; 安装并成功运行 mumu 安卓模拟器 mitmproxy 介绍 mitmproxy是一…

【小记】excel函数 vlookup,hyperlink,批量修改文件名称

统计是否缺少文件【hlook函数】&#xff0c;超链接到对应文件【hyperlink函数】&#xff0c;批量修改文件名称 统计是否缺少文件【hlook函数】step1&#xff1a;路径复制进表格step2&#xff1a;处理文件名称step3&#xff1a;使用vlookup函数 超链接到对应文件【hyperlink函数…

【MySQL】插入优化篇——(少量插入数据优化&批量插入数据load指令)

前言 大家好吖&#xff0c;欢迎来到 YY 滴MySQL系列 &#xff0c;热烈欢迎&#xff01; 本章主要内容面向接触过C Linux的老铁 主要内容含&#xff1a; 欢迎订阅 YY滴C专栏&#xff01;更多干货持续更新&#xff01;以下是传送门&#xff01; YY的《C》专栏YY的《C11》专栏YY的…

axios响应

一.axios请求配置项(axios在调用时所接收的参数对象&#xff09; 以下是请求时可用的配置选项&#xff0c;只有url是必须的&#xff0c;如果没有指定method&#xff0c;请求将默认使用get方法 { // url 是用于请求的服务器 URL url: "/user", // method 是创建请…

二叉树的相关oj题目 — java实现

二叉树的所有相关oj题 题目翻转二叉树判断两颗树是否相同对称二叉树判断一棵二叉树是否为另一颗的子树平衡二叉树方法1&#xff1a;方法2&#xff1a;&#xff08;更快&#xff09; 二叉树的层序遍历二叉树的层序遍历II最近公共祖先方法1&#xff1a;方法2&#xff1a; 二叉树的…

实操经验 | Apache 基金会顶级项目版本管理和发布流程

前言 前段时间&#xff0c;Apache SeaTunnel经过几个月的迭代和架构升级&#xff0c;终于迎来第一个正式2.3.0版本&#xff0c;我也有幸作为本次的Release Manager&#xff0c;体验了一把从0到1的Apache发版流程&#xff0c;不得不说Apache基金会在项目的版本管理这块有着完善…