机器学习——决策树模型

news2024/9/27 21:24:12

决策树原理

算法概述

从根节点开始一步步走到叶子节点(决策)

所有数据最终都会落到叶子节点,既可以做分类也可以做回归

在这里插入图片描述

例如上例,输入一个数据后,先判断他的年龄,然后再判断性别

在决策树中,根节点的决策效果较强——即能够明显的将数据划分(分类的效果最好)

因此,对于每个节点特征的选取,为决策树需要解决的核心内容

树的组成

根节点:第一个选择点

叶子节点:最终的决策结果

非叶子节点与分支:中间过程

决策树的训练与测试阶段

训练阶段:从给定的训练集中构造出一棵树。从根结点开始选择特征,如何进行特征切分,最终形成决策树的过程(核心部分)

测试阶段:根据构造出的树模型从上到下走一遍

熵表示随机变量不确定性的度量,是一种衡量标准,通过熵来计算不同特征进行分治选择后的分类情况,从而找出来最好的那个当成根节点,以此类推

当物体内部越混乱时,即不确定性越强时,熵值越高

例如:

A集合 [ 1 , 1 , 1 , 1 , 1 , 2 , 2 ] [1, 1, 1, 1,1,2,2] [1,1,1,1,1,2,2]

B集合 [ 1 , 2 , 3 , 5 , 4 , 4 , 6 ] [1,2,3,5,4,4,6] [1,2,3,5,4,4,6]

显然A集合的熵值更低,因为A里面的种类较少,相对更稳定一点,而B中的种类较多,熵值就比较大

熵的公式
H ( X ) = − ∑ i = 1 n p i log ⁡ p i H(X) = -\sum_{i=1}^{n} p_i \log p_i H(X)=i=1npilogpi
其中, p i p_i pi 表示第 i i i 中物品在集合中出现的概率

由于乘上了一个对数函数,而 p i p_i pi 的取值范围为 [ 0 , 1 ] [0,1] [0,1],因此,当出现概率越大(越接近于1)时, H ( X ) H(X) H(X)越小,即表明了,内部越稳定,熵值越低

信息增益:表示特征 X X X 使得类 Y Y Y 的不确定性减少的程度

决策树基于信息增益进行模型的构建与训练

决策树构造实例

根据数据特征数量,确定决策树节点数量

在这里插入图片描述

例如该数据,共有四种特征,因此需要四种划分方式,即:

  • 基于天气的划分
  • 基于温度的划分
  • 基于湿度的划分
  • 基于有风的划分

然后,分别计算每种划分的信息增益(划分后的熵值减去划分前的熵值)

例如,对于天气的划分,如下:

在这里插入图片描述

计算三种熵值:

  • sunny,熵值为0.971
  • overcast,熵值为0
  • rainy,熵值为0.971

然后,由于三种取值的概率不一样,因此需要对三种熵值进行线性加权,最终得到天气划分的熵值为0.693

而划分之前数据的熵值为0.940,最终得到信息增益为 0.940 − 0.693 = 0.247 0.940 - 0.693 = 0.247 0.9400.693=0.247

运用同样方法,对特征进行遍历,依次算出其他划分情况的信息增益,选择最大的信息增益,作为根节点。

在选取完根节点的情况下,再对特征进行遍历计算信息增益,选择下一节点 … \dots

信息增益率

如果我们存在类似于 id 的特征,即每个样本的该特征都是独一无二的,对于该特征的划分,划分之后数据的熵为0。如果使用信息增益的话,会把 id 作为根节点,但实际情况中,当种类很多时,这种类似 id 的特征对我们最后的任务没有很大的作用。因此,使用信息增益的话就会出现很大的问题,即信息增益不适合解决具有非常稀疏的特征的样本集

为了解决该问题,可以使用信息增益率,即考虑自身熵

GINI系数

GINI系数和熵类似,都是一种衡量标准,但计算方式不同

GINI系数公式
G i n i ( p ) = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k − 1 K p k 2 Gini(p) = \sum _{k=1}^{K}p_k(1-p_k) = 1- \sum _{k-1}^{K}p_k^2 Gini(p)=k=1Kpk(1pk)=1k1Kpk2
其中, p k p_k pk 代表出现的概率

剪枝策略

决策树过拟合风险很大,因为理论上决策树可以做的无限的庞大,可以完全分得开数据,因此需要对建立的决策树进行剪枝操作,防止过拟合

预剪枝

边建立决策树边进行剪枝,是最实用的方法

预剪枝方法

  • 限制决策树深度
  • 限制叶子节点个数
  • 规定叶子节点样本最低数目
  • 规定信息增益最低值

即,在建立决策树的同时,设置一些参数,防止决策树过于庞大,但这些参数还需要根据实际情况具体设定(实验交叉验证观察哪个参数值效果好)

后剪枝

当建立完决策树后再进行剪枝操作

后剪枝方法

通过一定的衡量标准去指定后剪枝方法:
C α ( T ) = C ( T ) + α ∣ T l e a f ∣ C_{\alpha}(T) = C(T) + \alpha |T_{leaf}| Cα(T)=C(T)+αTleaf
其中, C ( T ) C(T) C(T) 为当前节点的信息熵值, T l e a f T_{leaf} Tleaf是叶子节点个数

上述公式表明,叶子节点越多,损失越大

决策树代码实现(基于sklearn)

决策树算法整体流程:

  • 构建数据集
  • 选取根节点
  • 依次向下选取其他节点——分支(递归方法创建)

导入相应的包

import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree
  • matplotlib.pyplot 用于画图,可视化数据
  • datasets 用于下载sklearn里自带的数据集(这里使用鸢尾花数据)
  • DecisionTreeClassifiersklearn中决策树模块
  • plot_tree 用于最后树模型可视化

数据集

基于sklearn中的鸢尾花数据集

iris = datasets.load_iris()
# print(iris.data)
X = iris.data[:, 2:]
y = iris.target

通过打印y的信息,发现最终的分类只有三类,将数据可视化,观察其空间分布,如下:

plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.scatter(X[y == 2, 0], X[y == 2, 1])
plt.show()

在这里插入图片描述

由此,我们可以大致确定决策树的层次为二层

决策树模型建立

sklearn中决策树模型

  • DecisionTreeClassifier 主要用于分类
  • DecisionTreeRegression 主要用于回归

在这里我们采用分类树

模型建立

tree = DecisionTreeClassifier(max_depth=2, criterion='entropy')
  • max_depth 指定树的深度
  • criterion 指定损失函数

模型训练

tree.fit(X, y)

树模型可视化

plot_tree(tree, filled=True)
plt.show()

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2089273.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

day45.动态规划

1035.不相交的线: 在两条独立的水平线上按给定的顺序写下 nums1 和 nums2 中的整数。 现在,可以绘制一些连接两个数字 nums1[i] 和 nums2[j] 的直线,这些直线需要同时满足: nums1[i] nums2[j] 且绘制的直线不与任何其他连线(非水…

基站定位系统的创新应用:企业管理的新利器

在现代企业的管理中,基站定位系统已经成为不可或缺的技术手段。通过这一系统,企业能够实时掌握物资、人员的位置和状态,提升管理效率和安全性。常达智能物联凭借深厚的技术积累和丰富的项目经验,为各类企业提供了创新的基站定位系…

如何使用ChatGPT,提示词篇之【编程代码】

一、 ChatGPT可以做什么? ChatGPT能做的事情非常多!它不仅仅是一个对话AI。以下是一些主要功能: 1. 回答问题:无论是学术问题、技术问题,还是生活琐事,ChatGPT都能提供帮助。 2. 写作助手:可以…

Angular17(3):Angular项目中引入iconfont

在Angular项目中引入Iconfont(图标字体)是一个常见的需求,用于在应用中添加丰富的图标资源。 Iconfont-阿里巴巴矢量图标库 1、点击进入官网,注册并登录 2、登陆成功后,首页的 资源管理 > 我的项目 点击进入 3、…

网络通信---四次挥手

文章目录 概述四次挥手第一次挥手:第二次挥手:第三次挥手:第四次挥手: 问题:为什么是四次,而不是三次?确保数据传输完成:防止数据丢失:避免旧连接干扰:防止死…

C#的继承

继承是面向对象程序设计中最重要的概念之一.继承允许我们根据一个类来定义另一个类,这使得创建和维护应用程序变得更容易,同时,也有利用重用代码和节省开发时间. 当创建一个类时,程序员不需要完全重新编写新的数据成员和成员函数只需要设计一个新的类,继承了已有的类的成员即可…

斯坦福UE4 C++课学习补充23:AI自定义任务

文章目录 一、自定义任务节点二、优化1. 子弹发射冷却2. 攻击时面朝玩家 一、自定义任务节点 本节需要创建自定义任务节点BTTask,实现小兵进入角色范围后进射击的功能。对于BTTaskNode的子类,我们需要在代码中重写ExecuteTask函数即可。返回值为EBTNode…

博客自建(带避坑指南)4:hexo文章页设置和动画魔改设置

咕咕了好久,这次终于来更新一下 看完上一篇博客: 博客自建(带避坑指南)3:简单的hexo网页界面设置-CSDN博客 想必你已经完成了头像、图片等一些基础的设置,但是这些改动都是比较基础的,现在我们…

【Java】MyBatis Plus 自动生成代码相关配置 (图解)

Java系列文章目录 补充内容 Windows通过SSH连接Linux 第一章 Linux基本命令的学习与Linux历史 文章目录 Java系列文章目录一、前言二、学习内容:三、问题描述四、解决方案:4.1 认识依赖4.1.2 模板依赖4.1.2 代码生成相关依赖 4.2 自动生成代码4.2.1 认识…

钉钉-即时通讯-工作通知

钉钉-即时通讯-工作通知 钉钉官方文档创建以及获取应用配置代码创建工作通知工具类创建钉钉消息实体类好了接下来就可以直接使用了 钉钉官方文档 https://open.dingtalk.com/document/orgapp/asynchronous-sending-of-enterprise-session-messages 创建以及获取应用配置 1.进入…

最大池化、非线性激活、线性层

一、最大池化原理 二、最大池化实例 import torch import torchvision from torch import nn from torch.nn import MaxPool2d from torch.utils.data import DataLoader from torch.utils.tensorboard import SummaryWriterdataset torchvision.datasets.CIFAR10("../c…

springboot+vue+mybatis计算机房屋服务平台+PPT+论文+讲解+售后

近些年来,随着科技的飞速发展,互联网的普及逐渐延伸到各行各业中,给人们生活带来了十分的便利,房屋中介服务平台利用计算机网络实现信息化管理,使整个房屋中介服务的发展和服务水平有显著提升。 本文拟采用Eclipse开发…

Datawhale X 李宏毅苹果书 AI夏令营第五期 DL进阶方向 Task2笔记

Datawhale X 李宏毅苹果书 向李宏毅学深度学习(进阶) 是 Datawhale 2024 年 AI 夏令营第五期的学习活动(“深度学习 进阶”方向) 往期task1链接:深度学习进阶-Task1 我做的task1的笔记博客:传送门 Datawhal…

Tensorflow实现深度学习8:猫狗识别

本文为为🔗365天深度学习训练营内部文章 原作者:K同学啊 一 导入数据 import matplotlib.pyplot as plt import tensorflow as tf # 支持中文 plt.rcParams[font.sans-serif] [SimHei] # 用来正常显示中文标签 plt.rcParams[axes.unicode_minus] Fals…

开放式耳机会漏音吗?开放式耳机测评

开放式耳机由于其独特的设计,允许声音在一定程度上自然地与外界环境融合。这种设计带来的一个常见误解是,人们可能会认为开放式耳机会有较大的声音泄露。然而,实际上,高质量的开放式耳机通过精心的声学设计,可以有效地…

Video Recording,视频录制

一.录屏软件 1.1 Xbox Game Bar 对于 win 来说,快捷键是 Win G,即可以启动 Xbot Game Bar 来进行录制。但是有一个比较致命的缺点就是,当我们切换页面的时候,录制就会失败,这款还是很适合于单页面的视频录制。 1.2 …

Python以及Python历史版本的安装的安装

文章目录 前言Python的安装Python历史版本下载总结 前言 Python 是一种广泛使用的高级编程语言,以其简洁易读的语法和强大的功能而受到开发者的青睐。从数据分析到网页开发,从自动化脚本到人工智能,Python 的应用领域几乎无处不在。然而&…

深度学习论文被评“创新性不足、工作量不够”怎么办?

投稿时遇到审稿人提出文章创新性不足、工作量不够,该怎么办? 今天我就来分享三种应对方法:下采样策略、归一化策略、改进网络模型。 改进网络模型 增加创新性: 从模型架构和训练策略这两方面入手: 模型架构创新&a…

c++ 135 错误: 成员函数的作用 内存四区

1。 类中不写成员函数 现在要求c1 的属性 原来怎么求的: 虽然把r改成10 但是没有执行area的那句话 area还是一个未知变量 当执行c1.area时 只是内存变量标示的内存空间拿值 跟r10 没有半毛钱关系 面向过程转换成面向对象

代码随想录 | 贪心算法总结

贪心理论基础 在贪心系列开篇词贪心算法理论基础中,我们就讲解了大家对贪心的普遍疑惑。 贪心很简单,就是常识? 贪心思路往往很巧妙,并不简单。 贪心有没有固定的套路? 贪心无套路,也没有框架之类的&a…