机器学习篇-day05-ID3决策树 C4.5决策树 CART决策树-回归决策树 剪枝

news2024/11/28 23:42:53

一. 决策树简介

主要用于分类

概述

简介

概念

决策树是一种树形结构,树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果, 根节点尤为重要.

构建决策树步骤

  1. 特征选择:选取有较强分类能力的特征。

  2. 决策树生成:根据选择的特征生成决策树。

  3. ★决策树也易过拟合,采用剪枝的方法缓解过拟合。

二. ID3决策树

ID3 树是基于信息增益构建的决策树.

信息熵

定义

  • 熵在信息论中代表随机变量不确定度的度量。

  • 熵越大,数据的不确定性度越高, 稳定性越低

  • 熵越小,数据的不确定性越低, 稳定性越高

举例说明

数据α 包含了 8 种信息,数据 β 包含了 4 种信息,

特征α 的信息熵大于特征 β 的信息熵。

计算方式

公式
例子

信息增益

信息增益越大, 则该特征越重要, 同时, 信息增益是ID3决策树的分裂依据

概念

特征a对训练数据集D的信息增益𝐺𝑎𝑖𝑛(𝐷, 𝑎)或g(D,a),定义为集合D的熵H(D)与特征a给定条件下D的熵H(D |a)之差。

公式

举例

ID3树的构建过程

流程

  1. 计算每个特征的信息增益

  2. 使用信息增益最大的特征将数据集 拆分为子集

  3. 使用该特征(信息增益最大的特征)作为决策树的一个节点

  4. 使用剩余特征对子集重复上述(1,2,3)过程

举例

三. C4.5决策树

解决: ID3偏向于选择种类多的特征作为分裂依据

信息增益率

信息增益率越大越好

计算方法

信息增益率本质

特征的信息增益 ➗ 特征的内在信息

相当于对信息增益进行修正,增加一个惩罚系数

特征取值个数较多时,惩罚系数较小;特征取值个数较少时,惩罚系数较大。

惩罚系数:数据集D以特征a作为随机变量的熵的倒数

举例

总结

四. CART决策树

CART决策树(Classification and Regression Tree)

Cart模型是一种决策树模型,它即可以用于分类,也可以用于回归。

Cart回归树使用平方误差最小化策略,

Cart分类生成树采用的基尼指数最小化策略。

基尼指数

用来确定分裂点, 越小越好, 越小的越靠近根节点

基尼值

从数据集D中随机抽取两个样本,其类别标记不一致的概率。

​ Gini(D)值越小,数据集D的纯度越高。

基尼指数

选择使划分后基尼系数最小的属性作为最优化分属性。

注意

  1. 信息增益(ID3)、信息增益率值越大(C4.5),则说明优先选择该特征。

  2. 基尼指数值越小(CART),则说明优先选择该特征。

举例

需求

分析是否有房

分析婚姻状况

只能二叉树, 因此分情况统计

分析年收入

结果

总结

名称提出时间分支方式特点
ID31975信息增益1.ID3只能对离散属性的数据集构成决策树 <br />2.倾向于选择取值较多的属性
C4.51993信息增益率1.缓解了ID3分支过程中总喜欢偏向选择值较多的属性 <br />2.可处理连续数值型属性,也增加了对缺失值的处理方法 <br />3.只适合于能够驻留于内存的数据集,大数据集无能为力
CART1984基尼指数1.可以进行分类和回归,可处理离散属性,也可以处理连续属性 <br />2.采用基尼指数,计算量减小 <br />3.一定是二叉树

五. 泰坦尼克号案例

决策树API

sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)
​
Criterion: 特征选择标准 
"gini"或"entropy",前者(默认)代表基尼系数(CART),后者代表信息增益(ID3)。
​
min_samples_split:内部节点再划分所需最小样本数
​
min_samples_leaf:叶子节点最少样本数
​
max_depth:决策树最大深度

泰坦尼克号生存案例

代码

# 1.导入依赖包
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, classification_report
import matplotlib.pyplot as plt
​
​
# 2.读取数据及预处理
# 2.1 读取数据
data = pd.read_csv('data/train.csv')
# data.info()
# print(data.head())
# 2.2 数据处理
x = data[['Age', 'Pclass', 'Sex']]
y = data.Survived
# 2.3 缺失值处理
x.Age.fillna(x['Age'].mean(), inplace=True)
​
print(x.Age)
x = pd.get_dummies(x)
​
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=21, random_state=21)
​
​
# 3.模型训练
model = DecisionTreeClassifier()
model.fit(x_train, y_train)
​
​
# 4.模型预测与评估
# 4.1 模型预测
y_predict = model.predict(x_test)
# 4.2 模型评估
print('准确率(直接评估): ', model.score(x_test, y_test))
print('准确率(预测后评估): ', accuracy_score(y_test, y_predict))
​
print('精确率: ', precision_score(y_test, y_predict))
print('召回率: ', recall_score(y_test, y_predict))
print('f1值: ', f1_score(y_test, y_predict))
print('AUC值: ', roc_auc_score(y_test, y_predict))
​
myreport = classification_report(y_predict, y_test, target_names=['died', 'survived'])
print('myreport-->\n', myreport)
​
# 4.3 可视化
plt.figure(figsize=(20, 20))
plot_tree(
    model,
    max_depth=5,
    filled=True,
    fontsize=20,
    feature_names=['Pclass', 'Age', 'Sex_female', 'Sex_male'],
    class_names=['died', 'survived']
)
plt.show()
​

结果图

六. CART回归决策树

构建原理

原理

CART 回归树和CART分类树的不同之处在于

  1. CART分类树预测输出的是一个离散值,CART回归树预测输出的是一个连续值

  2. CART分类树使用基尼指数作为划分、构建树的依据,CART 回归树使用平方损失

  3. 分类树使用叶子节点多数类别作为预测类别,回归树则采用叶子节点里均值作为预测输出

CART 回归树的平方损失

举例

 

总结

  1. 选择一个特征,将该特征的值进行排序,取相邻点计算均值作为待划分点

  2. 根据所有划分点,将数据集分成两部分:R1、R2

  3. R1 和 R2 两部分的平方损失相加作为该切分点平方损失

  4. 取最小的平方损失的划分点,作为当前特征的划分点

  5. 以此计算其他特征的最优划分点、以及该划分点对应的损失值

  6. 在所有的特征的划分点中,选择出最小平方损失的划分点,作为当前树的分裂点

线性回归-回归决策树对比

案例介绍

代码演示

# 导包
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor  # 回归决策树
from sklearn.linear_model import LinearRegression  # 线性回归
​
​
def dm01_回归分类():
    # 准备数据
    x = np.array(list(range(1, 11))).reshape(-1, 1)     # reshape => 重塑
    y = np.array([5.56, 5.70, 5.91, 6.40, 6.80, 7.05, 8.90, 8.70, 9.00, 9.05])
    print(x)
    print(y)
​
    # 模型训练
    mode1 = DecisionTreeRegressor(max_depth=1)     # 决策树
    mode2 = DecisionTreeRegressor(max_depth=3)     # 决策树
    mode3 = LinearRegression()      # 线性回归
    mode1.fit(x, y)
    mode2.fit(x, y)
    mode3.fit(x, y)
​
    # 模型预测
    x_test = np.arange(0.0, 10.0, 0.01).reshape(-1, 1)      # 生成0 ~ 10 的1000个点
    y_predict1 = mode1.predict(x_test)
    y_predict2 = mode2.predict(x_test)
    y_predict3 = mode3.predict(x_test)
    print(y_predict1, y_predict2, y_predict3)
​
    # 结果可视化
    plt.figure(figsize=(10, 6), dpi=100)
    plt.scatter(x, y, label='data')     # 绘制训练姐数据点
​
    plt.plot(x_test, y_predict1, label='max_depth=1')   # 绘制回归决策树的数据点
    plt.plot(x_test, y_predict2, label='max_depth=3')   # 绘制回归决策树的数据点
    plt.plot(x_test, y_predict3, label='linear')        # 绘制线性回归的数据点
​
    plt.xlabel('data')
    plt.ylabel('target')
​
    plt.title('DecisionTreeRegressor')
    plt.legend()
    plt.show()
​
​
if __name__ == '__main__':
    dm01_回归分类()

结果图

七. 决策树剪枝

剪枝介绍

作用

决策树剪枝是一种防止决策树过拟合的一种正则化方法;提高其泛化能力。

原理

把子树的节点全部删掉,使用用叶子节点来替换

剪枝方法

  1. 预剪枝(边构建边剪枝):指在决策树生成过程中,对每个节点在划分前先进行估计,若当前节点的划分不能带来决策树泛化性能提升,则停止划分并将当前节点标记为叶节点;

  2. 后剪枝(先构建后剪枝, 自底向上):是先从训练集生成一棵完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶节点。

剪枝思想-举例介绍

预剪枝

基于预剪枝策略从上表数据所生成的决策树如上图所示,其验证集精度为71.4%.

后剪枝

先利用训练集完整的生成一颗树,有6个内部节点。分别考察这些节点作为叶子节点模型的准确率,若准确率上升,则剪掉,否则保留。

预-后剪枝对比

预剪枝
  1. 优点: 预剪枝使决策树的很多分支没有展开,不但降低了过拟合风险,还显著减少了决策树的训练、测试时间开销

  2. 缺点: 有些分支的当前划分虽不能提升泛化性能,但后续划分却有可能导致性能的显著提高;预剪枝决策树也带来了欠拟合的风险

后剪枝
  1. 优点: 比预剪枝保留了更多的分支。一般情况下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝

  2. 缺点: 后剪枝先生成,后剪枝。自底向上地对树中所有非叶子节点进行逐一考察,训练时间开销比未剪枝的决策树和预剪枝的决策树都要大得多。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2206377.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java医院后台管理系统设计与实现源码(springboot+vue+mysql)

项目简介 医院后台管理系统设计与实现实现了以下功能&#xff1a; 管理员&#xff1a;首页、个人中心、用户管理、零食分类管理、零食信息管理、订单评价管理、系统管理、订单管理。 用户&#xff1a;首页、个人中心、订单评价管理、我的收藏管理、订单管理。 前台首页&…

精选算法入门——day3

精选算法入门——day3 题目一题干解题思路一代码解题思路二代码解题思路三代码 题目二题干解题思路 题目三题干解题思路 题目四题干解题思路一代码解题思路二 题目五题干解题思路一代码解题思路二代码&#xff1a; 题目一 题干 大家都知道斐波那契数列&#xff0c;现在要求输…

尚雷仕(湖北)健康科技公司5.98MW分布式光伏10KV并网系统应用

1.概述 我国正致力于实现“双碳”目标&#xff0c;新能源装机容量正快速增长&#xff0c;电力系统正在经历向高比例新能源系统的转型。然而&#xff0c;分布式光伏的接入也带来了挑战&#xff0c;例如电能质量的下降和供电可靠性的不足。尽管如此&#xff0c;光伏发电依然具有…

Java的IO操作与文件的基本常识

首先什么是IO操作呢? IO操作其实解释操作硬盘 1. 文件系统操作 创建文件,删除文件,重命名文件,创建目录…操作 2. 文件内容操作 进行读与写操作 先来了解一下基本的文件知识方便学习接下来的IO操作 文件路径 文件路径是从数根节点触发,沿着树杈一直往下走,到达目标文件…

github——指标统计

github——指标统计 它的作用特定项目统计首页展示 github-readme-stats是一个可以统计指定用户github指标的项目。可以使用此项目统计自己的github&#xff0c;用于首页展示。效果如图&#xff1a; 它的作用 它可以&#xff1a; 统计git操作统计账户编程语言构成比例解除githu…

ThingsBoard规则链节点:Delete Keys节点详解

引言 删除键节点简介 用法 含义 应用场景 实际项目运用示例 智能家居系统 工业自动化生产线 车联网平台 结论 引言 ThingsBoard是一个功能丰富的物联网平台&#xff0c;它支持设备管理、数据收集与处理以及实时监控。其核心组件之一是规则引擎&#xff0c;允许用户定义…

杨中科 ASP.NETCORE 异步编程二

一、不要用sleep() 如果想在异步方法中暂停一段时间&#xff0c;不要用Thread.sleep()&#xff0c;因为它会阻塞调用线程&#xff0c;而要用await.Task.Delay()。 举例: 下载一个网址,3秒后下载另一个 示例&#xff1a; sleep() 为了能直观看到效果&#xff0c;使用winfor…

基于springboot vue 三味书屋网络书店销售管理设计与实现

博主介绍&#xff1a;专注于Java&#xff08;springboot ssm springcloud&#xff09; vue .net php phython node.js uniapp小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设&#xff0c;从业十五余年开发设计教学工作☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不然下次…

【Windows】【DevOps】Windows Server 2022 在线/离线 安装openssh实现ssh远程登陆powershell、scp文件拷贝

服务器在线安装openssh 管理员权限启动powershell&#xff0c;输入指令 查看默认安装状态 Get-WindowsCapability -Online | Where-Object Name -like OpenSSH* 可以看到系统默认安装了客户端&#xff0c;未安装服务器端 安装服务器端 Add-WindowsCapability -Online -Nam…

Spring 循环依赖详解:问题分析与三级缓存解决方案

在Spring框架中&#xff0c;循环依赖&#xff08;Circular Dependency&#xff09;是指多个Bean相互依赖&#xff0c;形成一个循环引用。例如&#xff0c;Bean A依赖于Bean B&#xff0c;而Bean B又依赖于Bean A。这种情况在Bean创建时可能导致Spring容器无法正常完成初始化&am…

一点基础没有可以参加TRIZ创新方法培训吗?

当然可以&#xff0c;即使一点基础都没有&#xff0c;参加TRIZ创新方法培训也是完全可行的。TRIZ理论作为一种系统的创新方法&#xff0c;旨在帮助人们跨越思维定式&#xff0c;高效解决发明创造中的各种问题。本文&#xff0c;天行健六西格玛顾问将详细阐述为何零基础的学员也…

2024年诺贝尔物理学奖2

2024年&#xff0c;诺贝尔物理学奖没有颁给物理学家&#xff0c;而是给了两位计算机科学家&#xff0c;他们发明了神经网络&#xff0c;这项技术是人工智能的基础。这表明物理学和计算机科学的联系越来越紧密。获奖者约翰霍普菲尔德和杰弗里辛顿在神经网络方面做出了巨大的贡献…

探秘纯前端Excel表格:构建现金流量表的完整指南

最新技术资源&#xff08;建议收藏&#xff09; https://www.grapecity.com.cn/resources/ 现金流量表&#xff08;Cash Flow Statement&#xff09;&#xff0c;是指反映企业在一定会计期间现金和现金等价物流入和流出的报表。现金流量表是企业财务报表的三个基本报告之一&…

LeetCode.611有效三角形的个数

题目链接611. 有效三角形的个数 - 力扣&#xff08;LeetCode&#xff09; 1.常规解法&#xff08;会超时&#xff09; 由于构成三角形的条件为两边之和大于第三边&#xff0c;就可以遍历该数组&#xff0c;找到所有满足这个条件的三元组&#xff0c;代码如下&#xff1a; pub…

【排序算法】快速排序、冒泡排序

文章目录 快速排序1.hoare版本&#xff08;左右指针法&#xff09;时间复杂度、空间复杂度分析优化——三数取中法2.挖坑法3.前后指针版本优化&#xff1a;小区间优化快速排序非递归代码——借助栈 冒泡排序时间复杂度 快速排序 1.hoare版本&#xff08;左右指针法&#xff09…

生成式专题的第二节课--DCGAN

一、DCGAN基础概念 DCGAN&#xff08;Deep Convolutional Generative Adversarial Network&#xff0c;即深度卷积生成对抗网络&#xff09;&#xff0c;于2016年提出&#xff0c;是一种深度学习模型&#xff0c;是生成对抗网络&#xff08;GAN&#xff09;的一种变体&#xf…

国产 HDMI 发送芯片,兼容 HDMI1.4b 及 HDMI 1.4b 下的视频 3D 传输格式。

最高分辨率高达 4K30Hz&#xff0c;最高采样率达到 300MHz.支持 YUV 和 RGB 之间的色彩空间转 换&#xff0c;数字接口支持 YUV 以及 RGB 格式输入的 IIS 接口以及 S/PDIF 接口支持高清音频的 传输&#xff0c;其中 S/PDIF 接口既可以兼容IEC61937 标准下的压缩音频传输&#x…

图像增强——传统算法伽马校正实现暗光增强(附Python代码)

&#x1f4aa; 专业从事且热爱图像处理&#xff0c;图像处理专栏更新如下&#x1f447;&#xff1a; &#x1f4dd;《图像去噪》 &#x1f4dd;《超分辨率重建》 &#x1f4dd;《语义分割》 &#x1f4dd;《风格迁移》 &#x1f4dd;《目标检测》 &#x1f4dd;《图像增强》 &a…

OpenSearch迁移方案

一、背景 因业务需要迁移Opensearch 集群&#xff0c;当前集群数据量高达21TB&#xff0c;采用常规工具进行迁移估计不可取&#xff0c;需要使用对象存储做中转&#xff0c;进行OpenSearch数据迁移。 二、OpenSearch迁移方案 前期进行OpenSearch数据迁移调研 序号方案诠释备…

java项目之科研工作量管理系统的设计与实现源码(springboot+vue+mysql)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的科研工作量管理系统的设计与实现。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 项目简介&#xff1a; 科研工作…