决策树随机森林-笔记

news2024/12/26 22:16:56

决策树 

1. 什么是决策树?

决策树是一种基于树结构的监督学习算法,适用于分类和回归任务。

根据数据集构建一棵树(二叉树或多叉树)。

先选哪个属性作为向下分裂的依据(越接近根节点越关键)?

使用信息熵作为依据(即这个属性所包含的信息的多少)

2. 决策树构建的过程

决策树的构建过程包括以下几个步骤:

  1. 选择最优特征进行分裂:基于某些标准选择能够最好划分数据的特征(常见标准如信息增益、基尼系数)。
  2. 划分数据:按照选定的特征划分数据集。
  3. 递归构建子树:对每个子集重复1和2,直到满足停止条件(如树达到最大深度或叶子节点中的样本属于同一类)。

3. 如何选择分裂特征?

分裂特征的选择是决策树的核心。常用的特征选择标准包括:

  • 信息增益(Information Gain):基于熵(Entropy)的变化来衡量特征的划分能力。信息增益越大,特征越优。

    • 熵公式:                                    
  • 基尼不纯度(Gini Impurity):用于CART(分类和回归树)算法。它衡量了从数据集中随机抽取一个样本后,错误分类的概率。基尼不纯度越低,特征越优。

                                                               

4. 决策树的优缺点

优点

  • 易于理解和解释:可解释性强。
  • 无需特征缩放:不需要对数据进行标准化或归一化。
  • 适用于分类和回归任务:既可以处理分类问题,也可以处理回归问题。
  • 处理不平衡数据:对不平衡的数据具有较好的适应能力。

缺点

  • 容易过拟合:决策树如果不进行修剪,可能会过度拟合训练数据。
  • 对噪声敏感:对数据中的噪声(异常值)敏感,可能导致树结构不稳定。
  • 局限于轴对齐的分裂:决策树每次分裂仅基于单个特征,无法处理更加复杂的非线性边界。

5. 如何防止决策树的过拟合?

为了解决决策树过拟合的问题,常用的技术包括:

  1. 树剪枝(Pruning)

    • 预剪枝(Pre-Pruning):在构建决策树时,限制树的最大深度、节点最小样本数、叶子节点的最小样本数等,从而避免树结构过于复杂。
    • 后剪枝(Post-Pruning):先构建完整的决策树,然后通过删除一些分支来简化树的结构。
  2. 设置最大深度(Max Depth):限制树的最大深度,避免过拟合。

  3. 最小样本数(Min Samples Split/Leaf):控制每个节点最少需要包含的样本数,减少树的深度。

  4. 随机森林和集成学习:通过多个决策树的组合,如随机森林、梯度提升树等,可以有效降低单棵树的过拟合风险。

6. 常见的决策树算法

  • ID3:基于信息增益选择分裂特征。
  • C4.5:ID3的改进版,使用信息增益比(Information Gain Ratio)来选择特征。
  • CART(Classification and Regression Tree):使用基尼系数选择特征,能够处理分类和回归问题。

7. 随机森林与决策树的区别

  • 决策树:单棵树,容易过拟合,且对噪声敏感。
  • 随机森林(Random Forest):随机森林的核心思想是通过构建多个决策树并让它们集体做出预测。对数据集进行划分成多个独立数据集,对划分的数据集单独训练成决策树,获得多个决策树。

8. 常见面试问题

  1. 什么是决策树?它是如何工作的?

    • 回答要点:解释决策树的基本构建过程,如何通过划分数据集进行预测。
  2. 决策树如何选择分裂点?

    • 回答要点:详细说明信息增益、基尼系数等标准。
  3. 如何防止决策树的过拟合?

    • 回答要点:介绍预剪枝、后剪枝、设置最大深度等方法。
  4. 什么是随机森林?它与决策树的区别是什么?

    • 回答要点:随机森林通过多棵树的集成减少单棵树的过拟合问题。
  5. 决策树可以用于回归吗?如果可以,它是如何处理的?

    • 回答要点:决策树可以用于回归问题,回归树使用均方误差作为划分标准。
  6. 什么是CART算法?

    • 回答要点:CART(分类和回归树)使用基尼系数进行分类,或者均方误差进行回归。

随机森林

(Random Forest) 是一种基于集成学习(Ensemble Learning)的监督学习算法,可以用于分类回归任务。它通过构建多个决策树(通常是大量的决策树)并结合这些树的预测结果来提高模型的准确性和鲁棒性。随机森林可以通过投票(分类任务)或平均值(回归任务)来生成最终预测,从而减少单棵树可能带来的过拟合问题。

1. 随机森林的核心思想

随机森林的核心思想是通过构建多个决策树并让它们集体做出预测。每棵树都是在随机选取的样本和特征上独立训练的,最后通过对所有树的输出进行汇总来获得最终的预测结果。这个集成方法能够有效地提高模型的泛化能力,减少单棵决策树过拟合的风险。

2. 随机森林的构建步骤

(1) 随机样本选择(Bootstrap Sampling)

  • 对于每棵树,从原始训练数据集中进行有放回的采样,构建不同的子数据集。这意味着每棵树可能会看到不同的训练数据,增强了模型的多样性。
  • 未被采样到的数据称为“袋外数据”(Out-of-Bag Data, OOB),可以用来评估模型的性能。

(2) 随机特征选择(Random Feature Selection)

  • 在每个节点分裂时,随机选择特征子集,而不是使用全部特征。然后在这个子集中选择最佳特征进行分裂。这一步进一步增加了树之间的差异,防止所有树在训练过程中做出相同的决策。

(3) 构建决策树

  • 每棵决策树都使用不同的训练样本和不同的特征子集进行训练。训练过程是独立的,且没有任何剪枝(即决策树不进行复杂度控制)。

(4) 投票与平均

  • 分类问题:每棵决策树独立对样本进行分类,随机森林则通过所有树的多数投票来决定最终分类结果。
  • 回归问题:每棵树给出一个预测值,随机森林则取所有树预测值的平均作为最终结果。

3. 随机森林的优缺点

优点

  • 抗过拟合:通过集成多棵树,随机森林能够有效降低单棵决策树的过拟合风险,从而提高泛化性能。
  • 处理高维数据:随机森林可以处理包含大量特征的数据,并且能够自动进行特征选择。
  • 处理缺失数据:随机森林能够处理数据中的缺失值,不需要对缺失值进行特殊处理。
  • 高效性:通过并行训练多棵树,随机森林可以很好地扩展到大数据集。
  • 稳健性:对噪声和异常值具有鲁棒性,因为多数树的投票或平均结果会减少单棵树对噪声的敏感性。

缺点

  • 计算复杂度高:虽然可以并行处理,但随机森林模型包含大量的决策树,训练时间和预测时间较长。
  • 模型解释性差:相比单棵决策树,随机森林的结果不易解释,无法像决策树那样直观地看到每个特征对结果的影响。

4. 随机森林的常用参数

  • n_estimators:树的数量,即随机森林中包含多少棵决策树。通常,树的数量越多,模型的性能越好,但计算时间也会增加。
  • max_depth:树的最大深度。限制树的深度可以防止模型过拟合。
  • min_samples_split:节点分裂所需的最小样本数。增大此值可以防止过拟合。
  • max_features:每次分裂时考虑的最大特征数,可以是auto(等于总特征数的平方根)、sqrt(平方根)或log2(以2为底的对数)。
  • bootstrap:是否使用有放回的采样,默认为True,即每棵树都从训练集中有放回地抽样。

5. 袋外估计(Out-of-Bag Estimate, OOB)

  • 袋外样本:在训练每棵树时,由于采样是有放回的,约有1/3的样本没有被用于训练这些树,这些未被使用的样本被称为袋外样本。
  • OOB误差:使用袋外样本来评估模型性能,即通过未被采样到的样本来预测并评估准确性。OOB误差是衡量随机森林模型泛化能力的有效方法,类似于交叉验证。

6. 随机森林的常见应用

  • 分类任务:用于文本分类、图片分类、疾病诊断等领域的分类问题。
  • 回归任务:用于预测房价、股票市场波动、能源消耗等连续值的任务。
  • 特征重要性评估:通过计算每个特征在所有树中的分裂贡献,评估各个特征的重要性。
  • 异常检测:使用随机森林可以检测数据中的异常样本。

7. 随机森林的实践示例(使用Python的scikit-learn库)

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score

# 加载Iris数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 定义随机森林分类器
rf_clf = RandomForestClassifier(n_estimators=100, random_state=42)

# 训练模型
rf_clf.fit(X_train, y_train)

# 进行预测
y_pred = rf_clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Random Forest Model Accuracy: {accuracy * 100:.2f}%')

8. 常见的面试问题

  1. 什么是随机森林?它与决策树的区别是什么?

    • 回答要点:随机森林由多棵决策树组成,通过集成决策树的结果来减少过拟合,而单棵决策树容易过拟合。
  2. 随机森林如何防止过拟合?

    • 回答要点:通过随机采样和随机选择特征子集,使每棵树的差异性增加,并结合多棵树的投票结果,减少单棵树的过拟合风险。
  3. 什么是OOB估计?它有什么用途?

    • 回答要点:OOB估计是使用未被用来训练某棵树的样本来评估模型性能,类似于交叉验证,用于评估随机森林模型的泛化能力。
  4. 随机森林可以用于回归任务吗?如果可以,怎么实现?

    • 回答要点:随机森林可以用于回归问题,通过在每棵树的基础上输出预测值的平均值来进行回归预测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2200523.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【动态规划-最长递增子序列(LIS)】【hard】力扣1671. 得到山形数组的最少删除次数

我们定义 arr 是 山形数组 当且仅当它满足&#xff1a; arr.length > 3 存在某个下标 i &#xff08;从 0 开始&#xff09; 满足 0 < i < arr.length - 1 且&#xff1a; arr[0] < arr[1] < … < arr[i - 1] < arr[i] arr[i] > arr[i 1] > … &g…

【hot100-java】二叉搜索树中第 K 小的元素

二叉树 二叉搜索树的中序遍历是递增序列。 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val, TreeNode lef…

【C++】面向对象之继承

不要否定过去&#xff0c;也不要用过去牵扯未来。不是因为有希望才去努力&#xff0c;而是努力了&#xff0c;才能看到希望。&#x1f493;&#x1f493;&#x1f493; 目录 ✨说在前面 &#x1f34b;知识点一&#xff1a;继承的概念及定义 •&#x1f330;1.继承的概念 •&…

ECCV24高分论文:MVSplat稀疏视图下的高效的前馈三维重建模型

目录 一、概述 二、相关工作 1、稀疏视角场景重建 2、前馈NeRF 3、前馈3DGS 4、多视角立体视觉 三、MVSplat 1、多视角Transformer 一、概述 本文提出了一个MVSplat高效的前馈三维重建模型&#xff0c;可以从稀疏的多视图图像中预测3D高斯分布&#xff0c;并且相较于p…

三角形面积 python

题目&#xff1a; 计算三角形面积 代码&#xff1a; a int(input("请输入三角形的第一个边长&#xff1a;")) b int(input("请输入三角形的第二个边长&#xff1a;")) c int(input("请输入三角形的第三个边长&#xff1a;")) s (abc) / 2 #…

我谈均值平滑模板——给均值平滑模板上升理论高度

均值平滑&#xff08;Mean Smoothing&#xff09;&#xff0c;也称为盒状滤波&#xff08;Box Filter&#xff09;&#xff0c;通过计算一个像素及其周围像素的平均值来替换该像素的原始值&#xff0c;从而达到平滑图像的效果。 均值平滑通常使用一个模板&#xff08;或称为卷…

ISCC认证是什么?ISCC认证的申请流程有哪些注意事项?

ISCC认证&#xff0c;即国际可持续发展与碳认证&#xff08;International Sustainability & Carbon Certification&#xff09;&#xff0c;是一个全球通用的可持续发展认证体系。以下是对ISCC认证的详细介绍&#xff1a; 一、起源与背景 ISCC认证体系起源于德国&#x…

如何使用pymysql和psycopg2执行SQL语句

在Python中&#xff0c;pymysql和psycopg2是两个非常流行的库&#xff0c;用于与MySQL和PostgreSQL数据库进行交互。本文将详细介绍如何使用这两个库来执行SQL查询、插入、更新和删除操作。 1. 准备工作 首先&#xff0c;确保已经安装了pymysql和psycopg2库。如果尚未安装&a…

Linux驱动---光电开关、火焰传感器、人体红外传感器

文章目录 一、电路连接二、设备树三、驱动代码 一、电路连接 人体红外 – PF12 检测到人体时会产生一个上升沿 光电开关 – PE15 有遮挡物时会产生一个上升沿 火焰传感器 – PF5 有火焰时会产生一个上升沿 二、设备树 /{ //人体红外PF12human{ compatible "zyx,huma…

电池大师 2.3.9 | 专业电池管理,延长寿命优化性能

Battery Guru 显示电池使用情况信息&#xff0c;测量电池容量&#xff08;mAh&#xff09;&#xff0c;并通过有用技巧帮助用户改变充电习惯&#xff0c;延长电池寿命。支持显示电池健康状况&#xff0c;优化电池性能。 大小&#xff1a;9.6M 百度网盘&#xff1a;https://pan…

数据库软题7-数据库设计

一、概念结构设计 题1-ER图的属性分类 题2-局部ER图的冲突分类 1.命名冲突 命名冲突有同名异义&#xff0c;异名同义2.结构冲突 结构冲突分为&#xff1a;统一实体不同属性&#xff0c;同一对象在不同关系里可能为属性或者实体 教师其实就是职工&#xff0c;他们有不同的属性…

基于Arduino的超声波测距模块HC-SR04

一. HC-SR04超声波模块简介 HC-SR04超声波模块是一种常用的测距模块&#xff0c;通过不断检测超声波发射后遇到障碍物所反射的回波&#xff0c;从而测出发射和接收回波的时间差&#xff0c;并据此求出距离。它主要由两个‌压电陶瓷超声传感器和一个外围信号处理电路构成&#…

重生之我在代码随想录刷算法第十九天 | 第77题. 组合、216.组合总和III、 17.电话号码的字母组合

参考文献链接&#xff1a;代码随想录 本人代码是Java版本的&#xff0c;如有别的版本需要请上代码随想录网站查看。 第77题. 组合 力扣题目链接 解题思路 这道题目乍一看可以用暴力解法解决&#xff0c;但如果k的数量增加那就需要套特别多的循环&#xff0c;所以这种组合类…

植物大战僵尸修改器-MFC

创建项目 创建mfc应用 基于对话框 打开资源视图下的 IDD_MFCAPPLICTION2_DIALOG 限制对话框大小 将属性中Border的值改为对话框外框 删除对话框中原有的控件 属性-外观-Caption 设置对话框标题 工具箱中拖放一个按钮 修改按钮名称 将按钮ID改为IDC_COURSE 在MFCApplication2…

django(二):定义第一个函数及url介绍

1.定义index函数 """ django里的第一个函数必须是request,不写会报错 """def index(request):return HttpResponse("Hello, world. Youre at the index of djangoProject.")注意&#xff01; ①.index函数里的形参必须为request ②.r…

STM32输入捕获模式详解(上篇):原理、测频法与测周法

1. 前言 在嵌入式系统的开发过程中&#xff0c;常常需要对外部信号进行精确的时间测量&#xff0c;如测量脉冲信号的周期、频率以及占空比等。STM32系列微控制器提供了丰富的定时器资源&#xff0c;其中的输入捕获&#xff08;Input Capture, IC&#xff09;模式能实现对信号的…

【测试】BUG篇——BUG

bug的概念 定义&#xff1a;⼀个计算机bug指在计算机程序中存在的⼀个错误(error)、缺陷(flaw)、疏忽(mistake)或者故障(fault)&#xff0c;这些bug使程序⽆法正确的运⾏。Bug产⽣于程序的源代码或者程序设计阶段的疏忽或者错误。 准确的来说&#xff1a; 当且仅当规格说明&am…

网站集群批量管理-Ansible(ad-hoc)

1. 概述 1. 自动化运维: 批量管理,批量分发,批量执行,维护 2. 无客户端,基于ssh进行管理与维护 2. 环境准备 环境主机ansible10.0.0.7(管理节点)nfs01 10.0.0.31(被管理节点)backup10.0.0.41(被管理节点) 2.1 创建密钥认证 安装sshpass yum install -y sshpass #!/bin/bash ##…

SpringBoot整合MyBatis记录

整体目录结构 创建数据库 创建一个MySQL的表&#xff0c;表名是student。 create table student (id int auto_increment comment 唯一标识idprimary key,name varchar(30) not null comment 姓名,age int not null comment 年龄 ) 插入一条数据记录到数据库当中去…

【数据结构与算法-高阶】并查集

【数据结构与算法-高阶】并查集 &#x1f955;个人主页&#xff1a;开敲&#x1f349; &#x1f525;所属专栏&#xff1a;数据结构与算法&#x1f345; &#x1f33c;文章目录&#x1f33c; 1. 并查集原理 2. 并查集实现 3. 并查集应用 1. 并查集原理 在一些应用问题中&…