【机器学习】--- 决策树与随机森林

news2024/9/22 13:20:32

在这里插入图片描述

文章目录

  • 决策树与随机森林的改进:全面解析与深度优化
    • 目录
    • 1. 决策树的基本原理
    • 2. 决策树的缺陷及改进方法
      • 2.1 剪枝技术
      • 2.2 树的深度控制
      • 2.3 特征选择的优化
    • 3. 随机森林的基本原理
    • 4. 随机森林的缺陷及改进方法
      • 4.1 特征重要性改进
      • 4.2 树的集成方法优化
      • 4.3 随机森林的并行化处理
      • 4.4 使用极端随机树(Extra Trees)
    • 5. 代码示例:如何在实践中使用这些改进
      • 5.1 决策树的剪枝与优化
      • 5.2 随机森林的改进与并行化实现
    • 6. 总结

决策树与随机森林的改进:全面解析与深度优化

决策树和随机森林是机器学习中的经典算法,因其易于理解和使用广泛而备受关注。尽管如此,随着数据集规模和复杂性增加,这些算法的性能可能会遇到瓶颈。因此,研究决策树与随机森林的改进成为了机器学习领域的一个热点话题。本博客将详细探讨决策树与随机森林的基本原理、其存在的问题以及如何通过多种改进方法提升其性能。

目录

1. 决策树的基本原理

决策树是一种贪心算法,通过递归地分裂数据集构建树形结构。其主要目标是通过最大化信息增益或最小化基尼系数等指标,在每一步找到最佳的特征进行分割。

决策树的构建步骤包括:

  • 选择最佳的特征和阈值
  • 递归地将数据集划分为子集
  • 构建叶节点,存储预测的类别或值
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载数据集
data = load_iris()
X, y = data.data, data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建决策树分类器
tree = DecisionTreeClassifier()
tree.fit(X_train, y_train)

# 评估模型
accuracy = tree.score(X_test, y_test)
print(f"决策树准确率: {accuracy:.4f}")

在上面的代码中,我们使用了 sklearnDecisionTreeClassifier 来训练决策树,并对其进行简单的性能评估。

2. 决策树的缺陷及改进方法

尽管决策树在许多情况下表现良好,但它存在一些问题,如过拟合、对噪声数据敏感以及对训练集的极端依赖。这些问题可以通过以下几种方式改进:

2.1 剪枝技术

决策树容易陷入过拟合的困境,尤其是在构建过于复杂的树结构时。剪枝是一种常见的解决方案,分为预剪枝和后剪枝:

  • 预剪枝:在构建树的过程中设定限制条件,如最大深度、最小样本数等,提前终止树的生长。
  • 后剪枝:在树构建完成后,通过回溯移除冗余节点,从而简化树结构。
# 设置决策树的最大深度为3
pruned_tree = DecisionTreeClassifier(max_depth=3)
pruned_tree.fit(X_train, y_train)

# 评估模型
pruned_accuracy = pruned_tree.score(X_test, y_test)
print(f"剪枝后的决策树准确率: {pruned_accuracy:.4f}")

2.2 树的深度控制

树的深度过大会导致过拟合,而过小则会导致欠拟合。因此,设置合适的最大深度是一个非常重要的参数调优步骤。

# 使用网格搜索进行最大深度调参
from sklearn.model_selection import GridSearchCV

param_grid = {'max_depth': [3, 5, 10, 20, None]}
grid_search = GridSearchCV(DecisionTreeClassifier(), param_grid, cv=5)
grid_search.fit(X_train, y_train)

print(f"最佳深度: {grid_search.best_params_}")

2.3 特征选择的优化

传统的决策树使用信息增益或基尼系数来选择特征,但在某些数据集上,这些标准可能并不理想。可以考虑引入新的特征选择标准,比如均方误差(MSE)或基于正则化的方法。

# 基于均方误差的决策树回归模型
from sklearn.tree import DecisionTreeRegressor

regressor = DecisionTreeRegressor(criterion='mse')
regressor.fit(X_train, y_train)

3. 随机森林的基本原理

随机森林是一种集成学习方法,通过生成多个决策树并结合它们的预测结果来提高模型的稳定性和准确性。它通过引入随机性(随机特征选择和数据子采样)来减少过拟合的风险。

from sklearn.ensemble import RandomForestClassifier

# 创建随机森林分类器
forest = RandomForestClassifier(n_estimators=100)
forest.fit(X_train, y_train)

# 评估随机森林模型
forest_accuracy = forest.score(X_test, y_test)
print(f"随机森林准确率: {forest_accuracy:.4f}")

4. 随机森林的缺陷及改进方法

尽管随机森林具有许多优点,但它也有一些缺点,如计算开销较大、特征重要性计算偏差等。以下是一些改进方法。

4.1 特征重要性改进

随机森林中的特征重要性通常基于每个特征在决策树中的分裂贡献。但这种方法容易偏向高基数特征。可以通过正则化方法或基于模型输出的特征重要性计算进行改进。

# 提取特征重要性
importances = forest.feature_importances_
for i, importance in enumerate(importances):
    print(f"特征 {i}: 重要性 {importance:.4f}")

4.2 树的集成方法优化

除了随机森林,还可以采用更复杂的集成方法,如极端梯度提升(XGBoost)或LightGBM,它们通过优化决策树的构建过程,提高了模型的性能。

from xgboost import XGBClassifier

# 使用XGBoost训练模型
xgb = XGBClassifier(n_estimators=100)
xgb.fit(X_train, y_train)

# 评估XGBoost模型
xgb_accuracy = xgb.score(X_test, y_test)
print(f"XGBoost准确率: {xgb_accuracy:.4f}")

4.3 随机森林的并行化处理

随机森林的另一个问题是其计算量较大。通过并行化处理,可以加速模型的训练过程。n_jobs 参数可以控制并行化的线程数。

# 并行化的随机森林
parallel_forest = RandomForestClassifier(n_estimators=100, n_jobs=-1)
parallel_forest.fit(X_train, y_train)

4.4 使用极端随机树(Extra Trees)

极端随机树(Extra Trees)是一种与随机森林类似的集成方法,不同之处在于它在选择分割点时使用完全随机的方式,从而进一步提高模型的泛化能力。

from sklearn.ensemble import ExtraTreesClassifier

# 创建极端随机树分类器
extra_trees = ExtraTreesClassifier(n_estimators=100)
extra_trees.fit(X_train, y_train)

# 评估极端随机树模型
extra_trees_accuracy = extra_trees.score(X_test, y_test)
print(f"极端随机树准确率: {extra_trees_accuracy:.4f}")

5. 代码示例:如何在实践中使用这些改进

5.1 决策树的剪枝与优化

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_wine

# 加载数据集
data = load_wine()
X, y = data.data, data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建带剪枝的决策树
tree = DecisionTreeClassifier(max_depth=5, min_samples_split=10, min_samples_leaf=5)
tree.fit(X_train, y_train)

# 评估模型
accuracy = tree.score(X_test, y_test)
print(f"剪枝后的决策树准确率: {accuracy:.4f}")

5.2 随机森林的改进与并行化实现

from sklearn.ensemble import RandomForestClassifier

# 创建

并行化的随机森林分类器
parallel_forest = RandomForestClassifier(n_estimators=200, max_depth=10, n_jobs=-1, random_state=42)
parallel_forest.fit(X_train, y_train)

# 评估并行化随机森林模型
accuracy = parallel_forest.score(X_test, y_test)
print(f"并行化随机森林准确率: {accuracy:.4f}")

6. 总结

决策树和随机森林作为经典的机器学习算法,已经在众多领域得到了广泛应用。然而,它们的性能在面对复杂的数据时可能会出现瓶颈。通过剪枝、树深度控制、优化特征选择等方法,我们可以提高决策树的泛化能力。同时,通过特征重要性改进、极端随机树的引入和并行化处理,可以在提升随机森林性能的同时减少计算资源的消耗。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2155144.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

7-50 畅通工程之局部最小花费问题 (kruskal)

输入样例: 4 1 2 1 1 1 3 4 0 1 4 1 1 2 3 3 0 2 4 2 1 3 4 5 0输出样例: 3 代码&#xff1a; #include<iostream> #include<queue> using namespace std; const int N110; struct node{int x,y,w;bool operator <(const node &n1)const{if(wn1.w) retur…

4 html5 web components原生组件详细教程

web components 前面我们已经介绍过&#xff0c;这一期我们就来讲一讲具体用法和这其中的关键只是点&#xff1a; 1 基本使用 如果我们想实现一个封装的原生组件&#xff0c;那就离不开使用js去封装&#xff0c;这里主要就是基于HTMLElement这个类&#xff0c;去创建创建一个…

【HarmonyOS】深入理解@Observed装饰器和@ObjectLink装饰器:嵌套类对象属性变化

【HarmonyOS】深入理解Observed装饰器和ObjectLink装饰器&#xff1a;嵌套类对象属性变化 前言 之前就Observed和ObjectLink写过一篇讲解博客【HarmonyOS】 多层嵌套对象通过ObjectLink和Observed实现渲染更新处理&#xff01; 其中就Observe监听类的使用&#xff0c;Object…

prometheus监控linux虚拟机

前提条件已安装好prometheus和grafana&#xff0c;如果未安装请移步到docker部署prometheus 安装部署Prometheus,docker安装grafana安装部署Grafana。 1.二进制部署node-exporter采集器 2.1 采集器node-exporter下载 链接&#xff1a;https://pan.baidu.com/s/1hDmckSSl5X36…

【算法】BFS系列之 拓扑排序

【ps】本篇有 3 道 leetcode OJ。 目录 一、算法简介 二、相关例题 1&#xff09;课程表 .1- 题目解析 .2- 代码编写 2&#xff09;课程表 II .1- 题目解析 .2- 代码编写 3&#xff09;火星词典 .1- 题目解析 .2- 代码编写 一、算法简介 【补】图的基本概念 &#…

本地提权【笔记总结】

文章目录 服务命令at命令提权介绍适用版本复现 sc命令提权介绍适用版本复现 ps应用程序提权复现 进程注入进程迁移注入介绍条件复现 MSF自动化注入介绍getsystem原理 复现 MSF令牌窃取介绍复现 烂土豆提权介绍适用版本复现 UAC绕过介绍复现使用ask模块绕过使用bypassuac_sluihi…

谷歌的AI反击战:创始人谢尔盖·布林的回归与大模型组合的未来

近年来&#xff0c;随着AI技术的迅猛发展&#xff0c;尤其是ChatGPT等大语言模型的出现&#xff0c;全球科技格局正发生剧烈变化。作为曾经引领AI潮流的谷歌&#xff0c;在这场竞争中逐渐失去了领头羊的地位。然而&#xff0c;谷歌的创始人之一谢尔盖布林&#xff08;Sergey Br…

计算组合数

1.递推 #include<bits/stdc.h> #include<unordered_map> #include<unordered_set> using namespace std; #define int long long //可能会超时 #define PII pair<int,int> const int INF 0x3f3f3f3f, mod 1e9 7; const int N 2005; int a, b,n; …

手机自动化测试环境之夜神模拟器inspector部署验证

1、自动化测试环境部署_总览图检查表流程图 Python需要安装Appium-Python-Clicent去定位元素&#xff1b;Appium是一个中间的服务器&#xff0c;它需要依赖node.js&#xff0c;python的脚本通过appium和手机进行交互&#xff1b;手机app的环境都是java环境&#xff0c;先安装jd…

9、等保测评介绍

数据来源&#xff1a;9.等保测评介绍_哔哩哔哩_bilibili 信息系统等级测评 信息系统等级测评是测评机构依据国家信息安全等级保护制度的规定&#xff0c;按照相关管理规范和技术标准&#xff0c;对未涉及国家秘密的信息系统的安全等级保护状况进行检测评估的活动。 等级测评…

gitlab 的CI/CD (一)

前言 GitLab CI/CD 是一个内置在GitLab中的工具&#xff0c;用于通过持续方法进行软件开发&#xff1a; Continuous Integration (CI) 持续集成Continuous Delivery (CD) 持续交付Continuous Deployment (CD) 持续部署 持续集成的工作原理是将小的代码块推送到Git仓库…

JavaEE: 深入探索TCP网络编程的奇妙世界(三)

文章目录 TCP核心机制TCP核心机制三: 连接管理建立连接(三次握手)断开连接(四次挥手)三次握手/四次挥手 流程简图 TCP核心机制 书接上文~ TCP核心机制三: 连接管理 建立连接(三次握手),断开连接(四次挥手). 这里的次数指的是网络通信的次数,挥手/握手是形象的比喻(handshake…

PM2.5粉尘传感器详解(STM32)

目录 一、介绍 二、传感器原理 1.原理图 2.引脚描述 3.工作原理介绍 4.粉尘浓度转化关系 5.空气污染指数 三、程序设计 main.c文件 PM25.h文件 PM25.c文件 四、实验效果 五、资料获取 项目分享 一、介绍 GP2Y1014AU是日本夏普公司开发的一款光学灰尘浓度检测传…

探索 Web Speech API:实现浏览器语音识别与合成

引言 Web Speech API 是一项由 W3C 开发的 Web 标准&#xff0c;为开发者提供了在 Web 应用程序中实现语音识别和语音合成的能力。通过 Web Speech API&#xff0c;我们可以让网页与用户进行语音交互&#xff0c;实现更加智能化和便捷的用户体验。本文将深入探讨 Web Speech A…

14 vue3之内置组件trastion全系列

前置知识 Vue 提供了 transition 的封装组件&#xff0c;在下列情形中&#xff0c;可以给任何元素和组件添加进入/离开过渡: 条件渲染 (使用 v-if)条件展示 (使用 v-show)动态组件组件根节点 自定义 transition 过度效果&#xff0c;你需要对transition组件的name属性自定义。…

【Linux】当前进展

驱动层日志添加了下文件目录&#xff0c;函数&#xff0c;代码行的打印&#xff08;这里要小心&#xff0c;驱动目录源代码打印日志里边添进程号可能有问题&#xff0c;因为在驱动初始化的时候&#xff0c;内核还没有创建进程&#xff0c;不过猜测可以先不打印进程相关信息&…

python使用vscode 所需插件

1、导读 环境&#xff1a;Windows 11、python 3.12.3、Django 4.2.11、 APScheduler 3.10.4 背景&#xff1a;换系统需要重新安装&#xff0c;避免后期忘记&#xff0c;此处记录一下啊 事件&#xff1a;20240921 说明&#xff1a;记录&#xff0c;方便后期自己查找 2、插件…

Ansys Zemax | 如何使用琼斯矩阵表面

附件下载 联系工作人员获取附件 概览 琼斯矩阵 (Jones Matrix) 表面是一种非常简便的定义偏振元件的方法。这篇文章通过几个示例介绍了如何使用琼斯矩阵。 介绍 光线追迹程序一般只考虑光线的几何属性&#xff08;位置、方向和相位&#xff09;。光线传播到一个表面时的全…

SQL - 进阶语法(二)约束

1. SQL约束 约束用于约束表中的数据规则&#xff0c;如若存在违反行为&#xff0c;行为会被约束终止。 • NOT NULL 确保列不能有NULL值 如果添加一行新的数据&#xff0c;不能有null值&#xff0c;否则无法添加 新建表格 CREATE TABLE new_table( ID int NOT NULL, NAME …

梯形区域分解实现避障路径规划全覆盖路径规划

系列文章目录 提示&#xff1a;这里可以添加系列文章的所有文章的目录&#xff0c;目录需要自己手动添加 TODO:写完再整理 文章目录 系列文章目录前言&#xff08;1&#xff09;功能&#xff08;2&#xff09;算法&#xff08;3&#xff09;参考链接&#xff08;4&#xff09;…