机器学习:随机森林决策树学习算法及代码实现

news2024/9/25 1:16:56

1、概念

        随机森林(Random Forest)是一种集成学习方法,它通过构建多个决策树来进行分类或回归预测。随机森林的核心原理是“集思广益”,即通过组合多个弱学习器(决策树)的预测结果来提高整体模型的准确性和健壮性。

2、集成学习(Ensemble Learning)

        集成学习是一种机器学习方法,它结合多个学习器的预测结果来提高整体模型的性能。随机森林是集成学习的一种实现方式。

3、决策树(Decision Tree)

         决策树是一种监督学习算法,它通过学习简单的决策规则来预测目标值。每个决策树都是一个二叉树,每个节点代表一个特征的测试,每个分支代表测试的结果,每个叶节点代表一个预测结果。

4、Bagging(自助采样聚合)

        随机森林使用Bagging方法来减少模型的方差。Bagging是一种通过从原始数据集中随机抽取样本(有放回抽样)来构建多个训练集的方法。每个决策树都是在这些不同的训练集上训练得到的。

5、投票机制

        对于分类问题,随机森林通过多数投票的方式来确定最终的预测结果。每个决策树都会给出一个预测,随机森林会统计每个类别的得票数,得票数最多的类别被选为最终预测结果。

6、特征重要性

        随机森林可以评估每个特征对模型预测的贡献度,即特征重要性。这通常是通过观察在构建树时,某个特征被用于分割的次数来确定的。

7、处理能力

        随机森林能够处理高维数据,并且对于缺失数据具有一定的鲁棒性。它也可以处理分类和回归问题。

8、优点:     

  • 通常具有较高的准确率。
  • 对于高维数据表现良好。
  • 能够提供特征重要性的估计。
  • 对于数据集中的异常值和噪声具有一定的鲁棒性。

9、缺点

  • 训练时间可能较长,尤其是在数据集很大或特征很多的情况下。
  • 模型可能会占用较多的内存。
  • 模型的解释性不如单个决策树。

10、数据预处理,找到数据的特征与标签

data = pd.read_csv("spambase.csv")  # 读取数据集
x = data.iloc[:, :-1]  # 选取数据集中的特征列(除了最后一列)
y = data.iloc[:, -1]  # 选取数据集中的最后一列作为标签

11、划分训练集和测试集

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=100)

12、创建随机森林分类器实例

rf = RandomForestClassifier(n_estimators=100, max_features=0.8, random_state=0)  # 创建随机森林分类器实例
rf.fit(x_train, y_train)  # 使用训练集数据训练模型

13、打印分类报告

predict_train = rf.predict(x_train)  # 使用训练集数据进行预测
print(metrics.classification_report(y_train, predict_train))  # 打印训练集的分类报告
predict_test = rf.predict(x_test)  # 使用测试集数据进行预测
print(metrics.classification_report(y_test, predict_test))  # 打印测试集的分类报告

14、数据可视化

import matplotlib.pyplot as plt  # 导入matplotlib.pyplot,用于数据可视化
from pylab import mpl  # 导入pylab的mpl模块

# 获取每一项特征所占的权重(重要性)
importances = rf.feature_importances_
# 转换成数组,重新命名
im = pd.DataFrame(importances, columns=["importances"])
# 从原表格中获取所有列名称,将其转换成列表格式,除去最后一列
clos = data.columns
clos_1 = clos.values
clos_2 = clos_1.tolist()
clos = clos_2[:-1]  # 切片操作,获取除了最后一列的所有列名
# 将名称添加到im
im["clos"] = clos
# 对importances进行排序,获取前10个
im = im.sort_values(by=["importances"], ascending=False)[:10]

index = range(len(im))  # 创建一个索引列表
plt.yticks(index, im.clos)  # 设置y轴的刻度标签为特征名称
plt.barh(index, im["importances"])  # 绘制水平条形图
plt.show()  # 显示图形

15、结果

16、完整代码

import pandas as pd  # 导入pandas库,用于数据处理
data = pd.read_csv("spambase.csv")  # 读取数据集
x = data.iloc[:, :-1]  # 选取数据集中的特征列(除了最后一列)
y = data.iloc[:, -1]  # 选取数据集中的最后一列作为标签

from sklearn.model_selection import train_test_split  # 导入train_test_split函数

# 将数据集分割为训练集和测试集,测试集占20%
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=100)

from sklearn.ensemble import RandomForestClassifier  # 导入RandomForestClassifier
rf = RandomForestClassifier(n_estimators=100, max_features=0.8, random_state=0)  # 创建随机森林分类器实例
rf.fit(x_train, y_train)  # 使用训练集数据训练模型

from sklearn import metrics  # 导入metrics库,用于模型评估
predict_train = rf.predict(x_train)  # 使用训练集数据进行预测
print(metrics.classification_report(y_train, predict_train))  # 打印训练集的分类报告
predict_test = rf.predict(x_test)  # 使用测试集数据进行预测
print(metrics.classification_report(y_test, predict_test))  # 打印测试集的分类报告

import matplotlib.pyplot as plt  # 导入matplotlib.pyplot,用于数据可视化
from pylab import mpl  # 导入pylab的mpl模块

# 获取每一项特征所占的权重(重要性)
importances = rf.feature_importances_
# 转换成数组,重新命名
im = pd.DataFrame(importances, columns=["importances"])
# 从原表格中获取所有列名称,将其转换成列表格式,除去最后一列
clos = data.columns
clos_1 = clos.values
clos_2 = clos_1.tolist()
clos = clos_2[:-1]  # 切片操作,获取除了最后一列的所有列名
# 将名称添加到im
im["clos"] = clos
# 对importances进行排序,获取前10个
im = im.sort_values(by=["importances"], ascending=False)[:10]

index = range(len(im))  # 创建一个索引列表
plt.yticks(index, im.clos)  # 设置y轴的刻度标签为特征名称
plt.barh(index, im["importances"])  # 绘制水平条形图
plt.show()  # 显示图形

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2073920.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Java的小区物业管理系统APP的设计与实现(论文+源码)_kaic

摘 要 小区物业管理系统是现代社会中非常热门的软件,伴随着社区规模的不断扩大和住户的不断增多,本系统的主要目的是辞别帐本以及传统的单一数据管理系统,快捷的保存用户各种数据信息。本系统针对Java系统展开,使用Java、SpringB…

tomcat服务器相关搭建

文章目录 web应用服务器tomcatTomcat功能及介绍配置tomcat服务器生成tomcat启动文件 nginx反向代理session共享服务器 web应用服务器tomcat Tomcat功能及介绍 Tomcat 服务器是一个免费的开放源代码的Web 应用服务器,属于轻量级应用服务器,在中小型系统和…

香橙派AIPro开发板安装PyQt5 aarch64

香橙派AIPro开发板安装PyQt5 参考 开发板信息 官网开发板信息 软件环境信息 1、安装依赖环境 sudo apt-get install cmake gcc g pip3 install --upgrade pip pip3 install wheel setuptools sudo apt-update sudo apt-get install qt5-default sudo apt-get install qtd…

为什么互联网上要设立防火墙?WAF又是什么?

防火墙(英语:Firewall)技术是通过有机结合各类用于安全管理与筛选的软件和硬件设备,帮助计算机网络于其内、外网之间构建一道相对隔绝的保护屏障,以保护用户资料与信息安全性的一种技术。 防火墙技术的功能主要在于及…

python库(21):

1 TextBlob简介 TextBlob 是一个基于 Python 的文本处理库,能够让基础的自然语言处理任务变得异常简单。 它提供了一个简单直观的 API,让你能够轻松执行词性标注、名词短语提取、情感分析、文本分类和关键词提取等功能。 值得一提的是,Tex…

计算机网络计算题【408】——里昂视频

计算机网络【408】计算题 计算机网络概述【17题】【18题】甘特图【19题】甘特图【20题】【21题】 通信基础【14】求最大传输速率使用两个公式【27】【28】【29】差分曼彻斯特【30】[21]重点 p14 通信基础T31 流量控制与可靠传输机制T21 选择重传协议[GBN]:SR [22][24]***⭐【25…

linux系统使用 docker 来部署web环境 nginx+php7.4 并配置称 docker-compose-mysql.yml 文件

Docker是一个开源的容器化平台,旨在简化应用程序的创建、部署和管理。它基于OS-level虚拟化技术,通过将应用程序和其依赖项打包到一个称为容器的标准化单元中,使得应用程序可以在任何环境中快速、可靠地运行。 Docker的优势有以下几个方面&a…

通用定时器,输入捕获

这个图片主要看评论 这个是定时器输入捕获的基本配置步骤,主要也是看评论 注意:输入捕获开了两个中断,一个是捕获中断,只要有上升沿或者下降边沿或者双边沿,(主要看设置的捕获什么边沿)&#x…

【Python 千题 —— 基础篇】图形的面积(圆形)

Python 千题持续更新中 …… 脑图地址 👉:⭐https://twilight-fanyi.gitee.io/mind-map/Python千题.html⭐ 题目描述 题目描述 编写一个面向对象的程序,定义一个 Circle 类,该类有一个属性 radius(圆的半径),并具有一个方法 area() 来计算圆的面积。请根据以下要求实…

IM项目:进阶版即时通讯项目---文件存储和消息转发

文章目录 文件传输服务基本功能模块划分流程图实现逻辑代码实现 消息转发功能设计模块划分获取转发目标和消息处理代码实现 文件传输服务 基本功能 文件的上传文件的下载 模块划分 基于gflags进行参数和配置文件的解析基于spdlog进行日志输出基于etcd进行服务注册基于brpc进…

关于超长字符串/文本对应的数据从excel导入到PL/SQL中的尝试

问题: 1.字符串太长 2.str绑定之的结尾null缺失 将csv文件导入到PL/SQL表中存在的一些问题 1.本来我是需要将exceL上的几十条数据导入到PL/SQL数据库的一张表中,结果我花了许多时间 去导入。 想想一般情况下也就几十条数据,直接复制粘贴就…

并发编程之----线程池ThreadPoolExecutor,Excutors的使用及其工作原理

当前:并发编程之----线程池ThreadPoolExecutor,Excutors的使用及其工作原理 Redis高级----主从、哨兵、分片、脑裂原理-CSDN博客 计算机网络--面试知识总结一 计算机网络-----面试知识总结二 计算机网络--面试总结三(Http与Https) 计算机…

代码随想录 | 回溯算法总结

在代码随想录算法 | 回溯算法先导知识 | 题目分类,理论基础-CSDN博客中我们详细的介绍了回溯算法的理论知识,不同于教科书般的讲解,这里介绍的回溯法的效率,解决的问题以及模板都是在刷题的过程中非常实用! 回溯是递归…

黑神话悟空|风灵月影 35项修改器下载

《黑神话:悟空》是由游戏科学公司制作的一款动作角色扮演游戏,于2024年8月20日正式发售。游戏改编自中国著名的神魔小说《西游记》,玩家在游戏中将扮演一位“天命人”,踏上一条充满危险与惊奇的西游之路。下面为带来这款游戏的修改…

AI人像换脸!Reactor插件本地部署方法(含报错解决及整合包)

​ Reactor插件是什么?有什么用? Reactor 是一个用于 Stable Diffusion 的换脸插件, 主要功能是实现图片中的精确换脸。它可以自动检测并替换图片中的多个面部,适用于多种场景,比如生成逼真的图像或者进行复杂的图片处…

InternVL多模态模型训练教程,流程图识别检测LLM-v1版本。检测流程图,输出基础图形bounding box

文章目录 项目介绍求一个star环境准备模型下载多模态大语言模型 (InternVL 2.0) 构造训练数据集单张图片:Grounding / Detection Data 开始训练 项目介绍 本篇文章主要是讲如何训练InternVL2模型,详细信息可以看我的Github repo,欢迎star&am…

ffplay源码分析(二)结构体VideoState

在多媒体的世界里,播放器是离用户最近的一环,它将数字编码的音频和视频数据转化为生动的视听体验。ffplay 播放器作为一款强大而备受关注的工具,其背后隐藏着一系列精妙的结构体,它们协同工作,共同完成了从数据读取、解…

Unity3D 遍历预制体

Unity3D 遍历预制体进行批量化处理。 遍历预制体 有时候,我们需要对一些预制体资源进行批量化处理,如果每一个预制体都手动处理,就会耗费很多时间精力,也容易出错。 我们可以写一个脚本遍历预制体,对预制体进行修改…

单HTML文件集成vue3+ElementPlus的使用

1、新建一个HTML文件 2、HTML文件引用vue3.js 3、引用elementplus.js和elementplus.css 4、Vue初始化ElementPlus 5、页面中可以使用ElementPlus啦 HTML文件例子如下&#xff1a; <html><head><meta charset"UTF-8"><script src"./js/vue…

NSTimer 引发的循环引用(内存泄漏)| NSTimer强引用

在iOS中使用NSTimer(定时器)不当会引发内存泄漏. NSTimer 有多种创建方式,具体可以看这位朋友的文章:https://blog.51cto.com/u_16099225/6716123 我这里主要讲使用NSTimer 会引发的内存泄漏情况以及解决方法: 内存泄漏出现的场景: VC A push 到VC B, VC B里启动了一个 NST…