《机器学习》集成学习之随机森林

news2025/1/9 20:43:39

目录

一、集成学习

1、简介

2、集成学习的代表

3、XGBoost和随机森林的对比

相同点:

不同点:

二、Bagging之随机森林

1、简介

2、随机森林的核心思想

3、随机森林生成步骤

4、随机森林的优点

5、随机森林的缺点

三、随机森林的代码实现

1、API接口

核心参数

 2、代码实现


一、集成学习

1、简介

集成学习是一种通过结合多个基学习器(Base Learners)来构建更强模型的机器学习方法。其核心思想是“三个臭皮匠,顶个诸葛亮”,即通过集成多个弱学习器的预测结果,可以获得比单一模型更好的泛化性能和鲁棒性。集成学习广泛应用于分类、回归和异常检测等任务。

 

2、集成学习的代表

  • bagging方法:典型的是随机森林
  • boosting方法:典型的是Xgboost
  • stacking方法:堆叠模型 

3、XGBoost和随机森林的对比

  • 相同点:
    • 两者都是由多棵树组成,最终的结果都是由多棵树一起决定。
    • 在使用CART树时,两者可以是分类树或者回归树。
  • 不同点:
    • 组成随机森林的树可以并行生成,而XGBoost是串行生成。
    • 随机森林的结果是多数表决表决的,而XGBoost则是多棵树累加之和。
    • 随机森林对异常值不敏感,而XGBoost对异常值比较敏感。
    • 随机森林是减少模型的方差,而XGBoost是减少模型的偏差。
    • 随机森林不需要进行特征归一化,而XGBoost则需要进行特征归一化。
    • XGBoost在训练之前,预先对数据进行了排序,然后保存为blockblock结构,后面的迭代中重复地使用这个结构,大大减小计算量。这个blockblock结构也使得并行成为了可能,在进行节点的分裂时,需要计算每个特征的增益,最终选增益最大的那个特征去做分裂,那么各个特征的增益计算就可以开多线程进行。

二、Bagging之随机森林

1、简介

随机森林是一种基于集成学习的机器学习算法,属于Bagging(Bootstrap Aggregating)方法的一种。它通过构建多个决策树并将它们的结果进行集成,从而提高模型的准确性和鲁棒性。随机森林广泛应用于分类和回归任务,具有较好的泛化能力和抗过拟合特性。 

2、随机森林的核心思想

  • Bagging

    • 随机森林通过对训练数据进行有放回的随机采样(Bootstrap Sampling),生成多个不同的子数据集。

    • 每个子数据集用于训练一个独立的决策树。

  • 随机特征选择

    • 在构建每棵决策树时,随机森林不仅对样本进行随机采样,还对特征进行随机选择。

    • 每次分裂节点时,只从随机选择的特征子集中选择最优特征,而不是从所有特征中选择。

  • 集成学习

    • 训练完成后,随机森林通过投票(分类任务)或平均(回归任务)的方式,将多棵决策树的结果进行集成,得到最终预测结果。

3、随机森林生成步骤

  • 数据采样

    • 从原始训练集中通过Bootstrap Sampling随机抽取n个样本(可能有重复),形成一个子数据集。

    • 重复此过程,生成Di个子数据集。

  • 构建决策树

    • 对每个子数据集,构建一棵决策树。

    • 在每次分裂节点时,从随机选择的特征子集中选择最优特征进行分裂。

  • 集成预测

    • 对于分类任务,采用多数投票法,将每棵树的预测结果进行投票,得票最多的类别为最终预测结果。

    • 对于回归任务,采用平均值法,将所有树的预测结果取平均作为最终预测值。

4、随机森林的优点

  • 抗过拟合

    • 通过Bagging和随机特征选择,随机森林能够有效降低模型的方差,减少过拟合的风险。

  • 高准确性

    • 集成多棵决策树的结果,通常比单棵决策树的预测效果更好。

  • 鲁棒性强

    • 对噪声数据和缺失值不敏感,能够处理高维数据。

  • 可解释性

    • 可以通过特征重要性评估,了解哪些特征对预测结果影响较大。

  • 并行化

    • 每棵树的构建是独立的,可以并行化处理,提高训练效率。

5、随机森林的缺点

  • 训练时间较长

    • 当树的数量较多时,训练时间会显著增加。

  • 内存占用较大

    • 需要存储多棵决策树,内存消耗较大。

  • 不易解释性:

    • 随机森林模型还有许多不好解释的地方,有点算个黑盒模型。

三、随机森林的代码实现

1、API接口

RandomForestClassifier()
核心参数
参数名默认值说明
n_estimators100随机森林中树的数量。树越多,模型越稳定,但计算成本也越高。
criterion'gini'分裂节点的评价标准。可选值:
'gini':基尼不纯度。
'entropy':信息增益。
max_depthNone树的最大深度。如果为 None,则节点会一直扩展,直到所有叶子节点纯净或达到 min_samples_split
min_samples_split2分裂内部节点所需的最小样本数。如果样本数少于该值,则不会继续分裂。
min_samples_leaf1叶子节点所需的最小样本数。如果某次分裂导致叶子节点样本数少于该值,则不会进行分裂。
min_weight_fraction_leaf0.0叶子节点所需的最小权重比例。
max_features'sqrt'每次分裂时考虑的最大特征数。可选值:
'auto' 或 'sqrt':取特征总数的平方根。
'log2':取特征总数的对数。
- 整数:直接指定特征数。
- 浮点数:指定特征总数的百分比。
max_leaf_nodesNone树的最大叶子节点数。如果为 None,则不限制叶子节点数。
min_impurity_decrease0.0如果分裂导致不纯度的减少大于该值,则进行分裂。
bootstrapTrue是否使用 Bootstrap 采样。如果为 False,则使用整个数据集训练每棵树。
n_jobsNone并行运行的作业数。如果为 -1,则使用所有可用的 CPU 核心。
random_stateNone随机种子,用于控制随机性。设置固定值可以使结果可重复。
warm_startFalse如果为 True,则复用上一次调用的结果,继续训练更多的树。
ccp_alpha0.0用于最小化成本复杂度剪枝的复杂度参数。值越大,剪枝越强。
max_samplesNone如果 bootstrap=True,则指定每个基学习器使用的样本数。可以是整数或浮点数(比例)。

 2、代码实现

判断邮件是否是垃圾邮件

import pandas as pd
import matplotlib.pyplot as plt
from pylab import mpl
from sklearn.metrics import confusion_matrix
from sklearn import metrics
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

df = pd.read_csv('../data/spambase.csv')

# 可视化混淆矩阵
def cm_plot(y, yp):
    cm = confusion_matrix(y, yp)  # 计算混淆矩阵
    plt.matshow(cm, cmap=plt.cm.Blues)  # 使用蓝色调绘制混淆矩阵
    plt.colorbar()  # 添加颜色条
    for x in range(len(cm)):
        for y in range(len(cm)):
            # 在每个单元格中标注数值
            plt.annotate(cm[x, y], xy=(x, y), horizontalalignment='center', verticalalignment='center')
    plt.ylabel('True label')  # 设置y轴标签
    plt.xlabel('Predicted label')  # 设置x轴标签
    return plt

# 数据划分
x = df.iloc[:,:-1]
y = df.iloc[:,-1]
xtrain, xtest, ytrain, ytest = train_test_split(x,y,test_size=0.2,random_state=2)
rf = RandomForestClassifier(n_estimators=100,max_features=0.8,random_state=22)
rf.fit(xtrain,ytrain)

# 自测
train_predicted = rf.predict(xtrain)
res = metrics.classification_report(ytrain,train_predicted)
print('自测结果',res)
# 测试集测试
test_predicted = rf.predict(xtest)
res1 = metrics.classification_report(ytest,test_predicted)
print('测试集结果',res1)

# 可视化混淆矩阵
cm_plot(ytrain,train_predicted).show()

# 可视化重要特征
importances = rf.feature_importances_
im = pd.DataFrame(importances,columns=["importances"])
clos = df.columns
clos_1 = clos.values
clos_2 = clos_1.tolist()
clos = clos_2[0:-1]
im['clos'] = clos
im = im.sort_values(by=['importances'],ascending=False)[:10]
mpl.rcParams['font.sans-serif']=['Microsoft YaHei']
mpl.rcParams['axes.unicode_minus']= False

index = range(len(im))
plt.yticks(index,im.clos)
plt.barh(index,im['importances'])
plt.show()

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2274001.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【HarmonyOS NEXT】鸿蒙应用实现屏幕录制详解和源码

【HarmonyOS NEXT】鸿蒙应用实现屏幕录制详解和源码 一、前言 官方文档关于屏幕录制的API和示例介绍获取简单和突兀。使用起来会让上手程度变高。所以特意开篇文章,讲解屏幕录制的使用。官方文档参见:使用AVScreenCaptureRecorder录屏写文件(ArkTS) 二…

CSS——22.静态伪类(伪类是选择不同元素状态)

<!DOCTYPE html> <html><head><meta charset"UTF-8"><title>静态伪类</title> </head><body><a href"#">我爱学习</a></body> </html>单击链接前的样式 左键单击&#xff08;且…

JavaWeb开发(六)XML介绍

1. XML介绍 1.1. 什么是XML &#xff08;1&#xff09;XML 指可扩展标记语言(EXtensible Markup Language)XML 是一种很像HTML的标记语言。   &#xff08;2&#xff09;XML 的设计宗旨是传输数据(目前主要是作为配置文件)&#xff0c;而不是显示数据。   &#xff08;3&a…

攻防世界 bug

发现有Register界面&#xff0c;先去注册 登录以后发现以下界面&#xff0c;点击Manage显示you are not admin&#xff0c;并且在注册界面用admin为注册名时显示用户名已存在。初步推测是设法改变admin的密码取得权限。 在主界面一通操作并没有什么发现&#xff0c;去findpw…

maven依赖的配置和排除依赖

1.依赖的配置 1.1位置&#xff1a;写在<properties></properties>标签之下&#xff0c;<project></project>里。 1.2语法固定的格式 <dependencies><dependency></dependency></dependencies> 1.3在 <dependency><…

transformer深度学习实战CCTSDB中国交通标志识别

本文采用RT-DETR作为核心算法框架&#xff0c;结合PyQt5构建用户界面&#xff0c;使用Python3进行开发。RT-DETR以其高效的实时检测能力&#xff0c;在多个目标检测任务中展现出卓越性能。本研究针对CCTSDB交通标志数据集进行训练和优化&#xff0c;该数据集包含丰富的CCTSDB交…

Elastic-Job相关

文档参考视频&#xff1a;09_SpringBoot案例演示_哔哩哔哩_bilibili 一、Elastic-Job介绍 Elastic-Job 是一个轻量级、分布式的任务调度框架&#xff0c;旨在解决分布式环境下的定时任务调度问题。 1.1. Elastic-Job 的核心组件 Elastic-Job 是由多个核心组件构成的&#x…

esp32开发笔记之一:esp32开发环境搭建vscode+ubuntu

最近想用esp32做一个物联网项目&#xff0c;踩坑N个终于有点心得&#xff0c;写下来避免和我一样的小白踩无谓的坑。 写在前面&#xff1a; 第一&#xff0c;大家一定要用linux系统作为编译工具&#xff0c;速度上是windows无法比的&#xff0c;不要因为不熟悉linux而选择win…

(七)人工智能进阶之人脸识别:从刷脸支付到智能安防的奥秘,小白都可以入手的MTCNN+Arcface网络

零、开篇趣谈 还记得第一次用支付宝"刷脸"时的新奇感吗&#xff1f;或者被抖音的人脸特效逗乐的瞬间&#xff1f;这些有趣的应用背后&#xff0c;其实藏着一个精妙的AI世界。今天&#xff0c;就让我们开启一段奇妙的人脸识别技术探索之旅吧&#xff01; 一、人脸识…

攻防世界 ics-07

点击之后发现有个项目管理能进&#xff0c;点进去&#xff0c;点击看到源码&#xff0c;如下三段 <?php session_start(); if (!isset($_GET[page])) { show_source(__FILE__); die(); } if (isset($_GET[page]) && $_GET[page] ! index.php) { include(flag.php);…

使用 SQL 和表格数据进行问答和 RAG(6)—将指定目录下的 CSV 或 Excel 文件导入 SQLite 数据库

将指定目录下的 CSV 或 Excel 文件导入 SQLite 数据库。以下是详细代码逻辑&#xff1a; 1. 类结构 该类包含三个主要方法&#xff1a; _prepare_db&#xff1a;负责将文件夹中的 CSV 和 XLSX 文件转换为 SQL 表。_validate_db&#xff1a;用于验证 SQL 数据库中创建的表是否…

各品牌大语言模型汇总

2024年大语言模型快速发展&#xff0c;应用广泛。面对众多选择&#xff0c;我们整理了一份各大语言模型汇总表格&#xff0c;提供清晰参考&#xff0c;助您了解各模型参数&#xff08;截止日期为2025年1月8日&#xff09;。 高通智匠AI支持在Windows/Android/MAC等平台上使用 …

xtu oj 1614 数字(加强版)

输出格式# 每行输出一个样例的结果&#xff0c;为一个整数。 样例输入# 3 1 10 101 样例输出# 1 2 3 解题思路&#xff1a;这个题不要想复杂了&#xff0c;很容易超时。 首先需要注意的点&#xff0c;n<10的10000次方&#xff0c;用int或者long long都会爆&#xff0c;所…

【25考研】川大计算机复试情况,重点是啥?怎么准备?

24年进入复试的同学中&#xff0c;有10位同学的复试成绩为0分。具体是个人原因还是校方原因&#xff0c;还尚不明确。但是C哥提醒&#xff0c;一定要认真复习&#xff01;复试完后不要跟任何人讨论有关复试的题目及细节&#xff01; 一、复试内容 四川大学复试内容较多&#xf…

AR 眼镜之-拍照/录像动效切换-实现方案

目录 &#x1f4c2; 前言 AR 眼镜系统版本 拍照/录像动效切换 1. &#x1f531; 技术方案 1.1 技术方案概述 1.2 实现方案 1&#xff09;第一阶段动效 2&#xff09;第二阶段动效 2. &#x1f4a0; 默认代码配置 2.1 XML 初始布局 2.2 监听滑动对 View 改变 3. ⚛️…

STM32-笔记39-SPI-W25Q128

一、什么是SPI&#xff1f; SPI是串行外设接口&#xff08;Serial Peripheral Interface&#xff09;的缩写&#xff0c;是一种高速的&#xff0c;全双工&#xff0c;同步的通信总线&#xff0c;并且 在芯片的管脚上只占用四根线&#xff0c;节约了芯片的管脚&#xff0c;同时为…

JavaScript动态渲染页面爬取之Selenium

前面这篇博客讲解了 Ajax 的分析方法&#xff0c;利用 Ajax接口可以非常方便地爬取数据。只要能找到 Ajax接口的规律&#xff0c;就可以通过某些参数构造出对应的请求&#xff0c;自然就能轻松爬取数据啦。 但是在很多情况下&#xff0c;Ajax请求的接口含有加密参数&#xff0…

python学习笔记—14—函数

1. 函数 (1) len与my_len str "supercarrydoinb"def my_len(tmp_str):cnt 0for i in tmp_str:cnt 1return cntstr_len_1 len(str) str_len_2 my_len(str) print(f"len {str_len_1}") print(f"my_len {str_len_2}") (2) 函数传参数量不受…

Unity性能优化总结

目录 前言 移动端常见性能优化指标​编辑 包体大小优化 FPS CPU占用率 GPU占用率 内存 发热和耗电量 流量优化 前言 终于有时间了,我将在最近两个项目中进行优化的一些经验进行归纳总结以飨读者。因为我习惯用思维导图,所以归纳的内容主要以图来表达希望对大家有用。…

51单片机——定时器中断(重点)

STC89C5X含有3个定时器&#xff1a;定时器0、定时器1、定时器2 注意&#xff1a;51系列单片机一定有基本的2个定时器&#xff08;定时器0和定时器1&#xff09;&#xff0c;但不全有3个中断&#xff0c;需要查看芯片手册&#xff0c;通常我们使用的是基本的2个定时器&#xff…