【机器学习】集成学习的基本概念、Bagging和Boosting的区别以及集成学习方法在python中的运用(含python代码)

news2024/9/27 21:24:09

引言

集成学习是一种机器学习方法,它通过结合多个基本模型(通常称为“弱学习器”)来构建一个更加强大或更可靠的模型(“强学习器”)

文章目录

  • 引言
  • 一、集成学习
    • 1.1 集成学习的核心思想
    • 1.2 常见的集成学习方法
      • 1.2.1 Bagging(装袋)
      • 1.2.2 Boosting(提升)
      • 1.2.3 Stacking(堆叠)
    • 1.3 集成学习的优势
    • 1.4 集成学习的挑战
    • 1.5 总结
  • 二、Bagging和Boosting的区别
    • 2.1 Bagging(装袋)
      • 2.1.1 并行处理
      • 2.1.2 降低方差
      • 2.1.3 代表性算法
      • 2.1.4 投票/平均
      • 2.1.5 样本权重
    • 2.2 Boosting(提升)
      • 2.2.1 顺序处理
      • 2.2.2 降低偏差
      • 2.2.3 代表性算法
      • 2.2.4 加权投票/组合
      • 2.2.5 样本权重
    • 2.3 主要区别
    • 2.4 总结
  • 三、集成学习在python中的实例
    • 3.1 使用随机森林(Random Forest)
    • 3.2 使用AdaBoost
    • 3.3 代码解释

在这里插入图片描述

一、集成学习

1.1 集成学习的核心思想

集成学习的目的是通过组合多个模型来提高预测的准确率或泛化能力。这种方法通常能够减少单个模型的偏差和方差,从而得到更好的性能

1.2 常见的集成学习方法

1.2.1 Bagging(装袋)

例如随机森林(Random Forest),它通过随机抽取样本和特征来构建多个独立的决策树,并通过投票或平均来聚合这些树的预测结果

1.2.2 Boosting(提升)

例如AdaBoost、XGBoost和LightGBM,这些方法通过迭代地训练模型来关注前一个模型错误分类的样本,每个新模型都尝试修正前一个模型的错误

1.2.3 Stacking(堆叠)

这种方法将多个不同的模型组合起来,通常包括两层模型,第一层是多个不同的基础模型,第二层是一个元模型,用于综合这些基础模型的输出

1.3 集成学习的优势

  • 提高预测性能:集成学习通常能够获得比单个模型更好的预测结果
  • 降低过拟合风险:通过结合多个模型,可以减少单个模型可能出现的过拟合问题
  • 增强模型的泛化能力:集成学习能够更好地处理未知数据

1.4 集成学习的挑战

  • 计算成本:集成学习通常需要训练多个模型,因此计算成本较高
  • 模型复杂度:集成模型可能比单个模型更难以解释和理解

1.5 总结

集成学习在许多机器学习任务中都是一种非常有效的策略,尤其是在数据量较大、特征较多或者模型需要高度精确的情况下。通过合理地选择和组合不同的学习器,集成学习能够显著提升机器学习任务的性能

二、Bagging和Boosting的区别

Bagging(装袋)和Boosting(提升)都是集成学习的两种主要技术,但它们在方法和工作原理上存在显著差异

2.1 Bagging(装袋)

2.1.1 并行处理

Bagging通过随机抽样(通常是放回抽样)来构建多个独立的模型,这些模型可以并行训练

2.1.2 降低方差

Bagging主要用于降低模型的方差,特别是对于那些容易过拟合的模型来说效果显著

2.1.3 代表性算法

随机森林(Random Forest)是Bagging的一个典型实现,它通过随机选择特征子集来进一步引入多样性

2.1.4 投票/平均

在预测时,Bagging通常采用简单多数投票(对于分类问题)或平均(对于回归问题)来聚合各个模型的预测结果

2.1.5 样本权重

在Bagging中,每个样本的权重是相等的,因为每个模型都在整个数据集的不同子集上进行训练

2.2 Boosting(提升)

2.2.1 顺序处理

Boosting是一种顺序技术,每个新模型都是基于前一个模型的性能来训练的,通常关注于前一个模型错误分类的样本

2.2.2 降低偏差

Boosting主要用于减少模型的偏差,通过逐步聚焦于难分样本,最终组合出一个强学习器

2.2.3 代表性算法

AdaBoost、XGBoost和LightGBM都是Boosting技术的代表

2.2.4 加权投票/组合

在预测时,Boosting会给不同的模型分配不同的权重,这些权重通常基于模型在训练集上的表现

2.2.5 样本权重

Boosting会给训练样本分配不同的权重,随着迭代的进行,错误分类的样本权重会增加,使得后续的模型更加关注这些样本

2.3 主要区别

  • 样本使用方式:Bagging使用的是随机抽样,而Boosting会给样本分配不同的权重
  • 训练过程:Bagging的模型可以并行训练,而Boosting的模型需要顺序训练
  • 目的:Bagging主要用于降低模型的方差,而Boosting主要用于降低模型的偏差
  • 结果聚合:Bagging通常采用简单的投票或平均来聚合结果,而Boosting则根据模型的表现来加权聚合结果

2.4 总结

总的来说,Bagging和Boosting都是有效的集成学习策略,但它们适用的场景和解决问题的侧重点不同。在实际应用中,选择哪种技术取决于具体的数据集和问题

三、集成学习在python中的实例

下面是一个使用Python中的scikit-learn库实现集成学习的简单实例。这个例子将展示如何使用随机森林(Bagging的一个实例)和AdaBoost(Boosting的一个实例)来对葡萄酒数据集进行分类

3.1 使用随机森林(Random Forest)

from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# 加载数据集
wine = load_wine()
X, y = wine.data, wine.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建随机森林分类器
rf = RandomForestClassifier(n_estimators=100, random_state=42)

# 训练模型
rf.fit(X_train, y_train)

# 在测试集上进行预测
y_pred_rf = rf.predict(X_test)

# 计算准确率
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print(f"随机森林准确率: {accuracy_rf:.2f}")

# 输出分类报告
print("随机森林分类报告:\n", classification_report(y_test, y_pred_rf))

输出结果:
在这里插入图片描述

3.2 使用AdaBoost

from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
# 加载数据集
wine = load_wine()
X, y = wine.data, wine.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建决策树分类器作为基分类器
dt = DecisionTreeClassifier(max_depth=1)

# 创建AdaBoost分类器
ada = AdaBoostClassifier(estimator=dt, n_estimators=50, random_state=42)

# 训练模型
ada.fit(X_train, y_train)

# 在测试集上进行预测
y_pred_ada = ada.predict(X_test)

# 计算准确率
accuracy_ada = accuracy_score(y_test, y_pred_ada)
print(f"AdaBoost准确率: {accuracy_ada:.2f}")

# 输出分类报告
print("AdaBoost分类报告:\n", classification_report(y_test, y_pred_ada))

输出结果:
在这里插入图片描述

3.3 代码解释

在这个例子中,我们首先使用随机森林对葡萄酒数据集进行分类,然后使用AdaBoost进行分类。两种方法都通过train_test_split函数划分了训练集和测试集,并使用accuracy_score函数计算了在测试集上的准确率

这些代码块提供了集成学习在Python中的基本用法,展示了如何使用Bagging和Boosting技术来构建分类器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2104373.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot3 + Spring Security6认证授权

SpringBoot3 Spring Security6 实现默认地址/login的认证 Spring Security 核心技术过滤器。一个web请求会经过一系列的过滤器进行认证授权。 主要是用默认的/login请求,继承UsernamePasswordAuthenticationFilter,来实现用户名和密码登录。 核心流程 …

idea一键自动化部署项目

文章目录 前言一、 IDEA插件安装1. 首先下载 Alibaba Cloud Toolkit 插件2. 插件下载完成后重启IDEA 二、SpringBoot项目准备1. pom.xml 文件2. controller3. 启动类 三、SpringBoot项目jar包部署1. Alibaba Cloud Toolkit 插件服务器配置2. 主机 IP、用户名、密码 点击测试链接…

5月,我面试60多号人,才发现很多人没有这项能力

很多 3~5 年开发经验的,都来自传统行业,所接触的都是一些非常传统的项目,像上面的一些案例场景,根本没碰到过,也不知道如何找到好的解决方案。 交流的过程中,发现这些很基本的问题,他们普遍都答…

Storm计算框架

工作流程 主要组件 streams spouts Bolt Tuple Topology stream grouping

Rust多线程编程概述

【图书介绍】《Rust编程与项目实战》-CSDN博客 《Rust编程与项目实战》(朱文伟,李建英)【摘要 书评 试读】- 京东图书 (jd.com) Rust到底值不值得学,之一 -CSDN博客 Rust到底值不值得学,之二-CSDN博客 12.2 多线程编程概述 12.2.1 线程…

校园洗护新体验:一键尽享便捷小程序功能全解析

校园洗护新体验:一键尽享便捷小程序功能全解析 1. **用户端尊享**:无论是渴望上门取件的便捷,还是偏爱送货至店的从容,乃至寄存网点的灵活,一切由您指尖掌控,尽享个性化服务。 2. **取货员专业视角**&…

云计算国标发布 云轴科技ZStack参编

近日,国家市场监督管理总局、国家标准化管理委员会发布中华人民共和国国家标准公告(2024年第17号)。上海云轴信息科技有限公司(简称云轴科技ZStack)参与起草的国家标准GB/T 32399-2024《信息技术 云计算 参考架构》正式…

分类预测|基于CNN提取特征使用支持向量机作为分类器进行分类预测CNN-SVM(SVM自动寻优c,g超参数)CNN和CNN-SVM

分类预测|基于CNN提取特征使用支持向量机作为分类器进行分类预测CNN-SVM(SVM自动寻优c,g超参数)CNN和CNN-SVM 文章目录 一、基本原理1. 卷积神经网络(CNN)简介CNN的基本结构 2. 支持向量机(SVM)…

WPF-快速构建统计表、图表并认识相关框架

一、使用ScottPlot.Wpf 官网地址:https://scottplot.net/quickstart/wpf/ 1、添加NuGet包:ScottPlot.Wpf 2、XAML映射命名空间: xmlns:ScottPlot"clr-namespace:ScottPlot.WPF;assemblyScottPlot.WPF" 3、简单示例:…

当视频编辑完成后,要将视频进行导出,其中mp4是人们常用的视频格式, Camtasia如何导出工程文件

当视频编辑完成后,要将视频进行导出,其中mp4是人们常用的视频格式。如果视频编辑尚未完成,则可以将工程文件暂时保存在电脑中,以便下次打开使用。今天的文章将为大家介绍Camtasia关于保存的相关内容。接下来我将为大家介绍&#x…

数据结构:树与二叉树

1、树的基本概念 1.1树的定义 树是n个结点的有限集。 若n0,称为空树;若n>0称为非空树,非空树有且仅有一个称之为根的结点。 除根结点以外的其余结点可分成m个互不相交的有限集T1,T2,......Tm,每个有限集合本身又是一棵树,并…

CentOS 部署 RocketMQ 详细指南

1. RocketMQ 5.3.0 简介 什么是 RocketMQ? Apache RocketMQ 是一个分布式消息中间件,最初由阿里巴巴开发并开源。它基于发布-订阅(Pub-Sub)模式,具有高性能、低延迟和高可靠性等特点。RocketMQ 支持大规模消息流处理…

Win11怎么把C盘分成几个盘?

很多Windows11用户会发现,系统默认只给电脑分配了一个C盘,而C盘不仅是系统盘,还是软件的默认安装位置,并且个人数据也是保存在C盘。这种情况下,电脑使用时间久了会遇到一个常见问题:C盘空间不足或是需要将C…

elasticsearch文档Delete By Query API(一)

这里的查询需要使用和Search API(后文会讲)相同的方式来将查询条件作为query的值传递,当然也可以使用q关键字,例如如下请求: curl -X POST “localhost:9200/twitter/_delete_by_query?pretty&quser:kimchy” -H…

828华为云征文|华为云Flexus X实例docker部署srs6并调优,协议使用webrtc与rtmp

828华为云征文|华为云Flexus X实例docker部署srs6并调优,协议使用webrtc与rtmp 华为云最近正在举办828 B2B企业节,Flexus X实例的促销力度非常大,特别适合那些对算力性能有高要求的小伙伴。如果你有自建MySQL、Redis、Nginx等服务…

六西格玛项目:从定义问题到控制成果,全程无忧——张驰咨询

什么是六西格玛项目 六西格玛项目是一种旨在通过改善企业质量流程管理,以“零缺陷”的完美商业追求,带动质量大幅提高、成本大幅度降低,最终实现企业财务成效的提升与企业竞争力的突破的管理策略。它由摩托罗拉公司的工程师比尔史密斯于1986…

文心一眼 4.0Turbo 免费领取5天体验卡

注:这个是官方的活动,目的在于用户推广,任何账号点击连接都可以领取,被分享者领取5天,分享者获得3天,上限320天。 官方活动跳转地址如下:​​​​​​点击这里 跳转后登录,完成一次…

浅析前端数据埋点监控:用户行为与性能分析的桥梁

在数字化时代,数据是企业决策的重要依据。前端作为用户与产品交互的第一线,其数据埋点监控不仅能够收集用户行为数据,帮助产品团队洞察用户需求,优化用户体验,还能分析性能数据,确保产品运行的流畅性。 简单…

LLM常见问题(思维链变体部分)

1. 为什么需要思维树 Tree of Thoughts(TOT)? 对于需要探索或预判战略的复杂任务来说,传统或简单的提示技巧是不够的。ToT 维护着一棵思维树,思维由连贯的语言序列表示,这个序列就是解决问题的中间步骤。使…

【计算机组成原理】你敢相信5.8+0.9=6.1这个等式居然成立!!!详细解读进制数之间的相互转换

进位计数制及其相互转换 导读一、进位计数法1.1 基数1.2 位权 二、不同进制数之间的相互转化2.1 转化方法2.2 任意进制转化成十进制2.3 十进制转化成任意进制2.4 二进制、八进制以及十六进制之间的相互转换2.4.1 二进制与八进制以及十六进制之间的关系2.4.2 二进制数与八进制数…