【机器学习系列】深入理解集成学习:从Bagging到Boosting

news2024/12/23 22:32:37

目录

一、集成方法的一般思想

二、集成方法的基本原理

三、构建集成分类器的方法

常见的有装袋(Bagging)和提升(Boosting)两种方法

方法1 :装袋(Bagging)

Bagging原理如下图:

方法2 :提升(Boosting) 

Boosting工作原理

目前已有几个Boosting算法,其区别在于:

四、随机森林(Bagging集成方法的一种)

(一)随机森林bagging的思想:

(二)随机森林中的每棵树是怎么生成的呢?

(三) 为什么要随机抽样训练集?

(四)为什么要有放回地抽样?

随机森林Python实现

五、Adaboosting (Boosting集成方法的一种)

(一)基本思想

(二)Adaboosting举例说明 

本文将探讨集成学习方法的核心概念,包括其基本原理和两种主流技术:装袋(Bagging)与提升(Boosting)。我们将深入了解随机森林——一种基于Bagging的集成方法,并讨论其背后的思想、树的生成过程以及抽样策略。同时,我们也将介绍Adaboost算法的基本思想和工作原理,并通过实例加以说明。通过这篇文章,读者可以获得对集成分类器构建方法的全面了解,并掌握如何在Python中实现随机森林。

一、集成方法的一般思想

聚集多个分类器的预测来提高分类准确率,这种技术称为组合(ensemble)分类器组合(classifier combination)方法,也就是集成方法

由训练数据构建一组基分类器,然后通过对每个基分类器的预测进行投票来进行分类。

二、集成方法的基本原理

假定有 25 基分类器:
每个基分类器的误差均为 e = 0.35
假定基分类器是独立的
通过对这些基分类器的预测进行多数表决方法预测类标号
仅当超过一半的基分类器都预测错误时,组合分类器才会做出错误的预测,此时误差率为:
远远低于基分类器的误差率。
下图显示对于不同的基分类器误差率 e 下的 25 个二元分类器的组合分类器误差率           。
对角虚线表示所有基分类器都是等同的情况
实线表示所有基分类器独立时的情况
e > 0.5 时,组合分类器的性能不如基分类器

三、构建集成分类器的方法

基本思想:

 在原始数据上构建多个分类器,然后在分类未知样本时聚集它们的预测结果。

常见的有装袋(Bagging)和提升(Boosting)两种方法

方法1 :装袋(Bagging)

Bagging原理如下图:

对于未知样本Z,预测Z的类标号

方法2 :提升(Boosting) 

Boosting 方法是一种用来提高 弱分类算法 准确度的方法。
通过构造一个预测 函数 系列 , 然后以一定的方式将他们组合成一个预测函数。
Boosting 是一种提高任意给定学习算法准确度的方法。

Boosting 方法是一种针对提高弱分类算法准确度的有效技术。该方法的核心思想是通过构建一系列的预测函数,并将它们以特定的方式组合起来,从而形成一个更为强大和精准的预测模型。

具体而言,Boosting 通过以下步骤来提升任意给定学习算法的准确度:

  1. 初始化:首先选择一个弱分类器作为基础模型,并确定一个权重分配方案,初始时通常所有数据点的权重相等。

  2. 迭代训练:在每一轮迭代中,根据上一次迭代中分类错误的样本调整权重,使得错误分类的样本在下一轮迭代中得到更多的关注。然后,使用调整后的权重训练新的弱分类器。

  3. 组合预测:将每个弱分类器的预测结果按照一定的权重进行组合,通常是加权投票或加权平均,以形成最终的预测函数。这个组合过程能够有效提升整体模型的准确度。

Boosting 方法的特点在于:

  • 逐步增强:通过迭代的方式逐步增强模型的预测能力,每一步都试图修正上一步的错误。
  • 权重调整:动态调整样本权重,使得模型在后续的学习过程中更加关注那些难以分类的样本。
  • 模型组合:将多个弱分类器智能组合,形成一个强大的分类器,通常比单个分类器具有更高的准确度和鲁棒性。

总之,Boosting 是一种通用且强大的机器学习算法增强技术,它能够显著提升弱分类算法的性能,使其在许多实际问题中达到或接近最优的分类效果。

其核心思想是“ 三个臭皮匠,顶过诸葛亮 ”。

Boosting工作原理

首先从训练集用初始权重训练出一个弱学习器 1 ,根据弱学习器 1 学习误差率表现 更新 训练样本的权重,使得之前弱学习器 1 学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器 2 中得到更多的重视。
然后基于调整权重后的训练集来训练弱学习器 2. ,如此重复进行,直到弱学习器数达到事先指定的数目 T
最终将这 T 个弱学习器通过集合策略进行整合,得到最终的强学习器。

 

 

目前已有几个Boosting算法,其区别在于:

1)每轮Boosting结束时如何更新训练样本的权值;

2)如何组合每个分类器的预测。

四、随机森林(Bagging集成方法的一种)

       随机森林就是通过集成学习的思想将多棵树集成的一种算法它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习方法。

      随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。

     “森林”很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,其实这也是随机森林的主要思想--集成思想的体现。“随机”的包括随机选取训练样本集随机选取分裂属性集。 

      从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出。

(一)随机森林bagging的思想:

 将若干个弱分类器的分类结果进行投票选择,从而组成一个强分类器。

(二)随机森林中的每棵树是怎么生成的呢?

一开始提到的随机森林中的“随机”就是指的步骤a和步骤b中的两个随机性。两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入,使得随机森林不容易陷入过拟合,并且具有很好得抗噪能力(比如:对缺省值不敏感) 。

(三) 为什么要随机抽样训练集?

如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的树分类结果也是完全一样的,这样的话完全没有集成的必要

(四)为什么要有放回地抽样?

如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是有偏的"片面的",也就是说每棵树训练出来都是有很大的差异的;

而随机森林最后分类取决于多棵树(弱分类器)的投票表决,这种表决应该是"求同",因此使用完全不同的训练集来训练每棵树这样对最终分类结果是没有帮助的。

随机森林Python实现

请看下方链接

【机器学习系列】掌握随机森林:从基础原理到参数优化的全面指南_随机森林算法参数解释及调优-CSDN博客

五、Adaboosting (Boosting集成方法的一种)

(一)基本思想

如果错误率ei 接近0,则  αi 有一个很大的正值。

如果错误率ei 接近1,则 αi  有一个很大的负值。

(二)Adaboosting举例说明 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1809243.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

调研管理系统的设计

管理员账户功能包括:系统首页,个人中心,管理员管理,基础数据管理,教师类型管理,课程类型管理,公告类型管理 前台账户功能包括:系统首页,个人中心,论坛&#…

深度学习之文本分类模型-基于transformer

1、transformer transformer就是大名鼎鼎的论文《Attention Is All You Need》[1],其在一些翻译任务上获得了SOTA的效果。其模型整体结构如下图所示 encoder和decoder 其整体结构由encoder和decoder组成,其中encoder由6个相同的block组成,…

MySQL中的数据库约束

目录 导读: 约束类型 1、not null(不能为空) 2、unique(唯一) 3、default(默认值约束) 4、primary key(唯一)与unique 相同点: 不同点: auto_increment: 5、foreign key(外键) 语法形式&#xff…

GAN的入门理解

这一篇主要是关于生成对抗网络的模型笔记,有一些简单的证明和原理,是根据李宏毅老师的课程整理的,下面有链接。本篇文章主要就是梳理基础的概念和训练过程,如果有什么问题的话也可以指出的。 李宏毅老师的课程链接 1.概述 GAN是…

BC11 学生基本信息输入输出

BC11 学生基本信息输入输出 废话不多说上题目&#xff1a; 这道题表面上很简单&#xff0c;但是里面有很重要的点先给大家上正确的代码&#xff1a; #include<stdio.h> int main() {int stu 0;float c 0;float English 0;float math 0;scanf("%d;%f,%f,%f"…

Java入门教程上

常见的cmd命令 类 class 字面量 数据类型 输入 public static void main(String[] args) {Scanner anew Scanner(System.in);int na.nextInt();int ma.nextInt();System.out.println(mn);} } 算数运算符 package wclg;public class test {public static void main(String[] ar…

iOS调整collectionViewCell顺序

效果图 原理 就是设置collectionView调整顺序的代理方法&#xff0c;这里要注意一点 调整过代理方法之后&#xff0c;一定要修改数据源&#xff0c;否则导致错乱。 还有就是在collectionView上面添加一个长按手势&#xff0c;在长按手势的不同阶段&#xff0c;调用collectionV…

【数据结构】AVL树(平衡二叉树)

目录 一、AVL树的概念二、AVL树的节点三、AVL树的插入四、AVL树的旋转1.插入在较高左子树的左侧&#xff0c;使用右单旋2.插入在较高右子树的右侧&#xff0c;使用左单旋3.插入较高左子树的右侧&#xff0c;先左单旋再右单旋4.插入较高右子树的左侧&#xff0c;先右单旋再左单旋…

论文研读 A Comparison of TCP Automatic Tuning Techniques for Distributed Computing

论文《分布式计算中TCP自动调优技术的比较》由Eric Weigle和Wu-chun Feng撰写&#xff0c;探讨了自动调整TCP缓冲区大小以提升分布式应用性能的不同方法。文章首先讨论了手动优化TCP缓冲区大小的局限性&#xff0c;并介绍了研究人员提出的各种自动调优技术来应对这些挑战。 作者…

打造智慧工厂核心:ARMxy工业PC与Linux系统

智能制造正以前所未有的速度重塑全球工业格局&#xff0c;而位于这场革命核心的&#xff0c;正是那些能够精准响应复杂生产需求、高效驱动自动化流程的先进设备。钡铼技术ARMxy工业计算机&#xff0c;以其独特的设计哲学与卓越的技术性能&#xff0c;正成为众多现代化生产线背后…

2024全国大学生数学建模竞赛优秀参考资料分享

0、竞赛资料 优秀的资料必不可少&#xff0c;优秀论文是学习的关键&#xff0c;视频学习也非常重要&#xff0c;如有需要请点击下方名片获取。 一、赛事介绍 全国大学生数学建模竞赛(以下简称竞赛)是中国工业与应用数学学会主办的面向全国大学生的群众性科技活动&#xff0c;旨…

⌈ 传知代码 ⌋ 记忆大师

&#x1f49b;前情提要&#x1f49b; 本文是传知代码平台中的相关前沿知识与技术的分享~ 接下来我们即将进入一个全新的空间&#xff0c;对技术有一个全新的视角~ 本文所涉及所有资源均在传知代码平台可获取 以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦&#x…

MySQL 函数与约束

MySQL 函数与约束 文章目录 MySQL 函数与约束1 函数1.1 字符串函数1.2 数值函数1.3 日期函数1.4 流程函数 2 约束2.1 概述2.2 约束演示2.3 外键约束2.4 删除/更新行为 1 函数 函数是指一段可以直接被另一程序调用的程序或代码。 1.1 字符串函数 MySQL中内置了很多字符串函数&…

Python学习打卡:day02

day2 笔记来源于&#xff1a;黑马程序员python教程&#xff0c;8天python从入门到精通&#xff0c;学python看这套就够了 8、字符串的三种定义方式 字符串在Python中有多种定义形式 单引号定义法&#xff1a; name 黑马程序员双引号定义法&#xff1a; name "黑马程序…

攻防演练之-网络集结号

每一次的网络安全攻防演练都是各个安全厂商期待的网络安全盛会&#xff0c;因为目前的安全生态导致了只有在网络安全攻防演练期间&#xff0c;网络安全的价值才会走向台前&#xff0c;收到相关方的重视。虽然每一次都会由于各种原因不能如期举行&#xff0c;但是这一次的推迟总…

浏览器阻止屏幕息屏,js阻止浏览器息屏,Web网页阻止息屏

场景: 比如打开一个浏览器页面(比如大屏),想让它一直显示着,而不是过几分钟不操作就屏幕黑了.(电脑有设置电脑不操作就会多长时间就会息屏睡眠,如果要求每个客户都去操作一下电脑设置一下从不睡眠,这很不友好和现实.而且我也只想客户在大屏的时候才这样,其他页面就正常,按电脑设…

eNSP学习——RIP的路由引入

目录 主要命令 原理概述 实验目的 实验内容 实验拓扑 实验编址 实验步骤 1、基本配置 2、搭建公司B的RIP网络 3、优化公司B的 RIP网络 4、连接公司A与公司B的网络 需要eNSP各种配置命令的点击链接自取&#xff1a;华为&#xff45;NSP各种设备配置命令大全PDF版_ensp…

RAG检索与生成的融合

1、rag定义 检索增强生成 (RAG) 模型代表了检索系统和生成模型两大不同但互补组件完美结合的杰作。通过无缝整合相关信息检索和生成与背景相关的响应&#xff0c;RAG模型在人工智能领域达到了前所未有的复杂程度。 2、rag工作流程 2.1、rag整体框架 query通过llm处理后&…

【Golang】Go语言中defer与return的精妙交织:探索延迟执行与返回顺序的微妙关系

【Golang】Go语言中defer与return的精妙交织&#xff1a;探索延迟执行与返回顺序的微妙关系 大家好 我是寸铁&#x1f44a; 总结了一篇defer 和 return 返回值 的执行顺序探讨的文章✨ 喜欢的小伙伴可以点点关注 &#x1f49d; 前言 在Go语言中&#xff0c;defer 和return是两…

Codeforces Round 951 (Div. 2) 题解分享

A. Guess the Maximum 思路 贪心 毫无疑问的是&#xff0c;Alice会选择所有区间最大值的最小值-1&#xff0c;即。 关键是如何选取。我们注意到区间长度越大&#xff0c;这个区间的最大值是随着它不减的&#xff0c;所以如果Bob要让Alice选的最小的话&#xff0c;选择的区间…