【一起啃书】《机器学习》第八章 集成学习

news2025/1/16 12:36:51

文章目录

      • 第八章 集成学习
        • 8.1 个体与集成
        • 8.2 Boosting
        • 8.3 Bagging与随机森林
        • 8.4 结合策略
        • 8.5 多样性

第八章 集成学习

8.1 个体与集成

  集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统、基于委员会的学习等,下面是集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。如果集成中只包含同种类型的个体学习器,则这种集成称为同质集成,里面的个体学习器也叫做“基学习器”;如果包含的不同类型的个体学习器,则这种集成称为异质集成,里面的个体学习器也叫做“组件学习器”。

  在一般经验中,如果把好坏不等的个体学习器掺到一起,那么通常结果会是比最坏的要好一些,比最好的要坏一些,要获得好的集成,个体学习器应“好而不同”,即个体学习器要有一定的“准确性”,并且要有“多样性”,也就意味着学习器间具有差异,如下所示。

  根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表是Boosting,后者的代表是Bagging和“随机森林”。

8.2 Boosting

  Boosting是一种可将弱学习器提升为强学习器的算法:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本的分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值 T T T,最终将这 T T T个基学习器进行加权组合,如下所示:

  Boosting算法最著名的代表是AdaBoost,如下所示

  Boosting算法要求基学习器能对特定的数据分布进行学习,这可通过“重赋权法”来实现,即在训练过程的每一轮中,根据样本分布为每个训练样本重新赋予一个权重。对无法接受带权样本的学习算法,则可通过“重采样法”来实现,即在每一轮学习中,根据样本分布对训练集重新进行采样,再用重采样而得到的样本集对基学习器进行训练。需要注意的是,Boosting算法在训练的每一轮都要检查当前生成的基学习器是否满足基本条件。

  下面是西瓜数据集上的一个AdaBoost算法的例子,图中黑色粗线为集成的分类边界,黑色细线为基学习器的分类边界。

8.3 Bagging与随机森林

  如果想得到泛化能力强的集成,集成中的个体学习器应尽可能相互独立,虽然“独立”在现实任务中无法做到,但可以设法使基学习器尽可能具有较大的差异,一种可能的做法是对训练样本进行采样,产生出若干个不同的子集,再从每个数据子集中训练出一个基学习器。

  Bagging是基于自助采样法,对于给定的包含 m m m个样本的数据集,先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样经过 m m m次随机采样操作,就可以得到含 m m m个样本的采样集,最后也可以采样出 T T T个含 m m m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合。在对预测输出进行结合时,Bagging通常对分类任务使用简单投票法,对回归任务使用简单平均法。下面是在西瓜数据集上运行Bagging算法的一个例子。

  随机森林(Random Forest)是Bagging的一个扩展变体,在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。具体来说,传统决策树在选择划分属性时是在当前结点的属性集合(假定有 d d d个属性)中选择一个最优属性;而在随机森林中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含 k k k个属性的子集,然后再从这个子集中选择一个最优属性用于划分,一般情况下,推荐值 k = l o g 2 d k=log_2d k=log2d

  • 随机森林中的基学习器的多样性不仅来自样本扰动,还来自属性扰动,这就使得最终集成的泛化性能可通过个体学习器之间差异度的增加进一步提升。
  • 随机森林的训练效率优于Bagging,因为在个体决策树的构建过程中,Bagging使用的是“确定型”的决策树,在选择属性划分时要对节点的所有属性进行考察,而随机森林使用的“随机型”的决策树则只需考察一个子集。

8.4 结合策略

  学习器结合可能会从三个方面带来好处:

  • 从统计的方面来看,由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到同等性能,此时若使用单学习器可能因误选而导致泛化性能不佳,结合多个学习器则会减小这一风险。
  • 从计算的方面来看,学习算法往往会陷入局部极小,有的局部极小点所对应的泛化性能可能会很糟糕,而通过多次运行之后进行结合,可降低陷入糟糕局部极小点的风险。
  • 从表示的方面来看,某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中,此时若使用单学习器则肯定无效,而通过结合多个学习器,由于相应的假设空间有所扩大,有可能学得更好的近似。

  目前常用的结合策略有以下几种:

(1)平均法

  在个体学习器性能相差较大时宜使用加权平均法,而在个体学习器性能相近时宜使用简单平均法。

(2)投票法

  • 绝对多数投票法:若某标记得票过半数,则预测为该标记,否则拒绝预测。
  • 相对多数投票法:预测为得票最多的标记,若同时有多个标记获最高票,则从中随机选取一个。
  • 加权投票法:与加权平均法类似,为每个投票方设置权重。

(3)学习法

  当训练数据很多时,一种更为强大的结合策略是使用“学习法”,即通过另一个学习器来进行结合,比如Stacking算法,这里我们把个体学习器称为初级学习器,用于结合的学习器称为次级学习器或元学习器。

  Stacking算法是一种集成学习方法,它使用多个不同的基学习器对数据进行预测,然后将预测结果作为新的特征输入到一个元学习器中,从而得到最终的分类或回归结果。Stacking算法可以利用不同的基学习器的优势,提高泛化性能,也可以使用交叉验证或留一法来防止过拟合。

8.5 多样性

(1)误差-分歧分解

  误差-分歧分解是一种将集成学习的泛化误差分解为个体学习器的误差和分歧的方法,误差表示个体学习器的平均泛化误差,分歧表示个体学习器之间的不一致性或多样性。误差-分歧分解的公式如下:
E = E ˉ − A ˉ E = \bar E - \bar A E=EˉAˉ
  其中, E E E是集成的泛化误差, E ˉ \bar E Eˉ是个体学习器的平均泛化误差, A ˉ \bar A Aˉ是个体学习器的平均分歧。这个公式表明,个体学习器的准确性越高、多样性越大,则集成越好。误差-分歧分解只适用于回归问题,对于分类问题则难以推广。误差-分歧分解是基于平方误差的推导,而平方误差是回归问题的常用损失函数。对于分类问题,平方误差不一定是一个合适的损失函数,因为它不能很好地反映分类错误的程度。因此,误差-分歧分解难以直接推广到分类学习任务上去。

(2)多样性度量

  • 不合度量

d i s i j = b + c m di{s_{ij}} = \frac{{b + c}}{m} disij=mb+c

   d i s i j dis_{ij} disij的值域为 [ 0 , 1 ] [0,1] [0,1],值越大则多样性越大。

  • 相关系数

ρ i j = a d − b c ( a + b ) ( a + c ) ( c + d ) ( b + d ) {\rho _{ij}} = \frac{{ad - bc}}{{\sqrt {(a + b)(a + c)(c + d)(b + d)} }} ρij=(a+b)(a+c)(c+d)(b+d) adbc

   ρ i j \rho _{ij} ρij的值域为 [ − 1 , 1 ] [-1,1] [1,1],若 h i h_i hi h j h_j hj无关,则值为0;若 h i h_i hi h j h_j hj正相关则值为正,否则为负。

  • Q Q Q-统计量

Q i j = a d − b c a d + b c {Q_{ij}} = \frac{{ad - bc}}{{ad + bc}} Qij=ad+bcadbc

   Q i j Q_{ij} Qij与相关系数 ρ i j \rho _{ij} ρij的符号相同,且 ∣ Q i j ∣ ⩾ ∣ ρ i j ∣ \left| {{Q_{ij}}} \right| \geqslant \left| {{\rho _{ij}}} \right| Qijρij

  • κ \kappa κ-统计量

κ = p 1 − p 2 1 − p 2 p 1 = a + d m p 2 = ( a + b ) ( a + c ) + ( c + d ) ( b + d ) m 2 \begin{aligned} & \kappa = \frac{{{p_1} - {p_2}}}{{1 - {p_2}}} \\ & {p_1} = \frac{{a + d}}{m} \\ & {p_2} = \frac{{(a + b)(a + c) + (c + d)(b + d)}}{{{m^2}}} \end{aligned} κ=1p2p1p2p1=ma+dp2=m2(a+b)(a+c)+(c+d)(b+d)

  其中, p 1 p_1 p1是两个分类器取得一致的概率, p 2 p_2 p2是两个分类器偶然达成一致的概率,若分类器 h i h_i hi h j h_j hj D D D上完全一致,则 κ = 1 \kappa=1 κ=1;若它们仅是偶然达成一致,则 κ = 0 \kappa=0 κ=0 κ \kappa κ通常为非负值,仅在 h i h_i hi h j h_j hj达成一致的概率甚至低于偶然性的情况下取负值。

(3)多样性度量选择

  • 不合度量(disagreement measure)是指个体分类器对同一个样本给出不同分类结果的概率。不合度量越大,表示个体分类器之间的差异越大。
  • 相关系数(correlation coefficient)是指个体分类器之间的线性相关程度。相关系数越小,表示个体分类器之间的差异越大。
  • Q-统计量(Q-statistics)是指两个分类器在同一个样本上同时正确或同时错误的概率与只有一个分类器正确的概率之差。Q统计量越小,表示个体分类器之间的差异越大。
  • κ \kappa κ-统计量( κ \kappa κ-statistics)是指两个分类器在同一个样本上达成一致的概率与偶然达成一致的概率之差。 κ \kappa κ统计量越小,表示个体分类器之间的差异越大。

(4)多样性增强

  • 数据样本扰动:给定初始数据集,可从中产生出不同的数据子集,再利用不同的数据子集训练出不同的个体学习器。
  • 输入属性扰动:从初始属性集中抽取出若干个属性子集,再基于每个属性子集训练一个基学习器。
  • 输出表示扰动:对训练样本的类标记稍作变动,或者对输出表示进行转化,又或将原任务拆解为多个可同时求解的子任务。
    生出不同的数据子集,再利用不同的数据子集训练出不同的个体学习器。
  • 算法参数扰动:通过随机设置不同的参数,产生差别较大的个体学习器。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/607385.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网格搜索:Python遍历网格中每个点

遍历网格中每个点 1. 问题描述2. Python实现2.1 网格参数初始化2.2 遍历赋值2.3 矩阵赋值1. 问题描述 最近需要实现一个对矩阵赋值并对矩阵表示的网格参数进行测试的任务,假设网格的长宽均为k,待搜索的两个参数是Pitch 和 Yaw,存在两个列表中。现在需要将网格上不同参数设置…

什么情形下应该使用BFF?带你了解BFF的优势,即服务于前端的后端

BFF简介 BFF是一种Web架构,全名为Backends For Frontends,即为服务于前端的后端。这个词来源于Sam Newman的一篇文章:Pattern: Backends For Frontends。BFF一般指的是在前端与后端之间加增加一个中间层。为什么要在前端和后端之间增加一个B…

Python潮流周刊#5:并发一百万个任务要用多少内存?

△点击上方“Python猫”关注 ,回复“1”领取电子书 你好,我是猫哥。这里记录每周值得分享的 Python 及通用技术内容,部分为英文,已在小标题注明。(标题取自其中一则分享,不代表全部内容都是该主题&#xff…

oc 安装 demo 版本

版本 demo 版本用于学习;推荐订阅版本,个人商用,3.0 以下有破解,4.0 据说没有破解版本企业版,企业商用版本。 demo 版本用于学习 demo 安装需要 下载地址 oc安装 官方文档 https://docs.otoy.com/cinema4d/Instal…

Java并发体系-第四阶段-AQS源码解读(有时间就了解一下)

可重入锁 /*** 可重入锁:* 1、可重复可递归调用的锁,在外层使用锁之后,在内层仍然可以使用,并且不发生死锁,这样的锁就叫做可重入锁。* 2、是指在同一个线程在外层方法获取锁的时候,再进入该线程的内层方法会自动获取锁…

【Java多线程进阶】死锁

前言 死锁(Deadlock)是指两个或多个线程在执行过程中,因争夺资源而造成的一种互相等待的现象,如果不提前预防或外界干扰,这些线程将无法执行下去。因此,本篇博文讲解造成死锁的原因以及解决方案。 目录 1.…

7.条件渲染

目录 1 wx:if 2 wx:elif 3 wx:else 4 block标签配合条件渲染 5 hidden 1 wx:if wx:if 与 v-if 的运行方式相同,都是 删除与创建元素(不是display:none) 2 wx:elif 3 wx:else 4 block标签配合条件渲染 我们现在有一个view套view的页面 现在我不想有外…

Executor框架的两级调度模型

Executor框架的两级调度模型 在HotSpot VM的线程模型中Java线程(java.lang.Thread)被一对一映射为本地操作系统线程。Java线程启动时会创建一个本地操作系统线程;当该Java线程终止时,这个操作系统线程也会被回收。操作系统会调度…

网络io、io多路复用select/poll/epoll、基于事件驱动的reactor

一、网络IO请求 网络I/O请求是指在计算机网络中,向其他主机或服务器发送请求或接收响应的操作。这些请求可以包括获取网页、下载文件、发送电子邮件等。网络I/O请求需要使用合适的协议和通信方式来进行数据传输,例如HTTP、FTP、SMTP等。 要完成一个完整…

【SSH】在VScode远程开发 使用SSH远程连接服务器

文章目录 前言视频教程1、安装OpenSSH2、vscode配置ssh3. 局域网测试连接远程服务器4. 公网远程连接4.1 ubuntu安装cpolar内网穿透4.2 创建隧道映射4.3 测试公网远程连接 5. 配置固定TCP端口地址5.1 保留一个固定TCP端口地址5.2 配置固定TCP端口地址5.3 测试固定公网地址远程 转…

实训小总结

1. Web概述 1.1 Web和JavaWeb的概念 Web是全球广域网,也成为万维网,能够通过浏览器访问网站。 在我们日常的生活中,经常会使用浏览器去访问 百度 、 京东 、等这些网站,这些网站统称为Web网站。我们知道了什么是Web,…

超详细的HTML学习笔记:语法特点、骨架结构、基本标签及其属性(附代码示例)

作者想先说一点废话:这篇文章是作者通过学习动力节点、黑马程序员的两套不同的THML课程整理出的学习笔记,融合了两套课程的知识点,耗费了372行代码(加代码注释),希望能帮到大家。HTML只是前端学习的开端&am…

【Redis】聊一下Redis切片集群的原理

背景 在分布式领域中,为了提高系统的稳定性,一般会采用数据复制/镜像的方式,同时部署多个相同功能的节点提供服务,也就是A B C存储的相同的数据。有一个主节点提供读写服务,另外两个节点进行数据的复制,在…

chatgpt赋能python:Python去重-如何高效地处理重复数据

Python去重 - 如何高效地处理重复数据 在数据处理过程中,重复数据可能会导致很多问题,如降低计算效率、影响数据质量等。因此,数据去重是一个非常重要的任务,特别是在大数据处理中更是如此。Python作为一种流行的编程语言&#x…

make xxx_deconfig过程

在uboot中,所写的shell脚本:mx6ull_alientek_emmc.sh的内容如下: #!/bin/bash2 make ARCHarm CROSS_COMPILEarm-linux-gnueabihf- distclean3 make ARCHarm CROSS_COMPILEarm-linux-gnueabihf- mx6ull_14x14_ddr512_emmc_defconfig4 make V1…

[数据结构习题]队列——用栈实现队列

[数据结构习题]队列——用栈实现队列 👉知识点导航💎:【数据结构】栈和队列 👉[王道数据结构]习题导航💎: p a g e 85.3 page85.3 page85.3 本节为栈和队列的综合练习题 题目描述: &#x1f…

chatgpt赋能python:Python实现CSV文件只取某两列的方法详解

Python实现CSV文件只取某两列的方法详解 介绍 CSV是一种常见的数据格式,通常使用逗号或分号分隔不同的字段。在处理CSV文件时,我们经常需要只提取其中的某些列,以便进行进一步的分析或处理。使用Python语言,可以很方便地实现这一…

MTK 相机功耗分析流程

和你一起终身学习,这里是程序员Android 经典好文推荐,通过阅读本文,您将收获以下知识点: 一、硬件功耗二、相机软件功耗三、参考文档 一、硬件功耗 1.1 硬件信息 以下硬件信息最好提前获取到 模块备注平台MTK or Qcom or sprdCPU频率大中小核…

【Python】Python系列教程-- Python3 列表(十二)

文章目录 前言访问列表中的值更新列表删除列表元素Python列表截取与拼接嵌套列表列表比较Python列表函数&方法 前言 往期回顾: Python系列教程–Python3介绍(一)Python系列教程–Python3 环境搭建(二)Python系列…

第一次使用Arduino IDE(mac os) 配置合宙ESP32C3(9.9包邮)且烧录代码的历程

目录 Arduino 配置ESP32 1. Arduino 请更新至最新版 2.科学上网 3.添加开发板管理URL 配置 1.连接开发板 2.Arduino IDE 的配置 3.烧录代码 Arduino 配置ESP32 1. Arduino 请更新至最新版 2.科学上网 3.添加开发板管理URL 首选项,编辑并添加 https://…