机器学习--方差和偏差、Bagging、Boosting、Stacking

news2025/1/15 6:59:44

 

目录

 一、方差和偏差

数学定义

对公式的解释

减小偏差、方差、噪声 

总结

二、Bagging

代码实现

bagging什么时候会变好

不稳定的learner

​总结

三、Boosting

Gradient boosting

gradient boosting 的代码实现

gradient boosting的效果

​总结

四、Stacking

stacking的效果

​stacking中每个模型的表现

多层stacking(降低偏差)

减轻多层stacking的过拟合

使用多层stacking的效果

stacking的总结

总结


 一、方差和偏差

在统计学习中我们通常会使用方差和偏差来衡量一个模型,

  • 偏差:训练到的模型与真实模型之间的区别(图中蓝点与加号之间的距离);
  • 方差:每次学习的模型之间差别有多大;

 图中【中间的加号指的是我们要学的真实模型的地方,圆圈是可容忍的区域,蓝色的圆指的是训练的模型得出的结果,蓝色的点的个数代表了所训练模型的个数】

  • 如果所有训练的模型都在大圆内 且 与加号离得很近的话,我们可以认为模型有低偏差和低方差;
  • 如果所有训练的模型没有在大圆内,那么可以说它的偏差很大;但是每一个蓝点之间差别没有那么大,就表示说方差是比较小的;
  • 虽然每个蓝点基本都落到了大圆中,但是每个蓝点的距离比较大;这样偏差比较低,但是方差很大;
  • 最差的一个情况是:每个蓝点既不落在大圆内且每次训练的不一样(之间的距离很大);即方差和偏差都是很大的

我们需要的是低偏差和低方差,这样会是比较好的模型,若出现其他三种情况的话,要考虑用其他方法使得方差和偏差都降低。

数学定义

假设每次采样都是从有噪声ε的函数f(x)中采样数据用于学习f_hat
通过学习使得f_hat与 真实的f 尽可能的相近(这是个回归问题可以用最小MSE(均方误差)来实现)
我们学习到之后需要通过 泛化误差 来衡量它;在统计学习中,我们想通过学习来使得模型能泛化到没有学习过的样本,所以我们需要优先优化 [y-f(x)_hat]^2 的期望值 = 偏差^2 + 方差 +噪声^2

对公式的解释

  •  刚开始模型过于简单可能学不到真实数据所要表达的内容,这时的偏差的平方会很大,随着模型的逐渐复杂,模型可能可以学到所想表达的信息,所以偏差的平方逐渐变小;
  • 随着模型变得越来越复杂,能够拟合的东西就越大,这样模型可能会过多的关注于噪音(数据还是那些数据 数据复杂度低),所以方差会变得越来越大;
  • 泛化误差 = 数据本身的噪音,但是数据本身没有变化,应该是个常数;但是加上了偏差和方差,最后就会导致最后的泛化误差曲线就会跟图中的蓝线一样
  • 跟之前讲过的下图有关。

 训练误差往往会跟偏差相关(偏差越小,模型就越容易拟合到数据上);图上两条线的差距可以说是方差在起作用。

减小偏差、方差、噪声 

  • 任务是减小泛化误差,那我们需要减小偏差、方差、噪声

  • 减小偏差:偏差很大,说明模型复杂度可能不够,可以使用一个模型复杂度高一点的模型(在神经网络中可以 增加层数 增加隐藏层单元个数(宽度));也可使用【Boosting;Stacking】
  • 减小方差:方差太大可能代表你的模型过于复杂,我们可以是用一个简单点的模型,或者是使用正则化(使用L2,L1正则项,限制住每个模型能够学习的范围);也可使用【Bagging;Stacking】
  • 降低噪声:在统计学习中,这个是不可以降低的误差,但是在真实的场景,这是来自于数据采集,可以通过更精确的数据采集,更干净的数据来使得噪声降低
  • 集成学习:使用多个模型来提升性能【上面提到的Boosting;Stacking;Bagging; 后面的小节会说】 

总结

  • 在统计学习中,我们可以把泛化误差分解为 偏差、误差和噪声三项;
  • 集成学习能够将多个模型组合起来来降低偏差和。

二、Bagging

做bagging的时候,每次训练n个模型(base learners),但是每个模型都是独立并行训练的,在得到n个模型之后,

  • 如果是回归问题,会把每一个模型的输出做平均就得到了bagging出来的效果
  • 如果是做分类的话,这样每一个模型都会输出一个类别,然后会用这些输出做投票选最多的(这个叫Majority voting)

每个模型的训练是通过bootstrap采样得到的训练集上训练的

  • 什么是bootstrap采样?假设训练集有m个样本,每一次训练base learner的时候,随机采样m个样本,每次采样我们会将这个样本放回去,可能有些样本会重复,如果有n个模型要这样训练,就重复n次
  • 大概是有1-1/e ≈63%的概率会被采样到,就是说可能有37%的样本是没有采样出来的,可以用这个来做验证集,这个也叫做 out of bag。

代码实现

随机森林使用决策树来做base learner;
使用随机森林时的常用技术,在bootstrap样本时还会每次随机采样一些特征出来,但在这个地方就不会去采样重复的类出来,因为重复的类没有太大的意义;这样做主要的好处是随机采样之后可以避免一定的过拟合,而且能够增加每一棵决策树之间的差异性;
在右边的曲线图中,我们可以知道,随着learner的数量增加,模型的误差是逐渐减小的。但是泛化误差的曲线不会往上升,这是因为我们降低了方差但没使得偏差更大,这也就改善了泛化误差中三项其中的一项,但没增加另外两项。

class Bagging:
    def __init__(self, base_learner, n_learners):
       self.learners = [clone(base_learner) for _ in range(n_learners)]

    def fit(self, X, y):
        for learner in self.learners:
            examples = np.random.choice(
                np.arange(len(X)), int(len(X)), replace=True)
            learner.fit(X.iloc[examples, :], y.iloc[examples])

    def predict(self, X):
        preds = [learner.predict(X) for learner in self.learners]
        return np.array(preds).mean(axis=0)

bagging什么时候会变好

bagging主要下降的是方差,在统计上采样1次和采样n次取平均,它的均值是不会发生变化的就bias是不会发生变化的,唯一下降的是方差,采样的越多,方差相对来说变得越小。
方差什么时候下降的比较快,方差比较大的时候下降的相关比较好。
那什么时候方差大呢,方差比较大的模型我们叫做unstable的模型;以回归来举例子,真实的是f ,base learner是h,bagging之后 对每个学到的base learner的预测值取个均值 就会得到预测值f_hat;因为期望的平方会小于方差,所以h(x)与f(x)差别很大的时候,bagging的效果比较好。
也就是说,在base learner没那么稳定的时候,它对于下降方差的效果会好。

不稳定的learner

决策树不是一个稳定的learner,因为数据一旦发生变化,选取的特征然后选取特征的哪个值都会不一样,分支会不一样,故其不稳定;
线性回归比较稳定,数据的较小的变化,对模型不会有太大的影响 。

 总结

bagging就是训练多个模型,每个模型就是通过在训练数据中通过bootstrap采样训练而来;
bootstrap就是每一次用m个样本,随机在训练数据中采样m个样本,且会放回继续采样
bagging的主要效果是能够降低方差,特别是当整个用来做bagging的模型是不稳定的模型的时候效果最佳(随机森林)。

三、Boosting

boosting 它是说将多个弱一点的模型(偏差比较大)组合起来变成强一点的模型(偏差比较小),主要是为了去降低偏差而不是方差【Bagging 把多个不那么稳定的模型把它们放在一起得到一个相对稳定的模型】
Boosting是要按顺序的学习【bagging是每个模型是独立的】
具体的做法:每一次在第i步的时候,会训练一个弱模型h i,然后去评估一下它的误差εt;然后根据当前的误差εt重新采样一下,使得接下来的模型h i+1会去关注那些预测不正确的样本;
比较著名的样例:AdaBoost,Gradient boosting

Gradient boosting

假设在时间 t 时训练好的模型时Ht(x),时间1时H1(x)=0

  • 在残差上训练新的模型ht【残差指在m个样本中样本本身 特征不发生变化,标号变了 实际标号减去预测的标号(也就是后面说的拟合不够的差值)】
  •  时间1时 是在原始的样本上进行训练,但是在之后的时间内,都是把当前时刻boosting的模型去拟合 拟合不够的那个差值
  • 然后将ht * η(学习率)加进当前整个boosting出来的模型,变成下一个时刻boosting出来的模型【η是作为一个正则项,boosting中叫收缩】(当然η可以为1,但是这样很容易过拟合)。
  • 残差实际上等价于 MSE作为损失函数时 损失函数L对函数H做负梯度。

为什么会讲gradient boosting?是因为其他的boosting 函数可以换到gradient boosting的框架里面(取决于要怎么去选损失函数L)

gradient boosting 的代码实现

class GradientBoosting:
    def __init__(self, base_learner, n_learners, learning_rate):
        self.learners = [clone(base_learner) for _ in range(n_learners)]
           self.lr = learning_rate

    def fit(self, X, y):
        residual = y.copy()
        for learner in self.learners:
            learner.fit(X, residual)
            residual -= self.lr * learner.predict(X)

    def predict(self,X):
        preds = [learner.predict(X) for learner in self.learners]
        return np.array(preds).sum(axis=0) * self.lr

gradient boosting的效果

  • 用决策树作为weak learner(Gradient boosting 很容易 过拟合,所以我们需要对它做些正则化,需要用一个弱的模型来做)
  • 但是决策树是一个强模型,我们需要限制树的最高层数,也可以随机采样一些特征(列)
  • 在GBDT中模型没有过拟合(每一个小模型确实比较弱,学习率也定的比较低),当weak learner、学习率 控制得比较好的时候,它的过拟合现象没那么严重
  • GBDT需要顺序训练,在大的训练集上会比较吃亏,所以会用一些加速算法如:XGBoost,lightGBM。

 总结

  • Boosting是说把n个弱一点的模型组合在一起变成一个比较强的模型,用于降低偏差。
  • Gradient boosting 是boosting的一种,每一次弱的模型是去拟合 在标号上的残差,可以认为是每次去拟合给定损失函数的负梯度方向 。

四、Stacking

  • stacking 跟之前个begging有一点像的,都是将多个base learner放在一起,来降低方差;
  • 但是不同在于stacking的base learner可以有不同的模型类别;stacking的输出是concat起来的(模型种类不一样输出可能不同),然后再做线性的组合就得到最终的输出【begging是在数据上多次训练同样的模型;begging是所有模型的输出做平均或做投票】;
  • 每个模型是在原始数据上训练不需要再通过bootstrap 的采样(如果base learner是随机森林的话是已经做了的)
  • 竞赛中经常被使用,一般是每一个人训练不一样的模型,甚至是做不一样的特征提取,最后再将结果加起来 。

stacking的效果


stacking中每个模型的表现

直接使用的是AutoGluon的实现

做stacking的时候没有办法保证每一个模型的效果都很好,很多时候需要加入能够提升模型精度的模型。

多层stacking(降低偏差)

将第一层stacking的输出看成是特征送入下一层的stacking中(第二层的输入是基于上一层的输出,离最后的标号很近了,所以下一层训练起来会比较容易),这样可以把没有训练好的地方重新训练;
在这里也会将原始的特征直接与第一层的输出一起送入下一层
多层stacking很容易过拟合(同一份数据又送进去学了一遍)。

减轻多层stacking的过拟合

最简单的一种做法就是每一层的数据不是同一份数据(将数据集分成两块A、B(2层stacking),然后用A训练第一层模型L1,用L1对B进行预测,把预测的结果加上B本身训练第二层模型L2);
每一次只用了一半的数据比较亏,所以使用重复k折bagging的方法。

  • 像k折交叉验证一样,将数据集分成k份,每一次在k-1份上训练,再用第k份做验证,这样可以训练k个模型
  • 每个模型用这个方法训练了一次 所以每次训练了是k*n个小模型
  • 更加昂贵的做法,对上述的做法重复做n次k折交叉验证,这样可以拿到n个预测值,再取平均放入下一层中。

使用多层stacking的效果

stacking的总结

  • stacking就是把多个不同的模型合并起来,用来降低方差,获取多样性;
  • 多层stacking能够把多层的模型合并起来,每一层在下一层的基础上,再更好的拟合数据,来降低偏差,但是这样的模型很容易过拟合,需要做大量的工作避免其过拟合(重复的k折bagging,每一层都能在完整的数据集上训练;重复与k折使得训练的数据都不会更上一层的数据混在一起)
  • stacking经常在竞赛中被使用,但问题很明显,它需要把多个模型放在一起,相对来说比较贵;关注精度和结果的可以使用它;如果觉得模型太贵了,线上表现太差可以使用蒸馏(可以使得模型变小,但是也尽量保护住了精度)

总结

  • 集成学习就是将多个模型组合起来来降低偏差和方差

  • bagging是n个同样的模型做平均,主要目的是降低方差;
  • boosting就是几个模型组合起来,主要是降低偏差
  • stacking就是将多个不同的模型组合起来,降低方差
  • 多层stacking,就是用来降低方差;
  • 如果模型有n个的话,bagging,boosting,stacking的计算花销为之前的n倍;
  • bagging与stacking的好处在于每个模型基本上可以独立参与训练,所以它们是可以做并行的;boosting是训练好一个模型后再训练一个模型
  • 最后k折多层stacking基本上可以讲上面的好处都可以拿到,但是代价也非常明显,假设有 l层 n个模型 做 k折交叉验证 则计算花销是 n*l*k ,如果还要重复多次可以还要翻几倍
  • 虽然k折多层staking每一层是顺序的关系,但是一层的里面是并行的。

参考:【斯坦福21秋季:实用机器学习中文版】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/159247.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

秒杀项目总结

秒杀就是同一个时刻有大量的请求争抢购买同一个商品,并且完成交易的过程 也就是大量的并发读和并发写 先制作一个增删改查的秒杀系统,但是想让这个系统支持高并发访问就没那么容易了, 如何让这个秒杀系统面对百万级的请求流量不出故障&…

02-final、finally、finalize的区别?

1.final final是java中的修饰符,用于修饰属性(变量)、方法、类。 1.被final修饰的变量不可以被改变,如果修饰引用,那么表示引用不可变,引用指向的内容可变. 被修饰的常量,在编译阶段会存入常量池中. 2.被final修饰的方法不可以被重写, 被修…

图片播放器的实现1——利用Image2LCD提取图片数据并显示

以下内容源于朱有鹏嵌入式课程的学习与整理,如有侵权请告知删除。 参考内容 (1)https://xiefor100.blog.csdn.net/article/details/71941527 (2)https://xiefor100.blog.csdn.net/article/details/78529519 内容总结 …

2022. 12 青少年软件编程(图形化) 等级考试试卷(四级)

2022年12月 青少年软件编程(图形化) scratch等级考试试卷(四级) 分数: 100 题数: 28 一、单选题(共 15题,共 30分) 1.运行下列程序, 变量“结果”的值为? ( &…

WXSS 如何进行编译?

过往中小企业或技术团队开发一个 App 的时间成本和人力成本居高难下,但是随着微信上线小程序,更像是为这部分群体打开了一扇天窗,此后小程序呈现出井喷式发展的状态,不仅微信,支付宝、百度、抖音等超级 App 都跟上步伐…

【C++核心编程】C++全栈体系(十)

C核心编程 第四章 类和对象 六、继承 继承是面向对象三大特性之一 有些类与类之间存在特殊的关系,例如下图中: 我们发现,定义这些类时,下级别的成员除了拥有上一级的共性,还有自己的特性。 这个时候我们就可以考…

华为DHCPv6实验配置

目录 配置AR1作为DHCPv6服务器为PC1分配IPv6地址 配置AR2作为DHCPv6服务器,AR1作为DHCPv6中继器为PC2分配IPv6地址 配置AR3作为DHCPv6 PD服务器为AR1分配地址前缀 什么是DHCP PD 配置AR1作为DHCPv6服务器为PC1分配IPv6地址 AR1 DHCPv6服务器端配置 ipv6 …

解决N+1问题的另一种方法 - 关联的多结果集ResultSet

如果我的博客对你有帮助,欢迎进行评论✏️✏️、点赞👍👍、收藏⭐️⭐️,满足一下我的虚荣心💖🙏🙏🙏 。 从版本 3.2.3 开始,MyBatis 提供了另一种解决 N1 查询问题的方…

C语言——位段

文章目录思维导图:一. 什么是位段二.位段的内存分配三.位段的跨平台问题四.位段的应用结语:思维导图: 一. 什么是位段 位段的声明和结构体类似,但是有2个不同: 位段的成员必须是int、unsigned int 或 signed int(在很多平台上cha…

python自学之《21天学通Python》(9)——基于tkinter的GUI编程

第12章 基于tkinter的GUI编程 Windows的图形用户界面非常方便用户操作,因此,Windows操作系统得到了广大个人计算机用户的欢迎。在Python中,也可以编写美观的GUI界面应用程序与项目。tkinter是Python自带的用于GUI编程的模块,tkin…

【论文速递】CVPR2022 - 学习 什么不能分割:小样本分割的新视角

【论文速递】CVPR2022 - 学习 什么不能分割:小样本分割的新视角 【论文原文】:Learning What Not to Segment: A New Perspective on Few-Shot Segmentation 获取地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Lang_Learning_What_Not_…

Linux--线程控制--线程相关函数--tid--0109 10

1.如何理解线程 定义:在一个程序里的一个执行路线就叫做线程(thread)。 更准确的定义是:线程是“一个进程内部的控制序列”。 每个进程都有自己的进程地址空间和task_struct结构体,如果我们通过一定的方式在创建进程…

【记录】ChatGPT|近期两次更新一览(更新至2023年1月12日)

如果你还没有使用过ChatGPT,可以先看看我的上一篇文章:【记录】ChatGPT|注册流程、使用技巧与应用推荐(更新至2022年12月14日)。   昨天晚上,ChatGPT突然很多人都无法登录,包括我。我当时以为…

SpringBoot+Redis+@Cacheable实现缓存功能

SpringBootRedisCacheable实现缓存功能一、pom文件加入Redis与cache的依赖和yml配置二、EnableCaching允许使用注解进行缓存三、Redis配置四、业务逻辑1.UserController2.UserService3.UserServiceImpl4.AdminServiceImpl5.Cacheable和CachePut区别五、测试1.执行saveUser方法2…

剑指offer----C语言版----第十七天----面试题23:链表中环的入口节点

目录 1. 链表中环的入口节点 1.1 环形链表Ⅰ 1.1.1 题目描述 1.1.2解题思路 1.1.3 扩展问题 1.2 环形链表Ⅱ 1.2.1 题目描述 1.2.2 思路分析 1. 链表中环的入口节点 在leetcode上的剑指offer专栏没有收录这道题目,但Leetcode上是有这道题目的,环…

U3D客户端框架之 音效管理器 与 Fmod介绍安装导入Unity

一、Fmod介绍与安装导入Unity 1.Fmod与Unity内置Audio播放器对比 Unity内置的Audio底层使用的是FMOD,但是功能不够齐全,高级一点的功能如混合(Mix)等无法使用; 音效管理应该和Unity工程解耦合,这样子可以减轻音效设计师的负担&a…

ArcGIS基础实验操作100例--实验86矢量面重叠分析

本实验专栏参考自汤国安教授《地理信息系统基础实验操作100例》一书 实验平台:ArcGIS 10.6 实验数据:请访问实验1(传送门) 空间分析篇--实验86 矢量面重叠分析 目录 一、实验背景 二、实验数据 三、实验步骤 (1&am…

初阶指针详解✍

目录1.内存和地址2.指针变量的大小3.指针类型的意义意义1:指针访问权限的大小意义2:指针类型决定指针的步长4.野指针野指针成因如何规避野指针5.指针的运算指针加减整数指针减指针指针的比较运算6.指针与数组的关系7.二级指针1.内存和地址 内存是电脑上特…

2、C语言程序规范

目录 1. 代码缩进 2. 变量、常量命名规范 3. 函数的命名规范 4. #include指令 5. 注释 6. main函数 7.函数返回值 8. 变量赋初值 俗话说&#xff0c;“没有规矩&#xff0c;不成方圆。” 如&#xff1a;第一个程序 #include <stdio.h>void main(){printf("…

基于java Springmvc+mybatis 电影院售票管理系统设计和实现以及文档

基于java Springmvcmybatis 电影院售票管理系统设计和实现以及文档 博主介绍&#xff1a;5年java开发经验&#xff0c;专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 超级帅帅吴 Java毕设项目精品实战案例《500套》 欢迎点赞 收藏 ⭐留…