集成学习 | 集成学习思想:Bagging思想

news2024/11/16 20:26:52

目录

  • 一. Bagging思想
    • 1. Bagging 算法
    • 2. 随机森林(Random Forest)算法

在正文开始之前,我们先来聊一聊什么是集成学习?
集成学习是一种算法思想:将若干个弱学习器分组之后,产生一个新的学习器

	弱学习器指预测误差在50%以下的学习器,其中弱学习器可以是分类器、回归器
		弱分类器:其分类准确率仅比随机猜测的分类器好一点,因为随机猜测的准确率通常是50%(在二分类问题中)

集成学习的成功在于保证弱分类器的多样性
下面我们来介绍集成学习的三种重要思想:

  • Bagging
  • Boosting
  • Stacking

一. Bagging思想

1. Bagging 算法

Bagging算法又称自举汇聚法

	思想:
		在原始数据集上通过有放回抽样(bootstrap)的方式,重新选择出S个新数据集
		通过训练S个新数据集得到S个分类器/回归器的集成技术
	
	处理操作:
		Bagging算法训练出来的模型:
			在分类问题中,会使用多数投票统计结果
			在回归问题中,会使用求均值统计结果
	
	bagging算法的弱学习器:
		基本的算法模型,如: Linear、Ridge、Lasso、Logistic、Softmax、ID3、C4.5、CART、SVM、KNN均可

注意:

  1. bagging算法抽取出来的S个数据集是不同的,数据集内有重复样本,且重复样本各不相同;即构造了多个学习器&数据的多样性
  2. bagging算法只有数据不同弱学习器相同
  3. bagging算法在抽样时,每个子集的样本数量必须和原始样本数量一致,因此抽取的子集中存在重复数据
  4. bagging算法在模型训练时,允许存在重复数据

在这里插入图片描述

	结合策略一般为:多数投票(分类)/求均值(回归)

2. 随机森林(Random Forest)算法

随机森林算法在Bagging算法的基础上进行修改后的一种算法

	思想:
		1. 在原始样本集(n个样本)上通过有放回抽样(bootstrap)的方式,选出n个样本,共m个数据集
		2. 将抽取出来的子数据集(存在重复数据)进行决策树训练:
				从抽样采集到的所有属性中,随机选择K个属性
				从K个属性中选择出最佳分割属性作为当前节点的划分属性
		按照这种方式来迭代的创建m棵决策树
		3. 这m个决策树形成随机森林,通过投票表决结果决定数据属于那一类
	
	处理操作:
		Random Forest算法在得到m个决策树形成随机森林后,通过投票表决结果/求均值决定最终数据
	
	Random Forest算法的弱学习器:
		一定是决策树

注意:

  1. Random Forest算法抽取出来的m个数据集是不同的,每个数据集中的随机k个属性是不同的,这就导致构建的决策树也不相同;即构造了多个不同的学习器&数据的多样性
  2. Random Forest算法数据不同弱学习器构造不同
  3. Random Forest算法在抽样时,每个子集的样本数量必须和原始样本数量一致,因此抽取的子集中存在重复数据
  4. Random Forest算法在模型训练时,允许存在重复数据
    在这里插入图片描述

感谢阅读🌼
如果喜欢这篇文章,记得点赞👍和转发🔄哦!
有任何想法或问题,欢迎留言交流💬,我们下次见!
本文相关代码存放位置
    【Bagging思想 代码实现

祝愉快🌟!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1526209.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux网络编程七】网络序列化和反序列化(网络版本计算器)

【Linux网络编程七】网络序列化和反序列化(网络版本计算器) 一.网络读取问题【解决方案】1.定制协议2.序列化和反序列化3.添加报头①封包②解包 4.框架总结 二.自定义协议:网络计算器协议Ⅰ.客户端发送请求,服务器端接收请求1.构建请求(结构化…

VS Code安装Live Server插件搭建web网页结合内网穿透实现公网访问

文章目录 前言1. 编写MENJA小游戏2. 安装cpolar内网穿透3. 配置MENJA小游戏公网访问地址4. 实现公网访问MENJA小游戏5. 固定MENJA小游戏公网地址 正文开始前给大家推荐个网站,前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默&…

SAP Business Application Studio(BAS) 中Git的使用

1. 概要 本文将介绍如何在SAP BAS中使用Git。 2. BAS中Git功能的集成方式 2.1 简化版Git视图(Simplified Git View) 通过简化版Git视图,开发人员可以执行最常用的一些Git操作,例如: 初始化或克隆一个仓库reposito…

【matlab】如何将.mat文件与.nii文件互转

【matlab】如何将.mat文件与.nii文件互转 .mat转为.nii文件 有时候代码需要读取的是.nii文件,但是如何现有的数据是.mat格式,需要将.mata转化为.nii文件 1、先加载.mat文件 % 加载.mat文件 load(your_mat_file.mat); % 请将your_mat_file.mat替换为实…

曹洞佛学院2024年 “中国传统文化(书法)研究班”招生简章

曹洞佛学院 中国传统文化 (书法) 研究班 一、曹洞佛学院简介 2016年10月,曹洞佛学院经国家宗教事务局批准正式成立。曹洞佛学院是全国唯一一所以宗派命名的佛学院,学院坐落于江西省抚州市宜黄县曹洞宗祖庭——曹山宝积寺。   …

Dagger2相关知识

目录 一、Dagger简介1.1 什么是Dagger?1.2 Dagger用来干什么?1.3 使用Dagger2注入对象1.4 Dagger注解 二、Dagger2使用2.1 非单例2.2 局部单例2.3 全局单例 三、参考链接 一、Dagger简介 1.1 什么是Dagger? Dagger 2 是一个由 Google 开发的依赖注入框架&#x…

【论文阅读】MSGNet:学习多变量时间序列预测中的多尺度间序列相关性

MSGNet:学习多变量时间序列预测中的多尺度间序列相关性 文献介绍摘要总体介绍背景及当前面临的问题现有解决方案及其局限性本文的解决方案及其贡献 背景知识的相关工作背景知识问题表述: Method论文主要工作1.输入嵌入和剩余连接 (Input Embedding and R…

git:码云gitee仓库提交以及React项目创建

git:码云gitee仓库提交以及React项目创建 1 前言 先注册准备好码云gitee的账户,并在gitee上新建react仓库并提交代码至远程仓库。 2 操作方式 准备新建React项目并提交到码云gitee上。 (1)进入官网:https://gitee…

Java面试相关问题

一.MySql篇 1优化相关问题 1.1.MySql中如何定位慢查询? 慢查询的概念:在MySQL中,慢查询是指执行时间超过一定阈值的SQL语句。这个阈值是由long_query_time参数设定的,它的默认值是10秒1。也就是说,如果一条SQL语句的执…

【Leetcode-19.删除链表的第N个节点】

题目详情: 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点。 示例 1: 输入:head [1,2,3,4,5], n 2 输出:[1,2,3,5]示例 2: 输入:head [1], n 1 输出&#xff1…

什么是Vector Database?

此为看完视频What is a Vector Database?后的笔记。 作者首先对数据库做了分类,其中RTweb表示real time web app。 然后对用例做了分类,最后一个就是适合于AI的近似搜索。 好处,包括灵活性,可扩展性和性价比。 本视频最重要的…

【bioinformation 10】ADMET-CYPs抑制剂预测实战

🌞欢迎来到AI医学的世界 🌈博客主页:卿云阁 💌欢迎关注🎉点赞👍收藏⭐️留言📝 🌟本文由卿云阁原创! 📆首发时间:🌹2024年3月17日&am…

/usr/local/bin/docker-compose: line 1: Not: command not found

安装docker-compose 检查是否安装成功 docker-compose --version 出错 /usr/local/bin/docker-compose: line 1: Not: command not found 检查下载连接是否正确 官网 https://dockerdocs.cn/compose/install/ 根据官网上连接下载 发现下载不了 在版本前加个V 就可以解决 版…

4.1_4 文件的物理结构

文章目录 4.1_4 文件的物理结构(一)文件块、磁盘块(二)文件分配方式——连续分配(三)文件分配方式——链接分配(1)链接分配——隐式链接(2)链接分配——显式链…

JETSON 配置并跑通 NanoDet

JETSON 配置 NanoDet 文章目录 JETSON 配置 NanoDetNanoDet 介绍源码环境搭建及测试配置 NanoDet 的环境环境配置过程中遇到的问题:环境配置完毕验证 NanoDet NanoDet 介绍 可以参考这个博客:NanoDet:这是个小于4M超轻量目标检测模型 源码 …

什么是网站?为什么要搭建网站?

网站:简单来说,网站就是通过互联网来展示信息的页面集合。它可以在电脑或者手机上打开,提供各种功能,比如查看新闻、购买商品、搜索信息等。 一、建网站的目的:展示个人或企业的存在 网站建设的首要目的之一是展示个人…

23-分支和循环语句_习题练习

1、转换以下ASClI码为对应字符并输出他们:73,32,99, 97,110,32,100,111,32,105,116,33 输入:无 输出:一行输出转换题目中给出的所有ASClI码对应的字符,无需以空格隔开。 输入: int main() {int i 0;int arr[] { …

加拿大光量子计算公司Xanadu入局英国多企业量子合作计划

内容来源:量子前哨(ID:Qforepost) 编辑丨慕一 编译/排版丨沛贤 深度好文:1200字丨8分钟阅读 英国航空发动机制造商罗尔斯罗伊斯(Rolls-Royce)、英国量子计算公司Riverlane和加拿大量子计算公…

【Nutx3】middleware目录介绍

简言 记录下nuxt3middleware目录的使用方法。 middleware middleware是存放路由中间件的文件目录。 路由中间件有三种: 匿名(或内联)路由中间件直接在页面中定义。已命名的路由中间件,放在 middleware/ 中,页面使用…

leetcode代码记录(移除元素

目录 1. 题目:2. 我的代码:小结: 1. 题目: 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。 不要使用额外的数组空间,你必须仅使用 O(1)…