机器学习笔记:随机森林

news2024/11/23 9:15:17

1 集成学习

  • 集成学习通过构建多个学习器采用加权的方式来完成学习任务
  • 一般来讲,多个学习器同属于一种模型,比如决策树,线性模型,而不会交叉用多种模型
  • 为了保证集成学习的有效性,多个弱分类器之间应该满足两个条件
    • 准确性:个体学习器要有一定的准确性,这样才能有好的效果
    • 多样性:学习器之间要有一些差异,完全相同的几个学习器集成起来后几乎不会有提升

2 随机森林

  • 随机森林是集成学习中Bagging方式的代表
    • 采样多组训练集,并行训练弱分类器
  • 相对于决策树而已,有一个很重要的优点:防止过拟合
    • 防止过拟合的方式与Dropout有点类似
      • 随机选择样本作为训练集(Bootstrap Sampling)
      • 训练集中特征随机选择

2.1 Bootstrap Sampling

  • Bootstrap Sampling 是一种统计学上的采样方法
    • 对于有m个样本的数据集D,进行m次有放回采样得到数据集D' 
    • 这样D与D'的大小一致。
    • 有放回采样使得中D'有的样本重复出现,有的样本则没有出现
  • 某个样本在m次采样中使用没有被采到的概率为(1-\frac{1}{m})^m
    • 当m趋近于∞时

    • ——>D中样本差不多63.2%在D'中
  • 用这种方式采样B个样本集\{D_1,D_2,\cdots,D_B\}
    • 对这B个样本集分别训练一个基学习器T_b(x)

2.2 决策

决策时,在分类任务中通常采用投票法,若两个类别票数一样,最简单的做法是随机选择一个;

回归任务则一般使用平均法

2.3 基学习器和随机森林

  • 早期的Bagging方法是每个基学习器都是一个决策树,完全按照决策树的规则建树
  • 随机森林则在Bagging的基础继续采用特征随机,每个基学习器只对在k个特征构成的子集下进行建树
    • 随机选择k个特征
    • 一般k=logd
    • ——>这样构建的决策树相对于完整的决策树是一个“浅决策树”,这样就构成了特征的随机性

3 随机森林的偏差和方差(bias,variance)

  • 因为基学习器相同,因此各个学习器有近似的Bais和Variance
  • bias

     

  • Variance
    • 如果各个基学习器独立
    • Bagging通过降低Variance来防止过拟合
    • 严格来说每个学习器之间不严格独立,所以Variance的降低会小于B倍

     

    参考内容:【机器学习】随机森林 (qq.com) 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/745799.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【IMX6ULL驱动开发学习】19.mmap内存映射

mmap将一个文件或者其它对象映射进内存,使得应用层可以直接读取到驱动层的数据,无需通过copy_to_user函数 可以用于像LCD这样的外设, 需要读写大量数据的 一、应用层 mmap用法: 用open系统调用打开文件, 并返回描述符fd.用mma…

Unity 获取Animation中的所有Clip

获取Animation中的所有Clip List<string> clips new List<string>();foreach (AnimationState item in animation){var clipName item.name;clips.Add(clipName);}

msvcp100.dll丢失怎样修复(一键修复方法)

msvcp100.dll是一个动态链接库文件&#xff0c;它是Microsoft Visual Studio 2010的一部分。这个文件主要包含了C的标准库函数&#xff0c;可以被应用程序调用以完成特定的功能。当系统中缺少或损坏了msvcp100.dll文件时&#xff0c;就会出现“msvcp100.dll丢失”的错误提示。 …

【C语言实战】小伙子,你真的掌握数组了吗?--- 三子棋

&#x1f466;个人主页&#xff1a;Weraphael ✍&#x1f3fb;作者简介&#xff1a;目前学习C和算法 ✈️专栏&#xff1a;课设 &#x1f40b; 希望大家多多支持&#xff0c;咱一起进步&#xff01;&#x1f601; 如果文章对你有帮助的话 欢迎 评论&#x1f4ac; 点赞&#x1f…

第一百零五天学习记录:数据结构与算法基础:顺序表(王卓教学视频)

注&#xff1a;笔记截图均来自王卓数据结构教学视频 线性表的定义和特点 线性表是具有相同特性的数据元素的一个有限序列 同一线性表中的元素必定具有相同特性&#xff0c;数据元素间的关系是线性关系。 线性表的逻辑特征 稀疏多项式的运算 顺序存储结构存在的问题 1、存…

eNSP-MSTP多实例生成树

MSTP多实例生成树 文章目录 MSTP多实例生成树一、拓扑结构二、基本配置三、测试验证四、知识点详解 一、拓扑结构 二、基本配置 SW1: #创建vlan <Huawei>sys [Huawei]sys sw1 [sw1]un in en [sw1]vlan batch 2 to 20 #将接口划入vlan [sw1]port-group group-member Gig…

linux常用的命令

一.操作目录命令 1.1 ls 命令 语法&#xff1a; ls [选项] [目录或文件] 功能: 对于目录&#xff0c;该命令列出该目录下的所有子目录与文件。对于文件&#xff0c;将列出文件名以及其他信息。 常用选项&#xff1a; a 列出目录下的所有文件&#xff0c;包括以 . 开头的隐含…

MQTT emqx.conf

MQTT download_spencer_tseng的博客-CSDN博客 MQTT emqx-5.1.1-windows-amd64_spencer_tseng的博客-CSDN博客 c:/emqx-5.1.1-el8-amd64/etc/emqx.conf

第 108 场LeetCode双周赛

A 最长交替子序列 暴力枚举 class Solution { public:int alternatingSubarray(vector<int> &nums) {int n nums.size();for (int len n; len > 1; len--) {for (int i 0; i len - 1 < n; i) {int j i 1;for (; j < i len; j)if (nums[j] - nums[j …

mysql一条更新语句是如何被执行的——带你了解mysql更新语句执行内部顺序

文章目录 写在前面一、缓冲池 Buffer Poll二、Redo log1、磁盘寻址的过程2、redo log特点 三、Undo log四、更新过程五、InnoDB总体架构1、内存结构&#xff08;1&#xff09;Buffer Pool&#xff08;2&#xff09;预读机制&#xff08;3&#xff09;LRU算法&#xff08;4&…

安装Ceph集群

安装Ceph集群 环境准备 CentOS 7.6 主机名IPRoleadmin192.168.182.128adminnode1192.168.182.129mon/mgr/osdnode2192.168.182.130osdnode3192.168.182.131osdclient192.168.182.132 所有节点修改主机名相互解析三台node节点添加大小5G以上硬盘关闭所有节点防火墙与SeLinux所…

机器学习 day25(softmax在神经网络模型上的应用,提高数据精度的方法)

输出层采用softmax 在识别手写数字的模型中&#xff0c;预测y只有两个结果&#xff0c;所以输出层采用sigmoid激活函数且只有一个神经元。若预测y有10个结果&#xff08;0-9&#xff09;&#xff0c;该模型的前向传播计算方式与识别数字的模型完全相同&#xff0c;即隐藏层的…

【力扣算法07】之 2.两数相加 python

文章目录 问题描述示例1示例2示例 3提示 思路分析代码分析完整代码详细分析 完结 问题描述 给你两个 非空 的链表&#xff0c;表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的&#xff0c;并且每个节点只能存储 一位 数字。 请你将两个数相加&#xff0c;并以相同…

RabbitMQ常用工作模式+整合springboot

目录 1.MQ的相关概念 1.1 什么是MQ消息中间件 1.2 为什么使用MQ (1) 应用解耦 (2) 异步提速 (3)削峰填谷 1.3 使用MQ的劣势 1.4 常见的MQ组件​​​​​​​ 2. RabbitMQ的概述 2.1 RabbitMQ的概念 2.2 RabbitMQ的原理 2.3 安装RabbitMQ 3. RabbitMQ 的工作模式…

Swift与OC的混编

一些场面话 在一位前辈的博客里看到了关于iOS开发的各种语言的混编&#xff0c;浅浅学习一下怎么使用。不得不说语言混编的开发者是真的&#x1f42e;&#x1f37a; Swift中用OC混编 新建一个Swift文件 创建一个OC的类 选择language为OC 继续往下走&#xff0c;会跳出这个界…

学无止境·MySQL⑤(存储函数、存储过程)

存储函数和存储过程试题 试题一1、创建一个可以统计表格内记录条数的存储函数 &#xff0c;函数名为count_sch()2、创建一个存储过程avg_sai&#xff0c;有3个参数&#xff0c;分别是deptno&#xff0c;job&#xff0c;接收平均工资&#xff0c;功能查询emp表dept为30&#xff…

C/C++用socket实现简单的TCP文件传输

C/C:用socket实现简单的TCP文件传输 网络中进程之间如何进行通信socket是什么socket的基本操作socket()函数bind()函数listen()、connect()函数accept()函数recv()/send()函数close()函数 TCP的“三次握手”“三次握手”的作用 TCP的“四次挥手”四次挥手的一些注意事项 代码实…

【附3.7安装包】python安装包下载及安装(超详细)

python3.7链接&#xff1a;https://pan.baidu.com/s/1Ett3XBMjWhkVOxkOU8NRqw?pwdqz3l 提取码&#xff1a;qz3l 今日资源&#xff1a;Python 适用系统&#xff1a;WINDOWS ​ Python 3.7.0 软件介绍&#xff1a; Python是一款通用型的计算机程序设计语言&#xff0c;Pytho…

【Leetcode】19. 删除链表的倒数第N个节点

给你一个链表&#xff0c;删除链表的倒数第 n 个结点&#xff0c;并且返回链表的头结点。 进阶&#xff1a;你能尝试使用一趟扫描实现吗&#xff1f; 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5], n 2 输出&#xff1a;[1,2,3,5] 示例 2&#xff1a; 输入&…

有没有线上兼职的副业,在家可以做什么赚钱

线上兼职副业啊&#xff0c;确实是一个不错的副业选择&#xff01;不过&#xff0c;我得提醒你&#xff0c;如果想要那种点一下鼠标就会下金币的神仙项目&#xff0c;这样的期待的话&#xff0c;那我只能告诉你&#xff0c;你可能走错地方了&#xff0c;在这帮不了你。 在线上赚…