Python机器学习:集成学习

news2025/2/25 21:17:26

前两天看了SVM、逻辑回归、KNN、决策树、贝叶斯分类这几个很成熟的机器学习方法,但是,今天不看方法了,来看一种思想:集成学习:

先来看一下集成学习的基本原理:通过融合多个模型,从不同的角度降低模型的方差或者偏差,典型的有三种:Bagging、Boosting、Stacking,集成学习分四天来学习,今天先看一一下:偏差、方差这两个概念:

对于一个回归问题,我们假设,样本(x,y)服从P(x,y),再假设(x,y_D)是集合D中的样本,D从P分布采样得到,因为采样过程会存在噪声\varepsilon =y-y_D,或者也可以叫他采样误差,早上一般服从高斯分布N(0,\sigma ^2):

\left\{\begin{matrix} E_D(y-y_D)=0 & \\ E_D(y-y_D)^2=\sigma^2& \end{matrix}\right.

这里我们假设我们需要优化得到的模型为f(X),f_d(x)是其在D上的优化结果,由于D是随机采样得到的任意一个分布,所以f_d(x)也是随机变量,我们定义f_d(x)是在D上的期望为:

E_D(f_D(x)),再定义bias(x)为期望值和真实值之间的平方差:

bias(x)=(E_D[f_D(x)-y])^2

定义采样分布D的偏差bias(x)为期望值和采样值之间的平方差:

bias_D(x)=E_D[(E_D(f_D(x)-y_D)^2]

又可以知道:

E_D[2(E_D[f_D(x)]-y)(y-y_D)]=0

所以,

bias_D(x)=E_D[(E_D[f_D(x)-y+y-y_D])^2]=bias(x)+\sigma^2

模型随机变量f_d(x)再D上的方差var(x)为:

var(x)=E_D[(f_D(x)-E_D[f_D(x)])^2]

实际优化的摸底是让模型随机变量f_d(x)在所有可能的样本集合分布D上的预测误差的平方误差的期望最小,也就是最小化:

E_D[(f_D(x)-y_D)^2]=var(x)+bias_D(x)=var(x)+bias(x)+\sigma^2

 \sigma^2是个常量,优化的最终目的是降低模型的方差和偏差,方差越小,说明不同的采样分布D下,模型的泛化能力大致相当,从侧面反映了模型没有发生过你和,偏差越小,说明模型对样本预测的越准,模型的拟合能力会越好。

实际在选择模型的时候,随着模型复杂度的增加,模型的偏差bias(x)越来越小,而方差var(x)越来越大,我们需要找的,就是某一个时刻,模型的方差和偏差值之和达到最小,此时,可以仍未说模型性能在误差及泛化能力方面达到最优。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/427582.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3.4 随机变量的相互独立性

学习目标: 要学习二维随机变量的相互独立性,我会按照以下步骤进行: 学习独立性的概念:在概率论中,两个事件A和B是相互独立的,当且仅当它们的概率乘积等于它们的联合概率,即P(A∩B)P(A)P(B)。将…

【Java EE】-网络编程(二) Socket(套接字) + Udp版本客户端服务器 +Tcp版本客户端服务器

作者:学Java的冬瓜 博客主页:☀冬瓜的主页🌙 专栏:【JavaEE】 主要内容:传输层协议对应Socket编程,DatagramSocket,DatagramPacket,Udp版本的客户端和服务器,UdpEchoSeve…

大力出奇迹——GPT系列论文学习(GPT,GPT2,GPT3,InstructGPT)

目录说在前面1.GPT1.1 引言1.2 训练范式1.2.1 无监督预训练1.2.2 有监督微调1.3 实验2. GPT22.1 引言2.2 模型结构2.3 训练范式2.4 实验3.GPT33.1引言3.2 模型结构3.3 训练范式3.4 实验3.4.1数据集3.5 局限性4. InstructGPT4.1 引言4.2 方法4.2.1 数据收集4.2.2 各部分模型4.3 …

【轻NAS】Windows搭建可道云私有云盘,并内网穿透公网访问

文章目录1.前言2. Kodcloud网站搭建2.1. Kodcloud下载和安装2.2 Kodcloud网页测试3. cpolar内网穿透的安装和注册4. 本地网页发布4.1 Cpolar云端设置4.2 Cpolar本地设置5. 公网访问测试6.结语1.前言 云存储作为近些年兴起的概念,成功吸引了各大互联网厂商下场&…

thingsboard ARM网关

G5501边缘计算网关 G5501是采用中高端的通用型 SOC,一款4 核 arm 架构 A55 处理器的 网关设备。标配处理器为 Cortex-A55 四核,最高主频 2GHz 的处理器, 内置 4GB DDR4 内存,32GB eMMC 存储。 集成Mali G52 2EE 图形处理器GPU&am…

matplotlib设置中文字体为微软雅黑

matplotlib无法设置任何中文字体怎么办? 如何在linux系统下让matplotlib显示中文? 下载微软雅黑字体,把它放在某个目录下。 链接: https://pan.baidu.com/s/1SCLYpH_MzY7vn0HA0wxxAw?pwdft2j 提取码:ft2j 在代码中加…

Learning C++ No.18【STL No.8】

引言: 北京时间:2023/3/18/21:47,周末,不摆烂,但是欠钱终于还是遭报应了,导致坐牢7小时(上午3.5,下午3.5),难受,充分意识到行哥是那么的和蔼可亲…

DLRover: 云上自动扩缩容 DeepRec 分布式训练作业

背景 如今,深度学习已广泛应用在搜索、广告、推荐等业务中,这类业务场景普遍有两个特点: 1)训练样本量大,需要分布式训练提升训练速度; 2)模型稀疏,即模型结构中离散特征计算逻辑占…

强训之【走方格的方案数和另类加法】

目录1.走方格的方案数1.1题目1.2思路讲解1.3代码展示2.另类加法2.1题目2.2思路讲解2.3代码展示3.选择题1.走方格的方案数 1.1题目 链接: link 描述 请计算n*m的棋盘格子(n为横向的格子数,m为竖向的格子数)从棋盘左上角出发沿着边缘线从左上…

第⑦讲:Ceph集群RGW对象存储核心概念及部署使用

文章目录1.RadosGW对象存储核心概念1.1.什么是RadosGW对象存储1.2.RGW对象存储架构1.3.RGW对象存储的特点1.4.对象存储中Bucket的特性1.4.不同接口类型的对象存储访问对比2.在集群中部署RadosGW对象存储组件2.1.部署RGW组件2.2.集群中部署完RGW组件后观察集群的信息状态2.3.修改…

【2023】Kubernetes之Pod与容器状态关系

目录简单创建一个podPod运行阶段:容器运行阶段简单创建一个pod apiVersion: v1 kind: pod metadata: name: nginx-pod spec:containers:- name: nginximages: nginx:1.20以上代码表示创建一个名为nginx-pod的pod资源对象。 Pod运行阶段: Pod创建后&am…

搜索引擎测试报告

文章目录一、项目背景二、项目功能三、测试目的四、测试环境五、测试计划1、功能测试2、自动化测试六、测试结果一、项目背景 java官方文档是我们在学习java语言中不可或缺的权威资料。相比于各种网站的Java资料,官方文档无论是语言表达还是组织方式都要更加全面和…

ThingsBoard开源物联网平台智慧农业实例快速部署教程(Ubuntu、CentOS适用)

ThingsBoard部署教程文档 文章目录ThingsBoard部署教程文档1. JDK环境安装2. 安装thingsBoard2.1 ThingsBoard软件包安装2.2 PostgreSQL安装2.3 PostgreSQL初始化配置3. 修改ThingsBord的配置4. 运行安装脚本测试5. 访问测试6. 导入一个仪表盘库6.1 导出仪表盘并导入自己的项目…

Spring —— Spring Boot 配置文件

JavaEE传送门JavaEE Spring —— Bean 作用域和生命周期 Spring —— Spring Boot 创建和使用 目录Spring Boot 配置文件Spring Boot 配置文件格式properties配置文件properties 基本语法properties 缺点yml 配置文件yml 基本语法yml 配置不同类型数据及 nullyml 配置对象yml…

【SQL Server】数据库开发指南(一)数据库设计

文章目录一、数据库设计的必要性二、什么是数据库设计三、数据库设计的重要性五、数据模型5.1 实体-关系(E-R)数据模型5.2 实体(Entity)5.3 属性(Attribute)5.5 关系(Relationship)六…

windows搭建ftp及原理(小白向)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录环境一、实验步骤1.1安装ftp二、ftp实验引发的思考1.简单阐述ftp的原理2.ftp建立的流程总结环境 windwos任意环境不需要server windows10 提示:以下是本…

〖Python网络爬虫实战⑤〗- Session和Cookie介绍

订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000python项目实战 Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费…

Linux的诞生过程

个人简介:云计算网络运维专业人员,了解运维知识,掌握TCP/IP协议,每天分享网络运维知识与技能。座右铭:海不辞水,故能成其大;山不辞石,故能成其高。个人主页:小李会科技的…

走近阿里Apsara Clouder云计算的蓝图

文章目录一:"什么是Apsara Clouder 云计算"二:"Apsara Clouder 云计算"厉害在哪里?三:"Apsara Clouder 云计算"认证一:“什么是Apsara Clouder 云计算” 💖💖 A…

【云原生Docker】09-Docker网络详解

【云原生|Docker】09-Docker网络详解 文章目录【云原生|Docker】09-Docker网络详解前言网络详解bridge网络基于bridge网络的容器访问外部网络外部网络访问基于bridge网络的容器host网络none网络container网络自定义网络自定义bridge网络容器的互通两个相同的bridge网络容器互通…