XGBoost

news2024/11/24 22:52:07

目录

1.XGBoost推导示意图

2.分裂节点算法

Weighted Quantile Sketch

 3.对缺失值得处理


1.XGBoost推导示意图

XGBoost有两个很不错得典型算法,分别是用来进行分裂节点选择和缺失值处理

2.分裂节点算法

Weighted Quantile Sketch

对于特征切点点得选择,xgboost不单单是采用简单得分位数得方法,而是对分位数进行加权(使用二阶梯度h),称为:weighted quantile sketch.

对特征k构造multi-set得数据集:D_k=(x_{1k},h_1),(x_{2k},h_2),...,(x_{nk},h_n),其中x_{ik}表示样本i得特征k得取值,而h_i则为对应得二阶梯度。

 式子中分子是x小于z得所有样本对应得h之和(即小于z得样本加权和,权重为h),分母为所有样本得加权和。该式子表达了第k个特征小于z得样本比例,和分位数相似,不过这里是按照二阶梯度进行累计。

而候选切分点S_k={s_{k1},s_{k2},...,s_{kl}}要求:

 即让相邻两个候选分裂点带入r_k(z)中,相差不超过某个值\varepsilon,由于,最终会切分处1/\varepsilon,如下面例子:

选取 \varepsilon=1/3,会得到三个桶,h总和1.8,因此s_{k1}=0.6,s_{k2}=1.2.

到这里,xgboost得分裂点选择就讲完了,然后再基于分裂前后得损失大小去判断选择最终得分裂点即可。但是还有个问题需要解答,为什么选择h而不是g或者其他?证明如下:

 3.对缺失值得处理

xgboost模型得一个优点就是允许特征存在缺失值。对缺失值得处理方式如下:

  • 在特征k上寻找最佳split point时,不会对该列特征missing得样本进行遍历,而只对该列特征值为non-missing得样本上对应得特征值进行遍历,通过这个技巧来减少了为稀疏离散特征寻找split point得时间开销
  • 在逻辑实现上,为了保证完备性,会将该特征值missing得样本分别分配到左叶子节点和有叶子节点,两种情况都计算一遍后,选择分裂后增益最大得那个方向(左分支或右分支),作为预测时特征值确实样本得默认分支方向。
  • 如果在训练中没有缺失值而在预测中出现缺失,那么会自动将缺失值得划分方向放到右子节点。

xgboost常见面试题:

珍藏版 | 20道XGBoost面试题_无名氏a的博客-CSDN博客_xgboost面试题

【xgboost】常见面试题_数分面试加油的博客-CSDN博客_xgboost 算法面试题目 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/333635.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

怎么不让消息弹出?录屏弹窗怎么关

当我们对电脑屏幕进行录制时,时不时跳出的消息窗口和广告会影响我们录制的效果。怎样不让消息弹出?如何关闭录屏弹窗?使用“锁定窗口录制”模式,就能很好地解决这个问题。那有没有拥有“锁定窗口”录制模式的录屏工具?…

synchronized 关键字-监视器锁 monitor lock

1.代码示例: package thread3;import java.util.Scanner;public class Test2 {public static Object object new Object();public static void main(String[] args) throws InterruptedException {Thread thread1 new Thread(() -> {Scanner scanner new Sca…

盂县基本情况

寒假的活动报告,万物皆可CSDN,贴一下吧 盂县隶属于阳泉市,阳泉市是李彦宏和刘慈欣的家乡,阳泉市内有百度云计算中心 基本情况 盂县,隶属山西省阳泉市,地处山西省东部、太行山西麓,东与河北省平…

测试开发面经

操作系统 进程与线程 进程间通信方式 进程间的六种通信方式 管道消息队列共享内存信号量信号套接字 socket长连接和短连接 长连接与短连接的概念:前者是整个通讯过程,客户端和服务端只用一个Socket对象,长期保持Socket的连接&#xff1b…

Windows/VM虚拟机安装黑群晖6.1-----保证有效而且简单操作

1视频:Windows/VM虚拟机安装黑群晖教程_哔哩哔哩_bilibili2:网址:Synology Web Assistant3:重新打开群晖操作步骤1:按着视频下载好资源后,按照视频操作,途中修改地方(两个情况选择其中一个&…

Docker系列(镜像原理)03

前言 镜像就是图中的集装箱,仓库就是超级码头,容器就是我们运行程序的地方。 从联合文件系统说起 Union文件系统(UnionFS )是一种分层、轻量级并且高性能的文件系统。它支持对文件系统的修改作为一次提交来一层层的叠加,同时可以将不同目录…

【游戏逆向】】游戏全屏捡物的分析实现

前言 在角色对战类中,拾取怪物掉落的装备是一项必备的工作,由于装备位置掉落的不确定性,玩家想要拾取离角色距离较远的装备需要一定的时间,这一段时间往往会影响游戏的评分或是玩家的心态,基于此,全屏捡物…

【Unity VR开发】结合VRTK4.0:键盘操作运动与旋转

前言: 当我们的手柄无发进行VR测试,或者想通过键盘进行验证,那么就用到了我们今天的一个功能:组合操作。组合操作允许更复杂的输入类型,我们将介绍如何使用布尔输入(如键盘键)来模拟模拟轴&…

Java中LinkedList增删改比ArrayList快吗?

在 Java 中,LinkedList 和 ArrayList 的性能是不同的,具体取决于你所需要的操作。 对于频繁的插入和删除操作,LinkedList 的性能通常更好,因为它使用了链表数据结构,只需更改节点的指针就可以在链表中插入或删除元素。…

剑指Offer 第26天 表示数值的字符串 Hard

表示数值的字符串_牛客题霸_牛客网 描述 请实现一个函数用来判断字符串str是否表示数值(包括科学计数法的数字,小数和整数)。 科学计数法的数字(按顺序)可以分成以下几个部分: 1.若干空格 2.一个整数或者小数 3.(可选&…

计算机组成原理第七章笔记记录

仅仅作为笔记记录,B站视频链接,若有错误请指出,谢谢 基本概念 演变过程 I/O系统基本组成 I/O软件 包括驱动程序、用户程序、管理程序、升级补丁等 下面的两种方式是用来实现CPU和I/O设备的信息交换的 I/O指令 CPU指令的一部分,由操作码,命令码,设备…

前端 基于 vue-simple-uploader 实现大文件断点续传和分片上传

文章目录一、前言二、后端部分新建Maven 项目后端pom.xml配置文件 application.ymlHttpStatus.javaAjaxResult.javaCommonConstant.javaWebConfig.javaCheckChunkVO.javaBackChunk.javaBackFileList.javaBackChunkMapper.javaBackFileListMapper.javaBackFileListMapper.xmlBac…

2023年rabbitMq面试题汇总4(7道)

一、如何保证消息的顺序性?1. 通过某种算法,将需要保持先后顺序的消息放到同⼀个消息队列中(kafka中就是partition,rabbitMq中就是queue)。然后只⽤⼀个消费者去消费该队列。2. 可以在消息体内添加全局有序标识来实现。二、使⽤RabbitMQ增加rest服务吞吐…

JVM调优几款好用的内存分析工具

对于高并发访问量的电商、物联网、金融、社交等系统来说,JVM内存优化是非常有必要的,可以提高系统的吞吐量和性能。通常调优的首选方式是减少FGC次数或者FGC时间,以避免系统过多地暂停。FGC达到理想值后,比如一天或者两天触发一次…

【Android -- 每日一问】现在 Android 怎么学?学什么?

不管在任何行业,任何岗位,初级技术人才总是供大于求;不管任何行业、岗位,技术过硬的也都是非常吃香的! 这几年 Android 新技术的迭代明显加速了,有来自外部跨平台新物种的冲击,有去 Java 化的商…

Dropout的原理与细节?

1. 什么是Dropout? Dropout是通过使得每个神经元以一定的概率停止工作来接缓解过拟合问题。dropout(随机失活):dropout是通过遍历神经网络每一层的节点,然后通过对该层的神经网络设置一个keep_prob(节点保留概率),即该层的节点有keep_prob的概率被保留,keep_prob的取值范围…

YOLO-V1~V3经典物体检测算法介绍

大名鼎鼎的YOLO物体检测算法如今已经出现了V8版本,我们先来了解一下它前几代版本都做了什么吧。本篇文章介绍v1-v3,后续会继续更新。一、节深度学习经典检测方法概述1.1 检测任务中阶段的意义我们所学的深度学习经典检测方法 ,有些是单阶段的…

windows无法访问指定设备路径或文件怎么办?2个解决方案

有时候Win10电脑打不开程序或文件,windows无法访问指定设备路径或文件该怎么办?原因是什么呢?一般导致这种情况的出现,大多是因为我们的电脑缺乏相应的查看权限,我们只需要通过赋予权限就可以解决这个难题了。 操作环境…

负载均衡下的webshell上传

负载均衡下的webshell上传1.应用场景2.面临的困难2.1 shell文件上传问题2.2 命令执行时的漂移2.3 大工具投放失败2.4 内网穿透工具失效3.一些解决方案3.1 关机3.2 基于IP判断执行主机3.3 脚本实现web层的流量转发3.3.1 创建antproxy.jsp脚本3.3.2 修改 Shell 配置4.总结1.应用场…

零基础学SQL(十、子查询与多表关联)

目录 前置建表 ​编辑 编辑 一、子查询 1、什么是子查询 2、子查询的类型 二、表关联查询 1、连接分类 1.1、交叉连接 (CROSS JOIN) 1.2、内连接(inner join) 1.3、外连接(left join ,right join,full joi…