《XGBoost算法的原理推导》12-2 t轮迭代中对样本i的预测值 公式解析

news2024/11/7 2:11:39

本文是将文章《XGBoost算法的原理推导》中的公式单独拿出来做一个详细的解析,便于初学者更好的理解。


好的,公式(12-2)表示的是 XGBoost 在第 t t t 轮迭代中对样本 i i i 的预测值。它说明了在第 t t t 轮迭代中,模型的预测是通过累加之前所有树的输出值,再加上当前新树的输出得到的。这是 XGBoost 的梯度提升过程的核心之一。让我们一步步解析这个公式的含义和其背后的思想。

公式的结构

y ^ i ( t ) = ∑ k = 1 t − 1 f k ( x i ) + f t ( x i ) (12-2) \hat{y}_i^{(t)} = \sum_{k=1}^{t-1} f_k(x_i) + f_t(x_i) \tag{12-2} y^i(t)=k=1t1fk(xi)+ft(xi)(12-2)

公式中的符号和含义

  1. y ^ i ( t ) \hat{y}_i^{(t)} y^i(t)

    • 表示第 t t t 轮迭代时,模型对第 i i i 个样本的预测值。
    • 这是当前模型对样本 i i i 的最新预测,经过前 t t t 轮迭代的累加优化。
  2. ∑ k = 1 t − 1 f k ( x i ) \sum_{k=1}^{t-1} f_k(x_i) k=1t1fk(xi)

    • 这是前 t − 1 t-1 t1 轮的累加预测结果。
    • 每一轮 k k k 中生成的树 f k f_k fk 都是一个弱学习器,专注于减少前几轮的预测误差。前 t − 1 t-1 t1 轮中所有树的预测值的累加,就代表了在第 t − 1 t-1 t1 轮迭代完成后,模型对样本 i i i 的总预测值。
    • 可以把 ∑ k = 1 t − 1 f k ( x i ) \sum_{k=1}^{t-1} f_k(x_i) k=1t1fk(xi) 看作是第 t − 1 t-1 t1 轮的预测结果,即 y ^ i ( t − 1 ) \hat{y}_i^{(t-1)} y^i(t1)
  3. f t ( x i ) f_t(x_i) ft(xi)

    • 表示第 t t t 轮新生成的树对样本 i i i 的预测值。
    • 这一轮生成的新树 f t f_t ft 是基于前 t − 1 t-1 t1 轮的残差(预测误差)训练得到的,旨在修正当前模型的预测误差,使得预测结果更接近真实目标值。

公式的意义

  • 公式 y ^ i ( t ) = ∑ k = 1 t − 1 f k ( x i ) + f t ( x i ) \hat{y}_i^{(t)} = \sum_{k=1}^{t-1} f_k(x_i) + f_t(x_i) y^i(t)=k=1t1fk(xi)+ft(xi) 体现了梯度提升的思想,即通过逐步迭代来优化模型的预测能力。
  • 在每一轮迭代中,XGBoost 会添加一棵新的树 f t f_t ft,这棵树的目标是尽量拟合前一轮的残差。换句话说,新的树 f t f_t ft 是根据前一轮的误差训练的,目的是修正当前模型对样本 i i i 的预测,使得模型逐渐逼近真实目标值 y i y_i yi
  • 随着迭代轮数 t t t 的增加,累加的预测值会越来越接近真实的 y i y_i yi,从而提高模型的整体预测精度。

等价于递推公式

这个公式实际上与递推公式是等价的。我们可以这样写递推公式:

y ^ i ( t ) = y ^ i ( t − 1 ) + f t ( x i ) \hat{y}_i^{(t)} = \hat{y}_i^{(t-1)} + f_t(x_i) y^i(t)=y^i(t1)+ft(xi)

在这里:

  • y ^ i ( t − 1 ) = ∑ k = 1 t − 1 f k ( x i ) \hat{y}_i^{(t-1)} = \sum_{k=1}^{t-1} f_k(x_i) y^i(t1)=k=1t1fk(xi),表示前 t − 1 t-1 t1 轮的累加预测结果。
  • 因此, y ^ i ( t ) = ∑ k = 1 t − 1 f k ( x i ) + f t ( x i ) \hat{y}_i^{(t)} = \sum_{k=1}^{t-1} f_k(x_i) + f_t(x_i) y^i(t)=k=1t1fk(xi)+ft(xi) 是一种更展开的写法。

为什么这样逐步累加是有效的

  1. 残差修正

    • 在每一轮中,XGBoost 都会根据之前的残差训练一棵新的树 f t f_t ft,这棵树的输出会帮助减少当前的误差,使得模型的预测越来越接近真实值。
  2. 逐步逼近

    • 每次添加的新树只需处理当前的剩余误差,不需要完全重新拟合整个模型。这种逐步修正的方式使得模型能够更精确地捕捉数据的细节,而不会因为一次性拟合复杂模式而导致过拟合。
  3. 控制复杂度

    • 这种累加结构也方便了对模型复杂度的控制。因为每次只增加一个新树,XGBoost 可以通过设置最大树数、树的深度等超参数来控制模型的复杂度,从而防止过拟合。

总结

公式(12-2)表示了 XGBoost 在第 t t t 轮迭代中的预测更新。它说明了模型的预测值是所有之前轮次的树的预测结果之和,加上当前轮次新树的输出。这种逐步累加的方式使得 XGBoost 能够有效地修正误差,逐步逼近真实目标值,从而提升模型的预测精度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2234675.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DevOps开发运维简述

DevOps平台是一套集成的解决方案,旨在协调软件开发(Development)和信息技术运维(Operations)。它促进跨功能团队合作,实现自动化流程,确保持续集成与持续交付(CI/CD)。 一…

基于java+SpringBoot+Vue的微服务在线教育系统设计与实现

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: Springboot mybatis Maven mysql5.7或8.0等等组成&#x…

粒子群优化双向深度学习!PSO-BiTCN-BiGRU-Attention多输入单输出回归预测

粒子群优化双向深度学习!PSO-BiTCN-BiGRU-Attention多输入单输出回归预测 目录 粒子群优化双向深度学习!PSO-BiTCN-BiGRU-Attention多输入单输出回归预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现PSO-BiTCN-BiGRU-Attention粒子…

终端文件管理神器 !!!

项目简介 nnn是一款专为命令行爱好者打造的高效终端文件管理器。它以其超小的体积、几乎零配置的要求以及卓越的速度表现而著称。nnn不仅适用于Linux、macOS、BSD等操作系统,还能够在诸如树莓派、Android上的Termux、WSL、Cygwin等多个平台运行。它遵循POSIX标准&am…

Uniapp 实现app自动检测更新/自动更新功能

实现步骤 配置 manifest.json 在 manifest.json 中设置应用的基本信息,包括 versionName 和 versionCode。 一般默认0.0.1,1. 服务器端接口开发 提供一个 API 接口,返回应用的最新版本信息,版本号、下载链接。客户端检测更新 使…

基础算法——排序算法(冒泡排序,选择排序,堆排序,插入排序,希尔排序,归并排序,快速排序,计数排序,桶排序,基数排序,Java排序)

1.概述 比较排序算法 算法最好最坏平均空间稳定思想注意事项冒泡O(n)O( n 2 n^2 n2)O( n 2 n^2 n2)O(1)Y比较最好情况需要额外判断选择O( n 2 n^2 n2)O( n 2 n^2 n2)O( n 2 n^2 n2)O(1)N比较交换次数一般少于冒泡堆O( n l o g n nlogn nlogn)O( n l o g n nlogn nlogn)O( n l…

多元数据库时代,云和恩墨携手鲲鹏引领数据库一体机新变革

近年来,随着企业数据存储结构日益多元化,传统架构数据库面临发展瓶颈,越来越多企业倾向于采用不同类型的数据库满足多样化的数据需求。这一趋势下,国内数据库市场呈现百花齐放的态势,产业加速迈入多元数据库时代。 作为…

[SWPUCTF 2022 新生赛]Cycle Again -拒绝脚本小子,成为工具糕手

1.题目 打开,一张图片,一个压缩包 2.分析 图片丢进随波逐流中 发现第一部分的flag NSSCTF{41d769db- 丢进b神的工具中 爆出第二段flag 9f5d-455e-a458-8012ba3660f3} 两段进行拼接 NSSCTF{41d769db-9f5d-455e-a458-8012ba3660f3} 直接拿下 遥遥领…

机场电子采购信息系统

摘 要 互联网的发展,改变了人类原来繁琐的生活和消费习惯,人们的时间观念也在不断加强,所以各种信息系统的数量越来越多,方便了用户,用户习惯也发生了改变。对于传统的企业采购模式来说由于费用高、速度慢、不透明化…

RabbitMQ设置消息过期时间

RabbitMQ设置消息过期时间 1、过期消息(死信)2、设置消息过期的两种方式2.1、设置单条消息的过期时间2.1.1、配置文件application.yml2.1.2、配置类RabbitConfig2.1.3、发送消息业务类service(核心代码)2.1.4、启动类2.1.5、依赖文…

android数组控件Textview

说明:android循环控件,注册和显示内容 效果图: step1: E:\projectgood\resget\demozz\IosDialogDemo-main\app\src\main\java\com\example\iosdialogdemo\TimerActivity.java package com.example.iosdialogdemo;import android.os.Bundl…

【AI日记】24.11.01 LangChain、openai api和github copilot

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】 工作 工作1 内容:学习deeplearning.ai的免费课程地址:LangChain Chat with Your DataB站地址:https://www.bilibili.com/video/BV148411D7d2github代码:https:…

指标+AI+BI:构建数据分析新范式丨2024袋鼠云秋季发布会回顾

10月30日,袋鼠云成功举办了以“AI驱动,数智未来”为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。 作为大会的重要环节之一,袋鼠云数栈产品经理潮汐带来了…

goframe开发一个企业网站 前端界面 拆分界面7

将页面拆出几个公用部分 在resource/template/front创建meta.html header.html footer.html meta.html <head><meta charset"utf-8"><meta content"widthdevice-width, initial-scale1.0" name"viewport"><title>{{.…

SpringBoot3集成Junit5

目录 1. 确保项目中包含相关依赖2. 配置JUnit 53. 编写测试类4、Junit5 新增特性4.1 注解4.2 断言4.3 嵌套测试4.4 总结 在Spring Boot 3中集成JUnit 5的步骤相对简单。以下是你可以按照的步骤&#xff1a; 1. 确保项目中包含相关依赖 首先&#xff0c;确保你的pom.xml文件中…

[数据结构从小白到大牛]第五篇:3分钟带你吃透双链表并用C语言模拟实现

目录 1->前言 2->链表的概念和结构 2.1链表概念 2.2->带头双向循环链表结构 3->模拟实现带头双向循环链表 3.1定义链表结点 struct ListNode 3.2创建链表结点 CreateLTNode 函数 3.3链表初始化函数 ListInit函数 3.4链表打印函数 ListPrint函数 3.5链表…

前端通过nginx部署一个本地服务的方法

前端通过nginx部署一个本地服务的方法&#xff1a; 1.下载ngnix nginx 下载完成后解压缩后运行nginx.exe文件 2.打包你的前端项目文件 yarn build 把生成的dist文件复制出来&#xff0c;替换到nginx的html文件下 3.配置conf目录的nginx.conf文件 主要配置server监听 ser…

不同的浮点数类型

不同的浮点数类型 尽管4字节的浮点数可表达相当大的数值&#xff0c;但对于人类而言&#xff0c;总不够用。一般而言&#xff0c;浮点数有3种类型&#xff0c;单精度的float和双精度的double以及更长的long double, 可参考&#xff1a;数据类型大小 不同语言的浮点数类型 C/Obj…

蓝桥杯第21场小白入门赛补题

5.蓝桥派对 思路 &#xff1a;一个区间与多少个其他区间有关联&#xff0c;先对所有区间左端点和右端点从小到大排序&#xff0c;对于每个询问&#xff0c;我们先算出[1,r]这个区间里有多少个区间的起点即区间总数&#xff0c;使用upper_bound函数&#xff0c;然后使用lower_bo…

推荐一款功能强大的数据库开发管理工具:SQLite Expert Pro

SQLite Expert Professional是一个功能强大的工具&#xff0c;旨在简化SQLite3数据库的开发。 它是SQLite的一个功能丰富的管理和开发工具&#xff0c;旨在满足所有用户从编写简单SQL查询到开发复杂数据库的需求。 图形界面支持所有SQLite功能。 它包括一个可视化查询构建器&a…