集成学习(三)GBDT 梯度提升树

news2024/11/15 10:58:27

前面学习了:集成学习(二)Boosting-CSDN博客

梯度提升树:GBDT-Gradient Boosting Decision Tree

一、介绍

作为当代众多经典算法的基础,GBDT的求解过程可谓十分精妙,它不仅开创性地舍弃了使用原始标签进行训练的方式,同时还极大地简化了Boosting算法的运算流程,让Boosting算法本该非常复杂的运算流程变得清晰简洁。GBDT的数学流程非常简明、美丽,同时这一美丽的流程也是我们未来所有Boosting高级算法的数学基础。与任意Boosting算法一致,对GBDT我们需要回答如下问题:

  • 损失函数L(x,y) 的表达式是什么?损失函数如何影响模型构建?
  • 弱评估器 f(x) 是什么,当下boosting算法使用的具体建树过程是什么?
  • 综合集成结果 H(x) 是什么?集成算法具体如何输出集成结果?

同时,还可能存在其他需要明确的问题,例如:

  • 是加权求和吗?如果是,加权求和中的权重如何求解?
  • 训练过程中,拟合的数据Xy分别是什么?

回顾Boosting算法的基本指导思想,我们来梳理梯度提升树回归算法的基本流程。虽然Boosting理论很早就被人提出,但1999年才是GBDT算法发展的高潮。1999年,有四篇论文横空出世:

《贪心函数估计:一种梯度提升机器》
Friedman, J. H. (February 1999). "Greedy Function Approximation: A Gradient Boosting Machine"

《随机梯度提升》
Friedman, J. H. (March 1999). "Stochastic Gradient Boosting"

《梯度下降式提升算法》
Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus (1999). "Boosting Algorithms as Gradient Descent"

《函数空间中的梯度下降式提升算法》
Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus (May 1999). "Boosting Algorithms as Gradient Descent in Function Space"

GBDT算法是融合了上述4篇论文思想的集大成之作,为了保持一致,使用与前文不同的数学符号。

二、数学过程

假设现有数据集 ,含有形如\left ( x_{i}, y_{i} \right )的样本M个,i为任意样本的编号,单一样本的损失函数为l\left ( y_{i}, H\left ( x_{i} \right ) \right ),其中 H\left ( x_{i} \right )i号样本在集成算法上的预测结果,整个算法的损失函数为 L\left ( y, H( x ) \right ),且总损失等于全部样本的损失之和:L(y,H(x))=\sum_{i}^{}l\left ( y_{i}, H\left ( x_{i} \right ) \right )。同时,弱评估器为回归树 ,总共学习T轮。则GBDT回归的基本流程如下所示:

1、初始化数据迭代的起点H_{0}(x)。sklearn当中,我们可以使用0、随机数或者任意算法的输出结果作为H_{0}(x) ,但在最初的论文中,Friedman定义了如下公式来计算 H_{0}(x) :

其中 y_{i} 为真实标签, C 为任意常数。以上式子表示,找出令\sum_{i}^{M}l\left ( y_{i}, C \right ) 最小的常数 C 值,并输出最小的 \sum_{i}^{M}l\left ( y_{i}, C \right )作为H_{0}(x)的值。需要注意的是,由于H_{0}(x)是由全部样本的l计算出来的,因此所有样本的初始值都是H_{0}(x),不存在针对某一样本的单一初始值。

开始循环,for t in 1,2,3...T:

2、在现有数据集 N 中,抽样 M∗subsample 个样本,构成训练集N_{t}
3、对任意一个样本i ,计算伪残差(pseudo-residuals)r_{it},具体公式为:

不难发现,伪残差是一个样本的损失函数对该样本在集成算法上的预测值求导后取负的结果,并且在进行第t次迭代、计算第t个伪残差时,我们使用的前t-1次迭代后输出的集成算法结果。在t=1时,所有伪残差计算中的H_{t-1}(x_{i}) 都等于初始H_{0}(x),在t> 0时,每个样本上的 H_{t-1}(x_{i})都是不同的取值。

4、求解出伪残差后,在数据集 \left ( x_{i},r_{it} \right )上按照CART树规则建立一棵回归树f_{t},训练时拟合的标签为样本的伪残差r_{it} 。

5、将数据集N_{t}上所有的样本输入f_{t}进行预测,对每一个样本,得出预测结果f_{t}\left ( x_{i} \right )。在数学上我们可以证明,只要拟合对象是伪残差 r_{it},则f_{t}\left ( x_{i} \right )的值一定能让损失函数最快减小。

6、根据预测结果f_{t}\left ( x_{i} \right )迭代模型,具体来说:

假设输入的步长为\eta,则H_{t}(x)应该为:

对整个算法则有:

7、循环结束,输出 H_{T}(x) 的值作为集成模型的输出值。

三、初始化 H_{0}过程中的常数C是什么?

在最初的论文中,Friedman定义了如下公式来计算H_{0} :

其中 y_{i} 为真实标签, C 为任意常数。以上式子表示,找出令\sum_{i}^{M}l\left ( y_{i}, C \right ) 最小的常数 C 值,并输出最小的 \sum_{i}^{M}l\left ( y_{i}, C \right )作为H_{0}(x)的值。在刚观察这个式子时,大家可能很难理解 C 这个常数的作用,但这个式子实际上很简单。

首先,l是损失函数,损失函数衡量两个自变量之间的差异,因此l\left ( y_{i}, C \right )衡量样本i的真实标签y_{i} 与常数C之间的差异,因此l\left ( y_{i}, C \right )是所有样本的真实标签与常数C之间的差异之和。现在我们要找到一个常数C,令所有样本的真实标签与常数C的差异之和最小,请问常数C是多少呢?这是一个典型的求极值问题,只需要对\sum_{i}^{M}l\left ( y_{i}, C \right ) 求导,再令导数为0就可以解出令\sum_{i}^{M}l\left ( y_{i}, C \right )最佳的C。假设 l 是squared_error,每个样本的平方误差,则有:

对上述式子求导,并令一阶导数等于0:

所以:

可知,当L是平方误差squared error时,令 l\left ( y_{i}, C \right ) 最小的常数C就是真实标签的均值。因此,式子 H_{0}=argmin_{C}\sum_{i}^{M}l\left ( y_{i}, C \right )的本质其实是求解 C=mean\left ( y_{i} \right )时的损失函数,并以此损失函数作为 H_{0}的值。当然,如果我们选择了其他的损失函数,我们就需要以其他方式(甚至梯度下降)进行求解, C 的值可能也就不再是均值了。

四、为什么拟合伪残差可以令损失函数最快地减小

从直觉上来看,拟合伪残差可以降低H_{t}\left ( x_{i} \right )与 y_{i} 之间的差异,从而降低整体损失函数的值,但这个行为在数学上真的可行吗?毕竟,GBDT可以使用任意可微函数作为损失函数,不同损失函数求导后的结果即便与残差相似,也未必能代替真正的残差的效果。因此,不仅在直觉上需要理解拟合伪残差的作用,我们还需要从数学上证明:只要拟合对象是伪残差r_{it},则弱评估器的输出值 f_{t}\left ( x_{i} \right ) 一定是让损失函数减小最快的值。

我们可以对损失函数进行泰勒展开。对单一样本而言,我们有损失函数l(y_{i},H_{t-1}(x_{i})+f_{t}(x_{i})),其中 y_{i}是已知的常数,因此损失函数可以被看做是只有H_{t-1}(x_{i})+f_{t}(x_{i})一个自变量的函数,从而简写为 l(H_{t-1}(x_{i})+f_{t}(x_{i}))

根据一阶泰勒展开,已知:

该式子中H_{t-1}(x_{i}) 是常数,因此第一部分l(H_{t-1}(x_{i}))也是一个常数。同时,第二部分由导数和f_{t}组成,其中导数就是梯度,可以写作 g_{i} ,所以式子可以化简为:

现在,如果要令 l 最小, f_{t}(x_{i}) 应该等于多少呢?回到我们最初的目标,找出令损失函数l最小的f_{t}值:

常数无法被最小化,因此继续化简:

现在, g_{t}是包含了所有样本梯度的向量,f_{t}(x) 是包含了所有样本在f_{t}上预测值的向量,两个向量对应位置元素相乘后求和,即表示为向量的内积,由尖括号 〈〉 表示。现在我们希望求解向量内积的最小值、并找出令向量内积最小的f_{t}(x)的取值,那就必须先找出f_{t}(x)的方向,再找出 f_{t}(x) 的大小。

1、方向

f_{t}(x)的方向应该与g_{t}完全相反。向量的内积 \left \langle g_{t} f_{t}(x)\right \rangle=\left |g_{t} \right |\left | f_{t} (x) \right |cos(\alpha),其中前两项为两个向量的模长, α 是两个向量的夹角大小。模长默认为整数,因此当且仅当两个向量的方向完全相反,即夹角大小为180度时, cos(α) 的值为-1,才能保证两个向量的内积最小。假设向量 a = [1,2],向量b是与a的方向完全相反的向量。假设a和b等长,那向量b就是[-1,-2]。因此,与g_{t}方向完全相反且等长的向量就是 ,-g_{t}f_{t}(x)的方向也正是-g_{t}的方向。

2、大小

对于向量a,除了[-1,-2]之外,还存在众多与其呈180度夹角、但大小不一致的向量,比如[-2,-4], [-0.5,-1],每一个都可以与向量a求得内积。并且我们会发现,当方向相反时,向量b中的元素绝对值越大,b的模长就越长,向量a与b的内积就越小。因此不难发现, \left \langle g_{t} f_{t}(x)\right \rangle 是一个理论上可以取到无穷小的值,那我们的 ft(x) 应该取什么大小呢?答案非常出乎意料:任何大小都无所谓。

回到我们的迭代公式:

无论 f_{t}(x)的大小是多少,我们都可以通过步长 η 对其进行调整,只要能够影响 H(x),我们就可以影响损失迭代过程中的常数的大小。因此在数学上来说,f_{t}(x) 的大小可以是-g_{t}的任意倍数,这一点在梯度下降中其实也是一样的。为了方便起见,同时为了与传统梯度下降过程一致,我们通常让 f_{t}(x)就等于一倍的-g_{t},但也有不少论文令 f_{t}(x)等于其他值的。在GBDT当中:

这就是我们让GBDT当中的弱评估器拟合伪残差/负梯度的根本原因。拟合负梯度其实为GBDT带来了非常多的特点:

首先,通过直接拟合负梯度,GBDT避免了从损失函数找“最优”的过程,即避免了上述证明中求解 f_{t}=argmin_{f}\sum_{i=1}^{M}l\left ( H_{t-1}(x_{i})+f_{t}(x_{i}) \right ) 的过程,从而大大地简化了计算。

其次,通过拟合负梯度,GBDT模拟了梯度下降的过程,由于结合了传统提升法Boosting与梯度下降,因此才被命名为梯度提升法(Gradient Boosting)。这个过程后来被称为函数空间上的梯度下降(Gradient Descent in Function Space),这是视角为Boosting算法的发展奠定了重要的基础。

最后,最重要的一点是,通过让弱评估器拟合负梯度,弱评估器上的结果可以直接影响损失函数、保证损失函数的降低,从而指向Boosting算法的根本目标:降低偏差。这一过程避免了许多在其他算法中需要详细讨论的问题:例如,每个弱评估器的权重 ϕ 是多少,以及弱评估器的置信度如何。

在AdaBoost算法当中,损失函数是“间接”影响弱评估器的建立,因此有的弱评估器能够降低损失函数,而有的弱评估器不能降低损失函数,因此要在求和之前,需要先求解弱评估器的置信度,然后再给与置信度高的评估器更高的权重,权重 ϕ 存在的根本意义是为了调节单一弱评估器对 ϕ 的贡献程度。但在GBDT当中,由于所有的弱评估器都是能够降低损失函数的,只不过降低的程度不同,因此就不再需要置信度/贡献度的衡量,因此就不再需要权重 ϕ 。

五、遗留问题

有些细节性的东西本文还没有讲到,比如:

  1. 叶子结点如何取值?
  2. 其他损失函数下怎么推导?
  3. ...

详见下面《集成学习(四)DT、GBDT 公式推导》,注意:这两篇文章的符号不一样!!

接下来学习:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1901398.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

模型训练之数据集

我们知道人工智能的四大要素:数据、算法、算力、场景。我们训练模型离不开数据 目标 一、数据集划分 定义 数据集:训练集是一组训练数据。 样本:一组数据中一个数据 特征:反映样本在某方面的表现、属性或性质事项 训练集&#…

昇思25天学习打卡营第15天|linchenfengxue

Pix2Pix实现图像转换 Pix2Pix概述 Pix2Pix是基于条件生成对抗网络(cGAN, Condition Generative Adversarial Networks )实现的一种深度学习图像转换模型,该模型是由Phillip Isola等作者在2017年CVPR上提出的,可以实现语义/标签到…

农资销售网站-计算机毕业设计源码54432

目录 摘要 Abstract 1绪论 1.1研究背景 1.2研究意义 1.3论文结构与章节安排 2农资销售网站系统分析 2.1可行性分析 2.1.1技术可行性分析 2.1.2经济可行性分析 2.1.3法律可行性分析 2.2系统功能分析 2.2.1功能性分析 2.2.2非功能性分析 2.3系统用例分析 2.4系统流…

业界数据架构的演变

目录 一、概述 二、业务处理-单体架构 三、业务处理-微服务架构 四、数据分析-大数据Lambda架构 五、数据分析-Kappa架构 六、数据分析-LambdaKappa混合架构 七、湖仓一体架构 一、概述 近年来随着越来越多的大数据技术被开源,例如:HDFS、Spark等…

数据库缓存管理

1. 简介 缓存管理器是数据库管理系统(DBMS)中负责管理内存中page并处理文件和索引管理器的page请求的组件。由于内存空间有限,我们不能将所有page存储在缓存池中。因此,缓存管理器需要制定替换策略,当空间填满时选择哪…

如何注册微信公众号

如何注册微信公众号 如何注册一个微信公众号 😊📱摘要引言正文内容1. 准备工作内容定位和受众群体公众号名称和头像 2. 网页注册流程第一步:访问微信公众平台第二步:选择账户注册类型第三步:填写基本信息第四步&#x…

视频技术助力智慧城市一网统管:视频资源整合与智能化管理

随着信息技术的飞速发展,智慧城市已成为现代城市发展的重要方向。在智慧城市建设中,一网统管作为城市管理的重要策略,通过整合各类信息资源,实现资源的优化配置和问题的快速响应。其中,视频技术作为一网统管场景中的关…

使用Livox-Mid360激光雷达,复现FAST_LIO(保姆级教程)

前面我已经完成了mid360激光雷达的驱动安装,octomap的复现,昨天我去把这俩在正式环境中实测了一下,效果不好,走廊转角没建出来,我查了一下,应该是TF的原因,但这部分我还不太懂,看到有…

利用大模型知识库,优化智能客服问答效果 | 创新场景

ITValue 痛点 SSC( Share Service Center ,共享服务中心)是企业日常接触最多的场景之一,更多是对内服务,包括 HR 、财务、IT 等。该场景对专业度要求非常高,知识点非常多,对于知识的使用者或者查…

每日一题~ leetcode 402 (贪心+单调栈)

click me! 这个贪心的推导在leetcode上已经很明确了。 click me! 删除k个数,可以先考虑删除一个数。这也是一种常见的思路。(如果进行同样的操作多次,可以先只 考虑一次操作如何实现,或者他的影响。完成这一次操作后,…

服务器数据恢复—DS5300存储raid5阵列数据恢复案例

服务器存储数据恢复环境: 某单位一台某品牌DS5300存储,1个机头4个扩展柜,50块硬盘组建2组RAID5磁盘阵列(一组raid5阵列有27块成员盘,存放Oracle数据库文件;另外一组raid5阵列有23块成员盘)。存储…

【免费资料】IEEE33节点系统参数及拓扑图visio

主要内容 对于初学配电网的同学,最经典的系统即是33节点配电网系统,在各个研究文献中出现频次最高的也是这个系统,为了让大家更好了解33节点系统参数,本次整理了系统节点、支路参数excel以及33节点网络拓扑图visio&#xff0c…

解决IDEA每次新建项目都需要重新配置maven的问题

每次打开IDEA都要重新配置maven,这是因为在DEA中分为项目设置和全局设置,这个时候我们就需要去到全局中设置maven了。我用的是IntelliJ IDEA 2023.3.4 (Ultimate Edition),以此为例。 第一步:打开一个空的IDEA,选择左…

Multisim仿真-交流数字电压表

下图为整体的原理框图,交流电源经过整流滤波电路转换后,送入模数转换电路,经译码给到显示电路,由其显示交流电源的有效值。 信号发生器XFG1输出正弦波信号(峰峰值),XMM1测量有效值,U6数码管显示有效值。仿真…

38条Web测试经验分享

1. 页面链接检查 每一个链接是否都有对应的页面,并且页面之间切换正确。可以使用一些工具,如LinkBotPro、File-AIDCS、HTML Link Validater、Xenu等工具。 LinkBotPro不支持中文,中文字符显示为乱码;HTML Link Validater只能测…

vue3【实战】来回拖拽放置图片

效果预览 技术要点 img 标签默认就是可拖拽的(a 标签也是)事件 e 内的 dataTransfer 对象可用于临时存储事件过程中的数据拖拽事件的默认行为是用浏览器新开页签打开被拖拽对象,所以通常需要禁用默认的浏览器行为被拖拽元素必须设置 id&#…

二刷力扣——单调栈

739. 每日温度 单调栈应该从栈底到栈顶 是递减的。 找下一个更大的 ,用递减单调栈,就可以确定在栈里面的每个比当前元素i小的元素,下一个更大的就是这个i,然后弹出并记录;然后当前元素i入栈,仍然满足递减…

AcWing 1550:完全二叉搜索树

【题目来源】https://www.acwing.com/problem/content/1552/【题目描述】二叉搜索树 (BST) 递归定义为具有以下属性的二叉树: (1)若它的左子树不空,则左子树上所有结点的值均小于它的根结点的值 (2)若它的右…

BS结构的毕业设计题目管理系统-计算机毕业设计源码92342

目 录 摘要 1 绪论 1.1 研究背景 1.2目的及意义 1.3论文结构与章节安排 2 毕业设计题目管理系统设计分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.2.2 非功能性分析 2.3 系统用例分…

【C++】开源:地图投影和坐标转换proj库配置使用

😏★,:.☆( ̄▽ ̄)/$:.★ 😏 这篇文章主要介绍地图投影和坐标转换proj库配置使用。 无专精则不能成,无涉猎则不能通。——梁启超 欢迎来到我的博客,一起学习,共同进步。 喜欢的朋友可以关注一下&a…