【机器学习】LightGBM 解读 (集成学习_Boosting_GBM)

news2025/1/16 17:39:26

【机器学习】LightGBM 解读 (集成学习_Boosting_GBM)

文章目录

  • 【机器学习】LightGBM 解读 (集成学习_Boosting_GBM)
    • 1. 介绍
    • 2. 数据预处理
      • 2.1 基于梯度的单边采样(GOSS)
      • 2.2 互斥特征捆绑(EFB)
    • 3. 决策树学习
      • 3.1 寻找连续特征最优分裂点
      • 3.2 寻找类别特征最优分裂点
      • 3.3 按叶子生长策略学习树结构
    • 4. 多机并行优化
      • 4.1 特征并行
      • 4.1 数据并行
      • 4.3 选举并行
    • 参考

1. 介绍

GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛,通常被用于多分类、点击率预测、搜索排序等任务;在各种数据挖掘竞赛中也是致命武器,据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。

而 LightGBM(Light Gradient Boosting Machine)也是一种 GBDT,LightGBM 可以说是在 XGBoost 上做的优化。它使用决策树作为基学习器。LightGBM 为高效并行计算而生,它的 Light 体现在以下几个点上:

  • 更快的训练速度
  • 更低的内存使用
  • 支持单机多线程,多机并行计算,以及 GPU 训练
  • 能够处理大规模数据

在这里插入图片描述


2. 数据预处理

大数据的大体现在两方面:样本多和特征多。 LightGBM 针对在数据预处理阶段对这两个问题进行了解决。

  • 针对样本多的问题,提出了基于梯度的单边采样算法(Gradient-based One-Side Sampling,GOSS);
  • 针对特征多的问题,提出了互斥特征捆绑算法(Exclusive Feature Bundling,EFB)。

2.1 基于梯度的单边采样(GOSS)

样本多,可以删。 LightGBM 利用求得的梯度对样本进行筛选。

  • 按常识来看,梯度越大应该是越欠学习。如果大梯度样本能够预测正确,对增益的贡献将会更大,所以希望节点分裂时能够准确地划分大梯度样本,小梯度样本可以有错误。
  • 既然如此,筛选样本的时候,就保留大梯度样本,只删除一部分小梯度样本。这就是 GOSS 思路,具体过程如下:
    在这里插入图片描述

1)先对梯度绝对值降序排列,便于筛选
2)设个比例阈值 a,排序后的样本前 a * 100% 叫大梯度样本,全部保留
3)后 ( 1 − a ) ∗ 100 (1-a) * 100% (1a)100 的样本叫小梯度样本,随机抽样,抽样比例为 b ∗ 100 b * 100% b100
4)由于随机抽样不是针对全部样本,所以会改变原始数据分布。为了尽量保持数据分布,需要给抽样出来的样本乘个系数,让他们保持原分布。这个系数是:
在这里插入图片描述
解释下算法名字 ——基于梯度的单边采样。

  • 基于梯度体现在按照梯度顺序排序;
  • 单边采样体现在只在小梯度样本这边采样。

作者在五个数据集上进行了测试,如下表,表中数值为训练单棵决策树需要的秒数。这里只需要关注红框中的两列,

  • 其中 EFB_only 这列是只使用了 EFB(互斥特征捆绑)的 LightGBM 方法,
  • 另一列是完整的 LightGBM 算法。

所以这两列差别在于左边的没用 GOSS,右边的用了,因此可以用于对比 GOSS 效果。很明显,GOSS 平均能提速一倍左右。

在这里插入图片描述


2.2 互斥特征捆绑(EFB)

特征多,可降维。 LightGBM 利用稀疏性,对特征进行无损合并。

  • 从特征角度来看,稀疏特征会包含很多 0 元素;
  • 从样本角度来看,一个样本的多个稀疏特征经常同时为 0。

EFB 基于这种想法,对互斥特征进行了捆绑,整体过程有点类似于 One-Hot 逆过程,以下图为例详细介绍。
在这里插入图片描述
1)先看第一个表格,这个是没做 EFB 的原表格。表格里有 6 个样本,每个样本有 5 个特征,前 3 个特征稀疏,后 2 个特征稠密。稠密特征不管,只看稀疏特征,目标是把这三个稀疏特征合并成一个新特征,并把这个新特征叫做 Bundle。

  • 当一行样本的 3 个稀疏特征中只有 1 个非零元素时,可以忽略 0 元素,只保留非零元素,这样就实现了 3 -> 1 的降维。
    • 但是显然这样没办法实现 1 -> 3 的还原,因为不清楚合并后得到的非零元素是哪个原始特征的,这就说明我们在合并时损失了一些信息。
  • 可以通过数据分布范围内涵地表示合并后元素所属原特征。假设三个特征分布范围都为 1~10,第一个特征不动,第二个特征错开第一个分布,全体元素在坐标轴上向右偏移 10,第三个特征错开前两个特征,全体元素向右偏移 20。这样就形成了箭头下方的第二个表格,每个元素可以根据大小范围判断属于哪个原特征。这个分布错开的过程如下动图:
    在这里插入图片描述

2)注意到,样本 3 在合并的时候,有两个非零元素,不符合要求。LightGBM 把这种情况定义为冲突。如果完全拒绝这种情况,那其实可以合并的特征会很少,所以没办法只能适当容忍冲突。

当几个特征冲突比例小(源码给的阈值是 1/10000 )的时候,影响不大,忽略冲突,把这几个特征叫做互斥特征;当冲突比例大的时候,不能忽略,EFB 不适用。那么对于样本 3 这种冲突情况,以最后参与合并的特征为准,所以表格里是 20+8 而不是 10+3。

但是我们该如何找出这些互斥特征组合呢?尝试每种组合,是 NP 难问题,现有算力做不到。所以只能采用贪心算法找。具体过程如下:

  • 遍历特征,先把第一个特征拿出来作为一个组合
  • 第二个特征往这个组合里放,冲突比例小就放进去合并成一个特征,冲突比例大就单拿出来作为另一个组合
  • 第三个特征继续往已有的组合里放,能放就放,不能放就单成一个新组合
  • 以此类推对所有特征做同样的操作。

对于这里的特征遍历,作者给出了两种遍历顺序,一种是根据互斥性建图,按节点度的降序顺序遍历;另一种是统计特征非零值的个数,按非零值个数的降序顺序遍历。源码里面弱化了排序的作用,有兴趣可以阅读原文和源码。

作者在五个数据集上进行了测试,如下表,表中数值为训练单棵决策树需要的秒数,这里只需要关注红框中的两列,其中 lgb_baseline 这列是使用了普通稀疏优化的 LightGBM 方法,EFB_only 是使用了 EFB 的 LightGBM 方法,EFB 让速度提升了 8 倍左右。

在这里插入图片描述
速度提升主要来源于两点:

  • 普通的稀疏优化要保存非零值表,用了互斥特征捆绑后,多个稀疏特征捆绑成稠密特征,不用非零值表,节省了内存和维护耗时;
  • 在多个稀疏特征间依次遍历时,每次特征切换都存在缓存命中率低(cache miss)的问题,合为一个特征后,不用切换特征,也就没有缓存命中率低的问题了。

3. 决策树学习

决策树的学习过程分为两部分:

  • 节点层面:寻找一个叶子节点的最优分裂点(特征的值)
  • 树结构层面:选择让哪个叶子节点进行分裂(特征)

3.1 寻找连续特征最优分裂点

对于连续特征,可以用预排序方法计算增益,但每个分裂点都要尝试,计算增益的次数会很多。为了降低算量,LightGBM 对连续特征做等距离离散化,也就是直方图统计,只在直方图每个箱子处计算一次增益。这样对于单个特征来说,计算增益的时间复杂度从不同特征值数量
O ( n d i s t i n c t _ v a l u e ) O(n_{distinct\_value}) O(ndistinct_value) 降低到直方图箱数量 O ( n b i n ) O(n_{bin}) O(nbin),箱数量会控制在 256 以下。因为 n d i s t i n c t _ v a l u e > > n b i n n_{distinct\_value}>>n_{bin} ndistinct_value>>nbin ,所以速度提升会很明显。下图对比了预排序和直方图这两种方法:
在这里插入图片描述
采用直方图算法,除了速度上的提升,内存消耗也会降低。

  • 对于预排序算法,每个样本的每个特征要保存一个 32 位浮点数的特征值,和一个指向样本的有序索引,一个索引也占 32 位;
  • 而对于直方图算法,每个样本的每个特征只要保存一个 bin 位置即可,因为 n b i n n_{bin} nbin 会限制在 256 以内,所以 8 位整数就够。因此,直方图内存占用能够降低到预排序的 1 / 8 1/8 1/8

直方图算法计算增益的位置少了,相比于预排序算法,可能会错过最佳分裂位置。

  • 作者说这样其实也避免了过拟合,能够提高泛化能力,同时这点误差能够在梯度提升中被消除。

除此之外,LightGBM 在节点分裂时还采用了直方图做差加速。

  • 对于选中的分裂特征,它的直方图在分裂点一刀切开就好了,但对于没被选中的特征,还要按照选中特征的分裂规则,重新构建左、右节点的子直方图。

这里就可以用直方图做差加速的方法,加速这一过程。当父节点分裂时,它的直方图是已知的,只要求出一个叶子节点的直方图,另一个叶子节点的就可以做差得到,减少了算量。这个过程还可以继续优化,在求叶子节点直方图的时候,可以选择样本少的叶子,样本大的叶子通过做差来求,这样进一步缩小了计算量。直方图做差加速能让耗时降低到原先的 1 / 2 1/2 1/2
在这里插入图片描述

3.2 寻找类别特征最优分裂点

对于类别特征,一般是 One-Hot 编码,然后输入到决策树里。这样决策树在学习节点分裂时,是一种 one-vs-rest 模式,每次只能根据一个类别做分类,如下图。这种模式效率比较低,而且不利于决策树学习。

  • LightGBM 对此进行了优化,采用 many-vs-many 模式分裂节点,如下图。

在这里插入图片描述
LightGBM 基于这篇文章《On Grouping for Maximum Homogeneity》,对类别特征按照每类的 G H = ∑ g r a d i e n t h e s s i a n \frac{G}{H} = \frac{\sum gradient}{hessian} HG=hessiangradient进行排序,然后按照这个顺序构造直方图,寻找最优分裂点。

  • 这里有一个机器学习常识问题:为什么连续特征可以直接构建直方图,但类别特征要按照 G H \frac{G}{H} HG 的顺序构建直方图,而不能按照特征值顺序构建?
    • 因为连续特征中的数值具有大小关系,但类别特征中数值没有大小关系,只是代表某类,比如橘子和苹果这两类,它们不分伯仲。而基于直方图的节点分裂,要求特征中数值具有大小关系,所以类别特征要按 G H \frac{G}{H} HG 排个序,引入大小关系,之后再构建直方图。

3.3 按叶子生长策略学习树结构

树结构的生长有两种方式,如下图:

  • 一种是大多数 GBDT 算法使用的按层生长策略;
  • 另一种是 LightGBM 使用的按叶子生长策略。

在这里插入图片描述

  • 对于按层生长,一层的节点囊括了所有训练数据,只要遍历一次全部数据,就可以分裂这一层的所有节点,简单方便。
    • 然而这种生长方式带来了很多不必要的分裂,同一层中有些节点分裂带来的增益很小,这种节点应该避免分裂,减小计算开销。
  • LightGBM 采用 按叶子生长 策略,来优化这个问题。具体规则是:
    • 在每次分裂时,选择能够带来最大增益的叶子进行分裂。
    • 在同等分裂次数的情况下,显然按叶子生长能够把损失函数降低更多。

4. 多机并行优化

一台机器不够用,那就几台机器一起跑。多机并行存在通信成本问题,机器之间发送的数据信息不能太多,否则会产生大量的额外开销。

之前的并行方法主要有两种:1)特征并行;2)数据并行。他们都是针对寻找最优分裂点这个过程,进行并行计算,各有缺点。
LightGBM 在数据并行的基础上进行了优化,提出选举并行。

下面分别介绍这三种方法。

4.1 特征并行

每个 worker 拥有全部样本的部分特征,它们各自输出自己的局部最优分裂点和增益。在把所有的结果汇总后,比较增益大小,选出全局最优分裂点(特征+阈值)。所有 worker 要根据全局最优进行节点分裂。

但是被选中的全局最优的特征只存储在一个 worker 里,其他 worker 没有这个特征,也就没法根据阈值判断哪个样本分到左叶子,哪个分到右叶子。如何解决?只能让存储了这个特征的 worker 把每个样本的划分结果告诉其他 worker。因为只有左、右两种划分可能,所以可以用一个 bit 存储单个样本的划分结果。这样的话通信量是 O ( n s a m p l e ) O(n_{sample}) O(nsample) ,非常大。

在这里插入图片描述
除了通信量比较大的问题外,仔细分析会发现有两个过程没法并行:

  • 节点分裂:每个 worker 都要自行分裂一遍,不分裂自己就没有新节点,时间复杂度为
  • 梯度计算:每个 worker 都要自行计算一遍梯度,不计算自己就没有,时间复杂度为

所以特征并行还有很大的优化空间。

4.1 数据并行

每个 worker 拥有一部分数据的全部特征,它们输出各自的局部直方图,然后汇总成全局直方图,在全局直方图上找出最优分裂点。
在这里插入图片描述
数据并行没有特征并行的那些问题,但他的缺点也很明显。它要发送全部的直方图,通信代价是 O ( n b i n × n f e a t u r e ) O(n_{bin} \times n_{feature}) O(nbin×nfeature),当特征数量到成百上千万时,这个通信代价没办法接受。

4.3 选举并行

因此,LightGBM 没有用这两种方法,而是采用了选举并行,这是一种在数据并行基础上改进的算法,是 LightGBM 作者在另一篇文章中提出的。

  • 当特征数量很大时,数据并行会有巨大的通信代价,但是如果能够降低需要通信的特征数量,数据并行将是一个非常好的方法。选举并行就是基于这种想法设计的,具体方法如下:
    在这里插入图片描述

    • 让每个 worker 根据增益选出 k 个最有潜力竞争全局最优的特征,叫做局部最优特征
    • 把这些局部最优特征对应的增益和用来计算增益的数据量 n s a m p l e n_{sample} nsample 进行汇总
    • 考虑到样本少的增益不可靠,所以把 n s a m p l e m a x ( n s a m p l e ) \frac{n_{sample}}{max(n_{sample})} max(nsample)nsample 作为权重,对增益进行加权
    • 不同 worker 可能选出了相同的增益,这种情况直接把它们的加权增益加一起就好
    • 根据加权增益排序,再一次选出 k 个最有潜力竞争全局最优的特征,叫做全局最优特征
    • 各个 worker 只发送 k 个全局最优特征直方图,汇总后找出最优分裂点

因为每个 worker 只发送 k 个直方图,所以选举并行的通信量是 O ( n b i n × k ) O(n_{bin} \times k) O(nbin×k),通过调整 k k k ,可以控制通信量的大小,极大地降低通信耗时。LightGBM 的并行速度接近线性增长。

作者选取了排序学习和点击率预测两个任务,用来对以上三种并行方法进行耗时测试,单位为小时,结果如下表。选举并行耗时最短。
在这里插入图片描述
结合任务数据集分析下结果,数据集相关信息如下表。排序学习用的数据集样本量偏少,特征偏多,所以特征并行耗时会比数据并行少很多;而点击率预测用的数据集样本数量多,特征偏少,所以数据并行耗时比特征并行耗时少很多。选举并行不讲武德,两个任务耗时都最短,而且速度接近线性增长。
在这里插入图片描述
LightGBM 在梯度提升这块儿,使用的方法和 XGBoost 一致,也是带正则项的二阶泰勒展开求解方式。并且在融合新模型的时候也采取了缩减(shrinkage)技巧。整体来看,LightGBM 的改进体现在速度更快、内存占用更低这两方面,是一个很有潜力的算法,对于后续工作有很大的借鉴意义。

参考

【1】https://zhuanlan.zhihu.com/p/366952043
【2】梯度提升决策树(GBDT)并行学习算法研究,柯国霖 https://d.wanfangdata.com.cn/thesis/Y3025839
【3】A Communication-Efficient Parallel Algorithm for Decision Tree https://papers.nips.cc/paper/2016/file/10a5ab2db37feedfdeaab192ead4ac0e-Paper.pdf
【4】LightGBM: A Highly Efficient Gradient Boosting Decision Tree https://papers.nips.cc/paper/2017/file/6449f44a102fde848669bdd9eb6b76fa-Paper.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/524233.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

免费安装注册 IDM 使用流程,简单方便易操作 IDM 在B站没有显示下载按钮

文章目录 下载 IDM运行脚本winr快捷键调出运行窗口输入powershell并运行上述脚本开始注册注册成功IDM 在B站没有显示下载按钮 下载 IDM 官网链接:Internet Download Manager: The fastest download accelerator 运行脚本 # Enable TLSv1.2 for compatibility wi…

多目标优化算法求解无人机三维路径规划

一、无人机模型 无人机三维路径规划是无人机在执行任务过程中的非常关键的环节,无人机三维路径规划的主要目的是在满足任务需求和自主飞行约束的基础上,计算出发点和目标点之间的最佳航路。 1.1路径成本 无人机三维路径规划的首要目标是寻找起飞点和目…

Python学习19:输出斐波拉契数列的前n项

描述: 斐波那契数列(Fibonacci sequence),又称黄金分割数列、因数学家列昂纳多斐波那契(Leonardoda Fibonacci)以兔子繁殖为例子而引入,故又称为“兔子数列”,指的是这样一个数列&a…

Unity2019配置JDK、SDK、NDK、Gradle

用Unity开发了一个使用AR Foundation的小项目,导出项目需要在安卓手机上进行测试。在导出时遇到了配置环境的问题,查找了很多方法终于解决。记录一下。 我所使用的unity版本是2019.2.12f。在完成项目需要导出时,在首选项设置中需要设置JDK、…

我的职业转型之路:从点工到自动化测试工程师仅用了四个月

目录 引言 1、知识体系化 2、我的成长路线 功能测试——>UI自动化 UI自动化——>接口自动化 接口自动化——>性能测试 软件测试工程师发展规划路线 一、测试基础 二、Linux必备知识 三、Shell脚本 四、互联网程序原理 五、MySQL数据库 六、抓包工具 七、…

Altium designer—STM32F103C8T6最小系统原理图

分享使用Altium designer软件绘制的STM32F103C8T6最小系统电路原理图 亲测可用,完整电路文件资源见文末链接 一、电路原理图 STM32F103C8T6是STM32入门级的芯片,性价比很高,资源相对比较丰富,该最小系统包括STM32F103C8T6芯片、…

使用预定义类

目录 🍅 一、对象与对象变量 🍎 二、Java类库中的LocalDate类 🥭 三、更改器方法与访问器方法 🧑‍💻CSDN主页:夏志121的主页 📋专栏地址:Java核心技术专栏 在Java中,…

形态学图像处理和图像分割MATLAB实验

文章目录 一、实验目的二、实验内容1. 开运算和闭运算实验。2. 用形态学处理提取边界。4. 全局阈值处理。 一、实验目的 理解腐蚀和膨胀的原理,掌握开运算、闭运算及形态学的边界提取。掌握孤立点检测、线检测和边缘检测的方法。掌握全局阈值处理的方法。 二、实验…

2023 上半年软件设计师知识点复习总纲

前言:全国计算机技术与软件专业技术资格(水平)考试(以下简称IT职业资格考试)是由中华人民共和国人事部主管,国家计算机网络与信息安全管理中心主办的一项国家级、权威性的计算机职业技能水平认证考试。主要…

【人力资源管理】第4集 免费开源ERP: Odoo 16 Appraisal员工绩效评估 构建一体化企业人力资源管理

文章目录 前言一、概览二、主要功能1.设置定期的员工评估2.构建正确的评估3.设计您自己的调查4.自动评估过程 总结 前言 在员工工作中创建评估。同时审查员工表现。 一、概览 员工评价 评估内容 目标制定 评价指标 评价分析 二、主要功能 1.设置定期的员工评估 强化贵公司的…

Learning C++ No.21 【AVL树实战】

引言: 北京时间:2023/5/13/10:13,饥肠辘辘,为了将红黑树的博客赶出来,导致现在还没有吃早饭,所以现在先容我去吃一下早饭,ok,转眼一看,12:25,哈哈哈&#xf…

Linux上传文件至GitHub

Linux上传文件至GitHub 1、安装 git 并 生成密钥1.1 安装 git 并 绑定用户信息1.2 生成密钥 并 复制于 Github 2、生成远程仓库3、文件上传 本篇文章将讲述在Linux上如何通过 git 上传文件到 Github 账户中的目标远程库 !主要内容如下。 1、安装 git 并 生成密钥 …

2023年测试工程师核心竞争力?功能到自动化测试开发收割28k的offer...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 Python自动化测试&…

如何使用Wireshark软件分析TCP协议

在学习网络相关知识的时候,需要对网络协议进行分析。网络协议分析软件用的最多的就是 Wireshark 这个软件,今天就简单总结一下如何使用这个软件进行TCP三次握手和四次挥手的查看。   要查看三次握手和四次挥手的数据,那么就必须找一个软件有…

Pr 拍立得风格图片展示

哈喽,各位小伙伴!今天我们来学习一下如何制作拍立得风格的照片展示效果? 新建三个序列 在开始之前,我们需要新建三个序列 序列1:总合成-尺寸1902*1080序列2:照片合成-尺寸1920*1080序列3:照片…

1-Zookeeper简介

1-Zookeeper简介 ①官网 官网 https://zookeeper.apache.org/中文网站 https://zookeeper.net.cn/ ②简介 ZooKeeper 是分布式应用程序的分布式开源协调服务。它公开了一组简单的原语,分布式应用程序可以基于这些原语实现更高级别的同步、配置维护、组和命名服务…

MATLAB入门教程 | 001基础知识

一、认识MATLAB 1. MATLAB概述 (1)在欧美各高等学校, Matlab成为线性代数、自动控制理论、数字信号处理、时间序列分析、动态系统仿真、图像处理等诸多课程的基本教学工具,成为本科生、硕士生和博士生的必须掌握的基本技能。 (2&…

2023.05.14 学习周报

文章目录 摘要文献阅读1.题目2.现存问题和解决方法3.RUM4.本文贡献5.模型框架5.1 Memory enhanced user embedding5.2 Prediction function5.3 Item-level RUM5.4 feature-level RUM 6.实验6.1 数据集6.2 测量准则6.3 基线6.4 实验结果 7.结论与展望 灰色预测有限元法1. 第一类…

【图像基础知识】常见图像格式

文章目录 1 简介2 RGB3 BGR4 YUV4.1 YUV常见格式4.2 YUV420详解4.3 NV12 5 Gray6 图像格式之间的转换7 参考链接 原文来自于地平线开发者社区,未来会持续发布深度学习、板端部署的相关优质文章与视频,如果文章对您有帮助,麻烦给点个赞&#x…

基于趋动云部署秋葉aaaki的Stable Diffusion整合包v4--linux版

B站大V秋葉aaaki的Stable Diffusion整合V4版发布了,集成度比较高,在windows下解压缩直接就可以使用,整合的非常好。但是笔人没有RTX4090这样级别的显卡,又希望有个高速运行的效果。 所以索性到云GPU主机上来用秋叶aaaki的Stable …