LightGBM算法详解

news2025/2/26 20:45:31

LightGBM算法详解

LightGBM(Light Gradient Boosting Machine)是由微软开发的高效梯度提升决策树(GBDT)实现。它以速度和效率著称,特别适用于大规模数据集和高维特征的场景。本文将详细介绍LightGBM的原理、特点、常用参数,并通过示例展示其在回归和分类任务中的应用。
在这里插入图片描述

LightGBM原理

LightGBM采用了基于直方图的决策树算法,具体原理如下:

  1. 基于直方图的分裂:LightGBM将连续特征值离散化成K个bins(桶),然后构建直方图,从而加速特征值的计算和选择。
  2. 叶子节点分裂:与大多数GBDT实现的“深度优先”分裂不同,LightGBM采用了“叶子节点分裂”的策略,每次选择分裂增益最大的叶子节点进行分裂,从而更快地找到全局最优解。
  3. 支持并行学习:通过基于特征并行和数据并行的策略,LightGBM能够在分布式环境中高效地进行训练。

LightGBM的特点

  • 速度快:得益于基于直方图的决策树算法,LightGBM在训练速度上比其他GBDT实现(如XGBoost)要快。
  • 内存效率高:通过对连续特征进行离散化处理,LightGBM大大降低了内存使用量。
  • 支持类别特征:LightGBM可以直接处理类别特征,无需额外的编码操作。
  • 高精度:得益于其独特的叶子节点分裂策略,LightGBM在很多场景下能够取得更高的精度。

LightGBM模型参数详解

以下是LightGBM常用参数及其详细说明:

参数名称描述默认值示例
num_leaves树的最大叶子节点数31num_leaves=50
learning_rate学习率,控制每棵树对最终模型的贡献0.1learning_rate=0.05
n_estimators树的棵数,提升迭代的次数100n_estimators=200
max_depth树的最大深度,避免过拟合-1max_depth=10
min_data_in_leaf叶子节点的最小样本数20min_data_in_leaf=30
feature_fraction构建每棵树时使用的特征比例1.0feature_fraction=0.8
bagging_fraction构建每棵树时使用的数据比例1.0bagging_fraction=0.8
bagging_freqBagging的频率,0表示禁用Bagging0bagging_freq=5
lambda_l1L1正则化项系数0.0lambda_l1=0.1
lambda_l2L2正则化项系数0.0lambda_l2=0.1
boosting_type提升类型,可以是gbdtdartgossrfgbdtboosting_type='dart'
objective要优化的目标函数-objective='binary'
metric评估指标-metric='auc'
early_stopping_round提前停止训练的轮数Noneearly_stopping_round=50
seed随机数种子,用于结果复现Noneseed=42
n_jobs并行训练的线程数-1n_jobs=4
verbose控制训练过程信息的输出频率1verbose=-1

LightGBM在回归问题中的应用

生成示例数据

import numpy as np
import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 生成示例数据
X = np.random.rand(1000, 10)
y = X.sum(axis=1) + np.random.normal(0, 0.1, 1000)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

训练LightGBM回归模型

# 创建LightGBM回归模型
model = lgb.LGBMRegressor(
    num_leaves=31,
    learning_rate=0.1,
    n_estimators=100
)

# 训练模型
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], early_stopping_rounds=10, verbose=False)

# 预测
y_pred = model.predict(X_test, num_iteration=model.best_iteration_)

# 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse:.4f}')

LightGBM在分类问题中的应用

生成示例数据

from sklearn.datasets import make_classification
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# 生成示例数据
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, n_redundant=5, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

训练LightGBM分类模型

# 创建LightGBM分类模型
model = lgb.LGBMClassifier(
    num_leaves=31,
    learning_rate=0.1,
    n_estimators=100
)

# 训练模型
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], early_stopping_rounds=10, verbose=False)

# 预测
y_pred = model.predict(X_test, num_iteration=model.best_iteration_)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.4f}')

# 混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print('Confusion Matrix:')
print(conf_matrix)

# 分类报告
class_report = classification_report(y_test, y_pred)
print('Classification Report:')
print(class_report)

结语

本文详细介绍了LightGBM算法的原理和特点,并展示了其在回归和分类任务中的应用。首先介绍了LightGBM算法的基本思想,然后展示了如何在合成数据集上使用LightGBM进行回归任务,以及如何在合成分类数据集上使用LightGBM进行分类任务。希望本文能帮助你更好地理解和应用LightGBM算法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1841488.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

研究Redis源码的一些前期准备

一 背景 Redis数据结构讲完后,觉得还是有点不过瘾,想研究一下Redis的底层实现。找了一些相关资料,准备借鉴和学习其他各位大佬钻研Redis底层的方法和经验,掌握Redis实现的基本原理。 二 源码归类 网上有大佬已经总结了…

半导体芯片设计企业最关注的EDA数据安全问题,可以这样落地

半导体芯片设计企业一直以来都面临着两个非常严峻的目标:严格的质量要求和紧迫的上市时间。人工智能(AI)和高性能计算(HPC)等计算密集型应用对芯片的要求更高,但留给芯片设计和验证的周期却不增反降。而且不断增长的成本也在逐渐压缩企业利润。 EDA上云可以很大程度…

前端技术栈二(promise模块化编程)

一、promise 1 Promise 基本介绍 传统的 Ajax 异步调用在需要多个操作的时候,会导致多个回调函数嵌套,导致代码不够直观,就是常说的 Callback Hell 为了解决上述的问题,Promise 对象应运而生,在 EMCAScript 2015 当中…

期望28K,5.14日蚂蚁java社招一面(杭州)

面经哥只做互联网社招面试经历分享,关注我,每日推送精选面经,面试前,先找面经哥 1、线程池的几个参数? 2、一道关于线程池的代码题目,数据库中存任务,通过一个有10个核心线程和无限队列的线程池…

【PyQt5】python可视化开发:PyQt5介绍,开发环境搭建快速入门

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

技术人的业务爱好:第一件手工-官帽椅

榫卯是古典家具的主要结构方式,是两个构件上采用凹凸部位相结合的一种连接方式,其中,凸出部分叫榫(或叫榫头),凹进部分叫卯(或叫榫眼、榫槽)。 一榫一卯之间,一转一折之…

.net 奇葩问题调试经历之1——在红外相机获取温度时异常

📢欢迎点赞 :👍 收藏 ⭐留言 📝 如有错误敬请指正,赐人玫瑰,手留余香!📢本文作者:由webmote 原创📢作者格言:新的征程,我们面对的不仅仅是技术还有人心,人心不可测,海水不可量,唯有技术,才是深沉黑夜中的一座闪烁的灯塔序言 我们在研发中,经常除了造产品…

深度学习增强的非线性光纤单像素成像系统

1、光子器件的逆向设计:通过机器学习,特别是深度学习,可以高效地进行光子器件的逆向设计,这在传统的多参数优化问题中尤为重要。 2、超构表面和超材料设计:机器学习被用于设计具有特定光学特性的超构表面和超材料&…

管道保温的介绍

通风空调管道及各种水管的保温材料主要有:聚氨酯泡沫塑料保温、高级橡塑保温、酚醛泡沫塑料保温等。现对以上材料的特性、适用范围、施工要点等进行介绍,以供各位借鉴。 01 常用的绝热材料 1、聚氨酯泡沫塑料保温 该材料用于直埋管段的保温。在工程中…

目标检测讲解

环境准备 pip install scikit-image -i https://pypi.tuna.tsinghua.edu.cn/simple图片读取&画框 from skimage import io import matplotlib.pyplot as plt import matplotlib.patches as mpss io.imread(dogs.jpg)_, ax plt.subplots(ncols1, nrows1, figsize(6, 6))…

[第五名公共排行榜] LGB 连续学习 + Catboost 集成

大家好, 首先,我想感谢竞赛组织者和所有参与讨论的人。这是@ibazhov和我在Kaggle上的第一次正式比赛,我们学到了很多,并希望未来能参与更多的比赛。 总结: 使用5个LGB模型进行连续更新/学习,通过.train(init_model)和.refit()方法,以及5个基于216个特征的Catboost模型…

装备制造行业数据分析指标体系

数字化飞速发展的时代,多品种、定制化的产品需求、越来越短的产品生命周期、完善的售后服务、极佳的客户体验和快速的交货速度等,使得装备制造行业的经营环境越来越复杂,企业竞争从拼产品、拼价格迈向拼服务,装备制造企业正处于数…

javaSE:继承

在谈继承之前,我们先观察下面这个代码: //定义一个猫类 class Cat {public String name;public int age;public float weigth;public void eat(){System.out.println(this.name"正在吃饭");}public void mimi(){System.out.println(this.nam…

校园环境气象实时监测系统

随着物联网技术的发展越来越成熟,它不断地与人们的日常生活和工作深入融合,推动着社会的进步。其中物联网系统集成在高校实践课程中可以应用到许多项目,如环境气象检测、花卉种植信息化监管、水质信息化监管、校园设施物联网信息化改造、停车…

经常混淆的ADC输入类型!

大家好,这里是大话硬件。 这篇文章我们来聊聊ADC的输入类型。 ADC的输入类型根据ADI的官网,分为了3种类型,单端,差分,伪差分。如下图快速选型的界面所示。 同时,TI的官网对ADC的输入类型划分也是同样的3种类型。 可见,两个器件厂家对ADC的输入类型都是这样定义的。 …

FPGA早鸟课程第二弹 | Vivado 设计静态时序分析和实际约束

在FPGA设计领域,时序约束和静态时序分析是提升系统性能和稳定性的关键。社区推出的「Vivado 设计静态时序分析和实际约束」课程,旨在帮助工程师们掌握先进的设计技术,优化设计流程,提高开发效率。 课程介绍 关于课程 权威认证&…

目标检测——YOLOv10算法解读

论文:YOLOv10: Real-Time End-to-End Object Detection (2024.5.23) 作者:Ao Wang, Hui Chen, Lihao Liu, Kai Chen, Zijia Lin, Jungong Han, Guiguang Ding 链接:https://arxiv.org/abs/2405.14458 代码:https://github.com/THU…

Kimichat使用案例019:15个Kimichat提示词案例

文章目录 一、扮演招聘经理二、扮演英语教师三、文章修改润色四、模仿特定作者写文章五、扮演任何一个角色六、像董宇辉一样介绍一本书七、写商业计划书的大纲八、头脑风暴九、总结文章十、推荐书籍十一、写电子邮件十二、学习Python编程十三、Python编程十四、制作菜谱十五、写…

【Python/Pytorch 】-- 滑动窗口算法

文章目录 文章目录 00 写在前面01 基于Python版本的滑动窗口代码02 算法效果 00 写在前面 写这个算法原因是:训练了一个时序网络,该网络模型的时序维度为32,而测试数据的时序维度为90。因此需要采用滑动窗口的方法,生成一系列32…

一种稀疏贝叶斯学习的旋转机械故障诊断方法(MATLAB)

轴承的故障诊断技术是通过检测轴承故障特征信息来判断轴承的具体故障为位置或损伤程度。在轴承发生损坏时,故障特征信息会随着工作时间的增长变得明显。轴承的损坏过程可以分为四个阶段。第一个阶段为损伤初始阶段,轴承故障特征信号一般无法测量。第二个…