基于梯度提升决策树的组合特征方法，《百面机器学习》学习笔记

news2026/2/12 21:52:35

《百面机器学习》学习笔记：基于梯度提升决策树的组合特征方法

基于梯度提升决策树的组合特征方法
- 梯度提升决策树
- 这里举一个例子来说明梯度提升决策树的思想方法
- 假设对于某种类型的输入，经过上述介绍的梯度提升决策树构建流程得到的模型如下图所示

基于梯度提升决策树的组合特征方法

梯度提升决策树

梯度提升决策树（Gradient Boosting Decision Trees）是一种集成学习方法，它通过逐步迭代地训练决策树模型来提高预测性能。该方法的原理可以分为两个主要部分：梯度提升和决策树。

梯度提升（Gradient Boosting）
梯度提升是一种迭代的优化过程，通过逐步优化模型的损失函数来提高模型的预测能力。它基于前一轮迭代的模型的预测结果和真实标签之间的残差（即差异），来训练下一轮迭代的模型。具体步骤如下：
a. 首先，使用一个初始的弱模型（如决策树）作为基础模型进行预测。
b. 计算基础模型的预测结果与真实标签之间的残差。
c. 使用这些残差作为目标值，训练下一个弱模型，以尝试减少这些残差。
d. 将当前模型的预测结果与新模型的预测结果相加，形成一个新的预测结果。
e. 重复步骤b-d，直到达到预先定义的迭代次数或损失函数收敛。

决策树（Decision Trees）
决策树是一种基本的机器学习模型，它通过一系列的决策规则对数据进行分类或回归。在梯度提升中，决策树被用作弱模型，也称为弱学习器。每一轮迭代中，都会训练一个新的决策树来捕捉之前模型预测的残差。决策树的生成过程如下：
a. 首先，选择一个特征和切分点，将数据集划分为两个子集。
b. 使用某种准则（如最小化基尼指数或最小化均方差）来确定最佳的特征和切分点。
c. 递归地重复步骤a-b，直到达到预定义的停止条件（如达到最大深度或节点中的样本数量小于某个阈值）。
d. 每个叶节点上的值为该叶节点中样本的平均值（对于回归问题）或多数类别（对于分类问题）。

梯度提升决策树通过反复迭代上述两个步骤，每一轮迭代都试图减少前一轮模型的残差，从而提高整体模型的预测性能。在每一轮迭代中，新的决策树被训练来捕捉前一轮模型预测的残差，然后将其加入到模型中，形成一个更强大的集成模型。

最终的模型是所有迭代过程中生成的决策树的加权和，其中每棵树的权重取决于其在迭代过程中的性能表现。在预测阶段，新样本通过依次经过所有决策树，并将它们的预测结果相加，得到最终的预测值。

这里举一个例子来说明梯度提升决策树的思想方法

假设任务为使用现有的训练数据集来拟合一个模型，使其具有根据房屋面积来预测房屋价格的能力。

给出训练数据如下：

房屋面积	价格（标签）
1000	550000
1500	650000
2000	720000
2500	820000
3000	900000

在初始阶段，首先选定一个基本的弱模型，这里选择决策树模型作为基础模型。然后使用上述5组数据的价格平均数作为初始的模型预测值，那么初始的预测值如下表所示：

房屋面积（特征）	价格（标签）	初始预测价格
1000	550000	704000
1500	650000	704000
2000	720000	704000
2500	820000	704000
3000	900000	704000

然后，使用当前模型的预测结果与真实标签之间的残差，即实际价格和预测价格之间的差值。然后，这些残差将成为下一轮模型迭代的目标值。

房屋面积（特征）	价格（标签）	初始预测价格	残差
1000	550000	704000	-154000
1500	650000	704000	-54000
2000	720000	704000	16000
2500	820000	704000	116000
3000	900000	704000	196000

接着，使用上述表格中的残差作为目标值，训练一个新的决策树来捕捉这些残差的模式。新的决策树将尝试减少上一轮模型的残差。

当新的决策树训练完成之后，可以将其预测结果与之前的预测结果相加，得到一个新的预测结果如下表所示。

房屋面积（特征）	价格（标签）	初始预测价格	残差	新预测价格
1000	550000	704000	-154000	550000
1500	650000	704000	-54000	596000
2000	720000	704000	16000	720000
2500	820000	704000	116000	820000
3000	900000	704000	196000	900000

然后，继续计算新预测价格与真实标签之间的残差，再次作为目标值。

房屋面积（特征）	价格（标签）	初始预测价格	残差	新预测价格	新残差
1000	550000	704000	-154000	550000	0
1500	650000	704000	-54000	596000	54000
2000	720000	704000	16000	720000	0
2500	820000	704000	116000	820000	0
3000	900000	704000	196000	900000	0

然后进行下一轮的迭代，训练另外一个决策树来捕捉新残差的模式，并将其预测结果与之前的预测结果相加。

不断重复上述过程，每一轮迭代都试图减少前一轮模型的残差，直到达到预先定义的迭代次数或损失函数收敛。

最终得到的模型为所有迭代中生成的决策树模型的加权和，其中每棵树的权重取决于其在迭代过程中的性能表现。

假设对于某种类型的输入，经过上述介绍的梯度提升决策树构建流程得到的模型如下图所示

在这里插入图片描述
上图引自《百面机器学习》，图中为典型决策树。其中，共有四种特征组合方式：
（1）用户类型=付费用户+年龄 $\leq$ 40；
（2）用户类型=付费用户+物品类型=食品；
（3）年龄 $\leq$ 35+物品类型=护肤；
（4）年龄 $\leq$ 35+性别=女；

现在给出两个样本，分别如下：

是否点击	年龄	性别	用户类型	物品类型
是	28	女	免费	护肤
否	36	男	付费	食品

那么按照上述四种特征组合方式来说，上表中第一个样本可以编码为（0,0,1,1），因为该样本只满足（3）（4）组合特征，但并不满足（1）（2）组合特征；同理，对于上表中的第二个样本可以编码为（1,1,0,0），因为该样本同时满足（1）（2）组合特征，但不满足（3）（4）组合特征。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/528918.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

开源的表单系统效果怎么样？

开源的表单系统效果怎么样？

当前，开源的表单系统得到了企业的重视和喜爱，因为它的简洁、灵活、便捷等优势特点，助力企业提质增效，各部门之间的协作沟通效率得到提升，数据资源也获得了有效整理和应用。今天，我们就一起来看看开源的表单…

阅读更多...

不愧是腾讯，问的贼细

不愧是腾讯，问的贼细

腾讯软件测试岗位的面试流程可能会因个人经验和公司而异，但通常情况下，腾讯软件测试的面试分为初试、二面、三面和四面。以下是每一轮面试可能涉及到的问题： 初试： 请介绍一下自己，以及为什么想要加入腾讯软件测试团…

阅读更多...

oracle 学习之 unpivot/pivot函数及hive实现该功能

oracle 学习之 unpivot/pivot函数及hive实现该功能

Oracle中pivot函数详解_实泽有之，无泽虚之的博客-CSDN博客pivot函数格式：pivot(聚合函数 for 需要转为列的字段名 in(需要转为列的字段值))；pivot函数说明：实现将指定字段的值转换为列的效果。https://blog.csdn.net/qq_40018576/…

阅读更多...

最新DNDC模型在土地利用变化、未来气候变化下的建模方法及温室气体时空动态模拟实践技术应用

最新DNDC模型在土地利用变化、未来气候变化下的建模方法及温室气体时空动态模拟实践技术应用

由于全球变暖、大气中温室气体浓度逐年增加等问题的出现，“双碳”行动特别是碳中和已经在世界范围形成广泛影响。。DNDC（Denitrification-Decomposition，反硝化-分解模型）是目前国际上最为成功的模拟生物地球化学循环的模型之一&a…

阅读更多...

Flutter报错Building with plugins requires symlink support的解决方法

Flutter报错Building with plugins requires symlink support的解决方法

错误 Building with plugins requires symlink support. Please enable Developer Mode in your system settings. Runstart ms-settings:developers to open settings. 原因这个错误表示你的系统尚未启用开发者模式,所以无法使用Flutter的插件功能。 Flutter插件会通过符号…

阅读更多...

OJ刷题第十六篇（递推较多，难）

OJ刷题第十六篇（递推较多，难）

31012 - 贴瓷砖时间限制 : 1 秒内存限制 : 32 MB 有一块大小是 2 * n 的墙面，现在需要用2种规格的瓷砖铺满，瓷砖规格分别是 2 * 1 和 2 * 2，请计算一共有多少种铺设的方法。输入输入的第一行包含一个正整数T（T<20&…

阅读更多...

第十三章使用DHCP动态管理主机地址

第十三章使用DHCP动态管理主机地址

文章目录第十三章使用DHCP动态管理主机地址一、动态主机地址管理协议1、DHCP简介2、DHCP常见术语二、部署DHCP服务程序1、安装DHCP服务程序2、配置文件参考模板3、dhcpd服务程序配置文件中常见参数及作用三、自动管理IP地址1、机房所用的网络地址以及参数信息2、关闭虚拟网…

阅读更多...

Agisoft Metashape 红外影像处理

Agisoft Metashape 红外影像处理

系列文章目录文章目录系列文章目录前言一、加载红外影像二、对齐照片三、构建 DEM四、生成 DOM五、温度值可视化前言 Agisoft Metashape 专业版支持处理来自 AscTec（ARA 格式）、WIRIS（TIFF 格式）热成像仪和以 R-JPEG（FLIR 数据）格式保存数据的热成像数据。在本文中，…

阅读更多...

如何编写自动化测试用例，一篇带你解决

如何编写自动化测试用例，一篇带你解决

自动化测试脚本什么是自动化测试？ 自动化测试是验证和验证软件是否满足所有用户需求，并使用自动化工具按预期运行。它检查在产品开发阶段期间和之后出现的错误、问题和其他类型的缺陷。这种类型的软件测试运行在由测试工具处理的编程脚本上。有多种测…

阅读更多...

linux基础（IO）

linux基础（IO）

目录： 1.复习C文件IO相关操作 2.介绍C程序会默认打开3个输入输出流 3.学习文件的系统调用接口 ---------------------------------------------------------------------------------------------------------------------------- 1.复习C文件IO相关操作 fopen函数…

阅读更多...

HTTP协议格式及 fiddler 的使用

HTTP协议格式及 fiddler 的使用

HTTP 协议格式简述 HTTP 协议fiddler(抓包工具) 的使用协议格式总结 : 简述 HTTP 协议 HTTP 协议是个使用非常广泛的应用层协议, 应用层协议通常是需要 “自定义协议” 的, 自定义协议可以基于现有协议进行定制, HTTP 之所以应用广泛就是因为其可定制性非常强. 日常生活中遇到…

阅读更多...

网络安全工程师的岗位需求，破237万了！

网络安全工程师的岗位需求，破237万了！

3月底凌晨，腾讯QQ和微信的相关业务都出现了功能异常。包括微信语音对话、朋友圈、微信支付，以及QQ文件传输、QQ空间和QQ邮箱在内的多个功能无法使用。这事儿都听说了吧？ 据报道，这次的事故是因为电信机房冷却系统故障导致。 …

阅读更多...

Linux安装Tomcat搭建Jenkins

Linux安装Tomcat搭建Jenkins

前提条件由于Tomcat服务器主要用于部署java web项目。所以先安装java jdk。安装过程大家应该很轻车熟练了。一、安装Tomcat 创建/usr/tomcat文件夹 mkdir -p /usr/tomcat下载tomcat安装包 wget https://archove.apache.org/dist/tomcat/tomcat-8/v8.0.23/bin/apache-tomcat…

阅读更多...

umi4 实现msal aad 登录loginRedirect方式并获取令牌

umi4 实现msal aad 登录loginRedirect方式并获取令牌

在 Umi 4 中使用 Ant Design Pro Layout 以及 MSAL (Microsoft Authentication Library) 实现登录并获取令牌进入到首页，你需要按照以下步骤进行操作： 安装所需依赖： 使用 npm 或 yarn 安装所需的包： npm install azure/msal-bro…

阅读更多...

从零开始Vue3+Element Plus后台管理系统(十)——自定义水印指令与全局注册

从零开始Vue3+Element Plus后台管理系统(十)——自定义水印指令与全局注册

在实际项目开发中，自定义指令用得还是比较多的，比如：复制粘贴、输入框防抖、输入框禁止特殊字符、权限校验、背景水印、拖拽等等… 指令确实是个优雅的存在。 Vue3中定义一个普通的自定义指令的详细说明参见官网：https://cn.vue…

阅读更多...

sentinel配置持久化到apollo

sentinel配置持久化到apollo

背景 sentinel-dashborad的配置默认是存储到内存中的，生产环境肯定不能这样使用，官网支持zookeeper、nacos、apollo的配置，本文就来介绍apollo的持久化 apollo sentinel-dashboard 整合 apollo 进行规则的持久化配置，主要方式是…

阅读更多...

Kettle获取接口数据到表

Kettle获取接口数据到表

kettle从接口服务获取数据主要用到kettle输入菜单下的控件：生成记录、JSON input 查询菜单下的控件：HTTP client 输出菜单下的控件：表输出、插入/更新生成记录：设置一个变量，用这个变量来保存要去访问接口的URL地址…

阅读更多...

数据结构学习之队列

数据结构学习之队列

前言：在我们学习了栈之后，明白了它的结构的特殊性即LAST IN FIRST OUT(后进先出)，与之相对应的也有一个特殊的结构队列（queue）--FIRST IN FIRST OUT(先进先出)，他们都是面对特殊情况下的数据的结构&#xf…

阅读更多...

支持导入 Postman ，用这个插件就可以了

支持导入 Postman ，用这个插件就可以了

首先安装导入 Postcat 插件，之后就可以愉快的导入 Postman 格式的文件了。右上角——选择导入——选择Postman 格式——拖入文件导入即可！再也不用担心 Postcat 格式的 api 文件能把自己难住了！ 如果你日常会用到 api 管理工具的话&#x…

阅读更多...

5G和物联网将如何重塑汽车行业？物联网将给汽车行业带来哪些变革？

5G和物联网将如何重塑汽车行业？物联网将给汽车行业带来哪些变革？

“ 物联网(Internet of Things)的诞生给无数行业带来了变革，其中就包括汽车行业。物联网对于汽车发展的重要性是毋庸置疑的。从网联汽车到智能交通系统，物联网正在为汽车行业开辟下一个汽车时代。汽联网(Internet of Vehicles)正在成型。” 我们今天看到…

阅读更多...

推荐文章

最新文章