融合模型stacking14条经验总结和5个成功案例(互联网最全,硬核收藏)_机器学习_人工智能_模型竞赛_论文参考

news2025/1/16 10:58:32

我看了很多关于融合模型stacking文章,很多作者倾向于赞美融合模型stacking,对其缺点轻描淡写,这容易误导初学者。一叶障目就是这意思。

我的很多学员喜欢用融合模型作为论文或专利创新点,这是一个热门技术。

最近有个同学在论文建模咨询中问到融合模型stacking真的可靠吗?这一问让我深思,我觉得写这篇文章让大家更清楚认识融合模型stacking。这篇文章是我数年长期实验对融合模型stacking经验总结。写这篇文章也花了半个月时间,大部分实验用于实验。这篇文章比较长,涉及内容比较多,实验数据集比较多,估计短时间难以看完,大家可以先收藏此文章,以后慢慢琢磨,帮助大家少走万年坑。

此文章比较适合融合模型爱好者,模型竞赛参赛者,正在写论文,专利学员。

stacking堆叠或堆叠泛化是一种集成机器学习算法。

它使用元学习算法来学习如何最好地结合来自两个或多个基础机器学习算法的预测。

堆叠的好处是它可以利用一系列性能良好的模型在分类或回归任务上的能力,并可能做出比集成中任何单个模型性能更好的预测。大家注意我说的是可能,不是绝对。

下图是融合模型的算法流程图,我们看到子模型(base model)是读取所有训练数据training data,而不是每个子模型只读取训练数据的一部分。因此前期可以多加入子模型进行观察。

最终训练的融合模型就像一个真正模型,具有预测能力,分类能力,回归能力。

之前发布过文章
《模型竞赛大杀器-融合模型(stacking)》介绍融合模型stacking,具体细节大家可以去看看。

1.融合模型stacking难以应用于商业模型

因为融合模型stacking堆叠集成的计算时间比单个机器学习模型要长得多。商业公司模型要考虑算法复杂度,时间成本和可解释性,这些都是融合模型stacking的痛点。之前kaggle模型竞赛有位国外选手用融合模型stacking夺冠,但主办方资助公司并未采纳,就是因为融合模型的子模型太多,非常耗时,难以应用于实际业务。

2.融合模型stacking在学术界论文大受欢迎

融合模型stacking的缺点也可以成为优点,那就是用于学术界,特别是论文发布用。我们接触过大量论文咨询,学术界的很多同仁认为模型越复杂,价值越高。他们眼中深度学习模型段位就是高于机器学习和统计模型。这都是误区,模型算法选择要与实际结合,看场景和具体数据集,没有完全准确的通用套路。学术界同仁很多没有商业模型从业经验,这是可以理解的。因此我看多过大量融合模型相关论文。融合模型stacking可以由大量子模型组成,存在诸多组合情况,也能创造大量论文创新点。

3.scikit-learn和mlxtend库

scikit-learn和mlxtend库提供了 Python 中堆叠集成的标准实现。scikit-learn和mlxtend库各有优劣。scikit-learn库优点是可以用逻辑回归作为元模型(第二层模型)。mlxtend库在运行stacking融合模型时速度更快,但运用逻辑回归,支持向量机外的模型作为元模型会报错。

4.融合模型stacking实验时间成本高

很多子模型有着不同数据预处理方法,例如支持向量机,神经网络需要对数据的缺失值填充,数据平滑处理,但集成学习算法不需要。集成学习直接用原始数据可能得到更好效果。

子模型不同数据预测逻辑造成融合模型实验多样性和次数增加,从而增加了时间成本。

5.融合模型性能并非一定能高于子模型

互联网上很多关于融合模型介绍会传递一个误区,那就是融合模型性能一定高于单一模型。我们建模后,应该用融合模型提升性能。但实时并非如此,我们在大量实验中发现很多时候融合模型难以提升,性能反而不如子模型,而且还消耗大量时间实验。

例如在对乳腺癌数据集实验中,我们发现融合模型auc为 0.9820,反而不如上述子模型。

但我们加入KNN,lightgbm子模型后,融合模型性能有的大幅提升,并且超越所有子模型。

我们看到大量论文中描述融合模型性能优于子模型,那是作者花了大量时间实验,测试出一组固定子模型搭配,得到融合模型性能提升的结论。你看的的子模型组合不是偶然,而是大量时间实验后精心筛选的结果。

6.融合模型性能提升具体指标

我们在大量实验中,发现融合模型提升准确率accuracy和f1分数的概率高于AUC。你用一组子模型融合后可以提升某个指标,但不保证能提升所有指标。

7.融合模型提升技巧-cv参数运用

Stratified英文意思是分层的,stratifiedkfold翻译成中文就是分层K折交叉验证。当数据集目标变量是非平衡数据时,cross validation交叉验证在划分数据时会遇到不够随机情况,例如好客户划分比例高,坏客户划分比例少,甚至一个都没分到。

stratifiedkfold有利于非平衡数据处理。如果选择Stratified K折交叉验证,那每次训练时交叉验证会保证原始标签中的类别比例,训练标签的类别比例,验证标签的类别比例一致。

下图是stratifiedkfold算法流程图,我们可见class目标变量有三个分类,不同分类都有均匀的交叉验证抽样。

我们在调用cross_val_score函数时,记得输入cv参数,一般选择5或10。输入任意整数,表示在Stratified K折验证中的折数。因此cv参数非常智能化,可以帮我们自动解决目标变量非平衡数据处理难题。数据集不大时,cv10模型性能可能好于cv5。

scores = model_selection.cross_val_score(clf, X, y,  
                                              cv=5, scoring='roc_auc')

8.融合模型提升技巧-元模型meta_classifier选择

对于大多数学员,我推荐逻辑回归作为元模型meta_classifier。在部分数据集实验中,其他算法为元模型效果不如逻辑回归好。在以乳腺癌数据集为案例,我用逻辑回归为元模型得到融合模型为auc 0.9959,用支持向量机为元模型得到融合模型AUC为0.982.

和一些朋友交流中,也发现例外,他们数据集有时用集成树算法作为元模型获得更好融合模型性能。融合模型参数太多,一切以自己实验结果为准。

9.融合模型提升技巧-子模型数量恰到好处

我们在实验中发现融合模型stacking的子模型并非越多越好,或越少越好,恰到好处才最好。

我们用了KNN,随机森林等9个子模型来搭建融合模型,AUC为0.9953,

我们精简子模型数量后,用了6个子模型搭建融合模型,AUC为0.9957,远高于9个子模型大家的融合模型AUC。这说明融合模型的子模型不是越多越好。

10.融合模型提升技巧-删除最弱子模型,融合模型可以提升

我们在实验融合模型时,可以先尽可能增加子模型数量,然后观察哪些子模型性能较弱,删除明显拖后腿的子模型,融合模型可以提升。如下图决策树子模型AUC为0.91,高斯贝叶斯AUC为0.98,明显低于其他子模型性能,删除这两个子模型后,融合模型AUC从0.9953提升到0.9957。我们在诸多实验中,发现决策树和高斯贝叶斯模型性能太差,当然这可能和我们实验样本有关。不排除在某些数据集上,这两个算法有良好表现。

11.融合模型提升技巧-预测的类概率用于元模型训练

元分类器可以在预测的类标签上训练,也可以在预测的类概率训练。我们用level1模型预测的类概率到level2元模型里,可以得到更好融合模型性能。如果用预测的类标签效果,融合模型效果很差。

这逻辑很简单,大家思考一下,类标签结果很少,如果是二分类模型,类标签只有0和1;如果我们选择概率预测,结果是从0-1的小数。因此类概率得到多样性可以很好让模型学习,提升模型性能。

大家只要把设置use_probas=True,就可以设置类概率用于元模型训练。

sclf = StackingClassifier(classifiers=[clf1,clf2,clf3,clf4,clf5,clf6],              
                          meta_classifier=lr,use_probas=True)

12.融合模型提升技巧-多样性实验

某些理论称子模型之间的差别越大、彼此之间就越独立,融合模型提升空间越大。这理论可以解释,元模型一般为逻辑回归,逻辑回归要求去掉相关性高的变量。

多个高相关性变量有时候反而拖累模型性能。当子模型相关性越低,逻辑回归发挥空间越大。集成树算法对变量相关性要求没有这么高,可以适当放松一些。大家可以实验一下,如果元模型为集成树算法,子模型独立性要求还是否成立?

上述只是理论,实际测试中差异较大,各位学员以实际测试为准,这里只做参考。

我看了菜菜老师视频,她对多样性解释很细致,具体如下:

12.1.样本多样性:使用相同变量建模,但每次训练时抽样出不同的样本子集进行训练。当数据量较小时,抽样样本可能导致模型效果急剧下降。

12.2·变量多样性:使用相同变量矩阵,但每次训练时抽样出不同的特征子集进行训练。当特征量较小时,抽样特征可能导致模型效果急剧下降。

我们可以使用pipeline封装方法获取数据集的部分变量来训练。

12.3·随机多样性/训练多样性:使用相同的算法,但使用不同的随机数种子random_state((会导致使用不同的特征、样本、起点)、或使用不同的损失函数、使用不同的不纯度下降量等。

12.4·算法多样性:增加类型不同的算法,如集成、树、概率、线性模型相混合。但需要注意的是,模型的效果不能太糟糕,无论是投票还是平均法,如果模型效果太差,可能大幅度降低融合的结果。

13.融合模型提升技巧-速度提升

融合模型使用交叉验证,速度非常慢。如果遇到小的数据集还好;如果遇到大的数据集,需要慎重选择子模型。假设我们数据集非常大,又想节约时间,SVM和catboost算法可以去掉,这两个子模型非常耗时。SVM对大的数据集需要很长时间训练,catboost是对称树算法,训练数据也很耗时。

数据集中噪音变量或意义不大变量可以删除,这样可以减少数据集维度,提升模型训练时间。

Python读取Excel表格数据速度要慢于csv数据,我们尽量调用pandas的read_csv()函数读取数据,这样可以节省大量时间。如果数据集特别大,也可用pickle包保存,读取时候速度较快。

总之,变量筛选,算法筛选,csv数据读取这3个方面都可以提升融合模型训练速度。

14.融合模型提升技巧-数据标准化处理

数据集方差较大时,我们子模型预测能力有很大差异。在医疗领域,数据集方差很小,比如年龄,血常规检测,数值一般从0-100分布。但在金融领域,数据方差非常大,比如张三月收入是5000元,比尔盖茨月收入是5000亿。当数据方差较大时,子模型较多独立性较强时,我们需要对数据标准化处理,缩小数据方差。如果子模型都是集成树算法,就不需要数据标准化处理。Toby老师一般优雅的称数据标准化处理为平滑处理,处理后数据更加顺滑,不会大起大落。

Python处理代码很简单,调用sklearn包的preprocessing.scale()函数即可

from sklearn import preprocessing
X= preprocessing.scale(X)

stacking融合模型成功案例

stacking融合模型成功案例1-乳腺癌细胞数据集

乳腺癌细胞数据集有三十多个变量,用于建立乳腺癌细胞识别模型。

威斯康辛乳腺癌数据集,Toby老师用knn,Random Forest,CatBoost,neuron network,xgboost,lightgbm六个子模型大家stacking融合模型,融合模型AUC高于所有子模型。

Toby老师用knn,Random Forest,CatBoost,neuron network,xgboost,lightgbm,svm七个子模型搭建的融合模型,融合模型的accuracy高于任何子模型。

Toby老师用knn,Random Forest,neuron network,xgboost,svm五个子模型搭建的融合模型,融合模型f1分数性能高于任何子模型。

乳腺癌十大经典机器学习建模代码和完整融合模型代码可以通过《python机器学习-乳腺癌细胞挖掘》获取。


stacking融合模型成功案例2-天池糖尿病数据集

天池糖尿病数据集用于建立糖尿病风险预测模型,有几个个变量,数据量5000多。

Toby老师用Random Forest,adaboost,gradientboost 3个子模型搭建的融合模型,融合模型f1分数性能高于任何子模型。

融合模型f1分数性能提升比AUC容易得多,而且不需要太多子模型。

Toby老师用Random Forest,adaboost,xgboost 3个子模型搭建的融合模型,融合模型auc分数性能高于任何子模型。在建模前,Toby老师用中位数填充缺失数据,做了一定数据预处理后,才有此效果。

天池糖尿病数据集在accuracy准确率提升方面比较难,Toby老师花了大量时间实验,先用中位数填充缺失值,然后用knn,neuron network,xgboost,svm四个子模型搭建的融合模型,融合模型accuracy分数性能高于任何子模型。

这四个子模型算法原理差异大,保证了算法多样性,实验效果也不错。

下图是Toby老师对子模型和融合模型accuracy指标的可视化,主要由箱型图体现。我们看到融合模型accuracy最高。

stacking融合模型成功案例3-lending club数据集

lending club是美国知名金融科技公司,有120多个变量,数据量上百万,共十年左右数据集。属于金融风控领域数据集,适用于银行,消费金融公司,助贷公司,金融科技公司。

Toby老师仅用lightgbm,catboost,xgboost三个子模型搭建融合模型,显著提升f1分数。

由于lendingclub数据集比较大,Toby老师时间有限。如何用Toby老师传授经验来提升accuracy和AUC就当成大家课后作业来完成。

如果大家对lending club机器学习建模感兴趣,可以通过《python风控建模实战lendingClub》
获取。


stacking融合模型成功案例4-联想子公司翼龙贷p2p数据集

翼龙贷已在全国一百多个地级市设立运营中心,覆盖上千个区、县及近万个乡镇,并将在全国众多的一、二线城市建立全国性的服务网络。通过这一平台,可以帮助信用良好的且有不同需求的人群解决资金短缺问题,同时能够为有财富增值需求的客户将手中的富余资金进行较高回报的投资。翼龙贷主要贷款对象为帮助三农家庭、个体工商户、小微企业主。由于金融监管要求,P2P必须转型,目前翼龙贷放款已经逐步减少。

Toby老师仅用lightgbm,catboost,xgboost三个子模型搭建融合模型,显著提升f1分数。

stacking融合模型成功案例5-克罗恩致病基因挖掘模型

克罗恩病,又称局限性肠炎、局限性回肠炎、节段性肠炎和肉芽肿性肠炎,是一种原因不明的肠道炎症性疾病,在胃肠道的任何部位均可发生,但多发于末端回肠和右半结肠。和慢性非特异性溃疡性结肠炎两者统称为炎症性肠病(IBD)。临床表现为腹痛、腹泻、肠梗阻,伴有发热、营养障碍等肠外表现。病程多迁延,反复发作,不易根治。尚无根治的一般方法,许多病人出现并发症时,需进行手术治疗。复发率与病变范围、病症侵袭的强弱、病程的延长、年龄的增长等因素有关。

很多名人都有克罗恩疾病患病史,

1.NBA现役骑士队当家球员小拉里·南斯是曾经的NBA扣篮王老南斯的儿子,继承父志在球场上驰骋的他就是一名克罗恩病患者。小南斯15岁时换上克罗恩病,这种病让小南斯的食欲大减、精神不振,开始变得嗜睡,没有精力投入到篮球和学业中去,同时直接导致了他身高停止增长,一度让他产生放弃篮球的念头。

2.2004年时,时任美国波士顿市市长梅尼诺在观看棒球比赛时,因为吃花生米而导致剧烈腹痛,送医就诊后也被确认患上了克罗恩病。

3.最知名的是二战时期的盟军最高统帅、五星上将,后来的美国总统艾森豪威尔,在竞选开始前6个月,他接受了克罗恩病手术。

4.被追授为“时代楷模”的中科院上海药物研究所研究院、博导王逸平生前就长期遭受克罗恩病的折磨,从1993年确诊到2018年因病去世,25年间王逸平带病坚持搞科研,与死神争夺时间,身后留下的是一个中药现代化的光明图景。

得了克罗恩病的痛苦,是一般人所无法知道的。克罗恩病的症状包括慢性腹泻、腹痛、体重减轻、食欲不振、发烧和直肠出血、肠梗阻、关节痛等,严重影响生活质量。患者会因吃不下饭和腹泻而导致身体虚弱,会因关节疼痛而无法运动,会完全改变饮食习惯。加上自身不能控制的频繁如厕和排气,连正常的社会交往都会存在障碍。Toby老师以为克罗恩病非常罕见,但随着数据查询,发现该病患病率逐年上升,哔哩哔哩就有很多自称克罗恩疾病患者,发视频分享他们患病生活。

Toby老师仅用lightgbm,catboost,xgboost三个子模型搭建融合模型,提升accuracy准确率。

Toby老师还通过数据挖掘,找出克罗恩致病的高危基因,后续有时间再为大家介绍。Toby和中科院教授合作过慢病项目,看着曾经罕见病逐年增多,不得不感叹,大家各自保重,爱惜自己身体,工作恰到好处,不要太拼了。


Toby老师还有更多stacking融合模型成功案例,后续会陆续更新。欢迎大家关注和收藏课程《python金融风控评分卡模型和数据分析微专业课》。

版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/658674.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式之单例模式笔记

设计模式之单例模式笔记 说明Singleton(单例)目录单例模式之饿汉式-静态成员变量写法测试类 单例模式之饿汉式-静态代码块写法测试类 单例模式之懒汉式-线程不安全写法和线程安全写法测试类 单例模式之懒汉式-双重检查锁方式(推荐使用的方式)单例模式之懒汉式-静态内部类方式(推…

Mysql数据库之存储引擎(羡慕她人,不如提升自己)

一、存储引擎概念 MySQL中的数据用各种不同的技术存储在文件中,每一种技术都使用不同的存储机制、索引技巧、锁定水平并最终提供不同的功能和能力,这些不同的技术以及配套的功能在MySQL中称为存储引擎。 存储引擎是MySQL将数据存储在文件系统中的存储方…

ELK日志收集系统简述

一、概述 (一)ELK由三个组件构成 ELK是三个开源软件的缩写,分别是Elasticsearch、Logstash、Kibana ELK 架构基本组成 (二)作用 1、日志收集 2、日志分析 3、日志可视化 (三)为什么使用EL…

计网之应用层

因特网协议概述 常用协议应用层HTTP(超文本传输协议)、FTP(文件传输协议)、SMTP(简单邮件传输协议)、DNS(域名系统)、DHCP(动态主机配置协议)、SNMP&#xff…

15-6.自定义组件的代码共享

在微信小程序中使用 behaviors 进行代码共享,功能类似于vue的mixins 每个behavior可以包含一组属性、数据、生命周期函数和方法 每个组件可以引用多个behavior,behavior也可以引用其他的behavior 目录 1 创建behavior 2 使用behavior 3 behavio…

机器学习融合模型stacking14条经验总结和5个成功案例(互联网最全,硬核收藏)

我看了很多关于融合模型stacking文章,很多作者倾向于赞美融合模型stacking,对其缺点轻描淡写,这容易误导初学者。一叶障目就是这意思。 我的很多学员喜欢用融合模型作为论文或专利创新点,这是一个热门技术。 最近有个同学在论文…

MySQL:七种 SQL JOINS 的实现(图文详解)

MySQL:7种SQL JOINS的实现 前言一、图示表示二、代码举例1、INNER JOIN(内连接)2、LEFT JOIN(左连接)3、RIGHT JOIN(右连接)4、OUTER JOIN(全连接)5、LEFT EXCLUDING JOI…

微信小程序入门学习02-TDesign中的自定义组件

目录 1 显示文本2 自定义组件3 变量定义4 值绑定总结 我们上一篇讲解了TDesign模板的基本用法,如何开始阅读模板。本篇我们讲解一下自定义组件的用法。 1 显示文本 官方模板在顶部除了显示图片外,还显示了一段文字介绍。文字是嵌套在容器组件里&#xf…

数据库的操作

前言 在之前的文章中,我们已经了解了什么是数据库,以及为什么有数据库,和数据库有什么作用,有了这些宏观概念之后,本章为大家进一步详细介绍对于数据库在Linux上如何具体操作。 1.创建数据库 1.1创建数据库语法 语法…

读书:《敏捷软件开发工具----精益开发方法》

《敏捷软件开发工具----精益开发方法》(Lean Software Development: An Agile Toolkit)由Mary Poppendieck和Tom Poppendieck合著,2003年出版,尽管已经有20个年头了,但书中的理念和方法仍然具有很高的实践价值&#xf…

SpringBoot2概览-运维实用篇

知识点 使用SpringBoot提供的maven插件可以将工程打包成可执行jar包然后执行&#xff0c;即java –jar xxx.jar&#xff0c;下面的图是MANIFEST.MF文件的内容&#xff1a; <build><plugins><plugin><groupId>org.springframework.boot</groupId>…

【MySQL】如何速通MySQL(3)

&#x1f4cc;前言&#xff1a;本篇博客介绍如何速通MySQL的第二篇&#xff0c;主要介绍Mysql中主要的基础的入门&#xff0c;学习MySQL之前要先安装好MySQL&#xff0c;如果还没有安装的小伙伴可以看看博主前面的博客&#xff0c;里面有详细的安装教程。或者看一下下面这个链接…

136-nago

PEID查看你程序有没有壳&#xff0c;发现是汇编语言程序 打开程序&#xff0c;我们发现程序是由Nag提示窗口的。 我们先进行去Nag提示。 进入回调函数&#xff0c;进行分析 保存修改到文件。 重新打开文件&#xff0c;我们发现没有Nag窗口。 再次使用OD进行附加进行分析。…

项目中遇到的问题总结(四)

GateWay和Nginx的相同点和不同点在哪里&#xff1f; Gateway 和 Nginx 都是常见的反向代理服务器&#xff0c;它们的相同点和不同点如下&#xff1a; 相同点&#xff1a; 都可以作为反向代理服务器&#xff0c;接收来自客户端的请求并转发到后端服务器进行处理。 都支持负载均…

67、C#调用Visual Studio 2019生成的Paddle+OCR(使用ncnn库),去完成业务任务

基本思想&#xff1a;这里使用飞哥写的android代码&#xff0c;将其取出纯c代码逻辑&#xff0c;自己尝试转了paddleocr模型&#xff0c;可以成功转换&#xff0c;不在详细阐述生成ncnn模型的过程和写后处理ocr识别过程&#xff0c;这里要实现的目的是使用c#调用ncnn的ocr工程&…

Ps修改文字

第一步&#xff1a;打开ps软件&#xff0c;选择菜单栏“文件”中的“打开”选项。 第二步&#xff1a;在弹出的“打开”对话框中&#xff0c;选择一张需要修改文字的图片&#xff0c;单击“打开”按钮。 第三步&#xff1a;在左侧工具栏中&#xff0c;选择“仿制图章工具”。 第…

【Python 随练】输出 9*9 口诀

题目&#xff1a; 输出 9*9 口诀 简介&#xff1a; 在本篇博客中&#xff0c;我们将使用 Python 代码输出 9*9 口诀表。口诀表是一个常见的数学乘法表格&#xff0c;用于展示从 1 到 9 的乘法结果。我们将给出问题的解析&#xff0c;并提供一个完整的代码示例来生成这个口诀…

全志V3S嵌入式驱动开发(USB camera驱动)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 soc和mcu的一个重要区别&#xff0c;就是soc会涉及到大量的音视频操作&#xff0c;当然音视频也就包括了camera摄像头这部分。v3s本身支持csi接口和…

webpack优化代码运行之Code split

一、 什么是code split Webpack的code split是一种技术&#xff0c;它能够将代码分割成多个块&#xff0c;从而优化应用程序的性能。这样做可以实现按需加载和并行加载&#xff0c;从而减少初始化时间和请求次数。Code split在Webpack中通过使用entry语法和各种Loader和插件来…

享元模式:减少内存占用的诀窍

一&#xff0c;概要 享元模式&#xff08;Flyweight Pattern&#xff09;是一种结构型设计模式&#xff0c;它主要通过共享对象来降低系统中对象的数量&#xff0c;从而减少内存占用和提高程序性能。这听起来有点像单例模式&#xff0c;但它们在实现和用途上有很大的区别。享元…