kaggle竞赛实战9——模型融合

news2025/1/14 1:08:11

有三种方法,

第一种:均值融合,代码如下

  data = pd.read_csv(\  result/submission_randomforest.csv\  ) 
      data['randomforest'] = data['target'].values 
       
      temp = pd.read_csv(\  result/submission_lightgbm.csv\  ) 
      data['lightgbm'] = temp['target'].values 
       
       
      temp = pd.read_csv(\  result/submission_xgboost.csv\  ) 
      data['xgboost'] = temp['target'].values 

   data['target'] = (data['randomforest'] + data['lightgbm'] + data['xgboost']) / 3  

data[['card_id','target']].to_csv("result/voting_avr.csv", index=False)  

发现简单的均值融合不能使模型效果提升

第二种:加权融合

加权融合的思路并不复杂,从客观计算流程上来看我们将赋予不同模型训练结果以不同权重,而具体权重的分配,我们可以根据三组模型在公榜上的评分决定,即假设模型A和B分别是2分和3分(分数越低越好的情况下),则在实际加权过程中,我们将赋予A模型结果3/5权重,B模型2/5权重,因此,加权融合过程如下:  
    data['target'] = data['randomforest']*0.2+data['lightgbm']*0.3 + data['xgboost']*0.5 
      data[['card_id','target']].to_csv('  result/voting_wei1.csv'  , index=False)

发现结果略有改善,但实际结果不如但模型结果

第三种:stacking

思路:比如你用了三种模型(XGBOOST,LIGHTGBM,RANDOMFOREST),每个模型都会将数据集分成五份进行交叉验证,并在验证集上进行预测得到五个验证结果,拼起来就是一个完整的验证结果,把三个模型验证结果竖向拼起来就是一个完整的验证结果,同理在测试集上做这个操作,得到的prediction_train和prediction_test就是二阶段训练的训练集和测试集

be18727607304102b98189224d5d1b57.png

  读入数据:oof是训练数据集的预测结果(也就是上面的prediction_train),而predictions则是单模型预测结果。

 oof_rf  = pd.read_csv('./preprocess/train_randomforest.csv') 
      predictions_rf  = pd.read_csv('./preprocess/test_randomforest.csv') 
       
      oof_lgb  = pd.read_csv('./preprocess/train_lightgbm.csv') 
      predictions_lgb  = pd.read_csv('./preprocess/test_lightgbm.csv') 
       
      oof_xgb  = pd.read_csv('./preprocess/train_xgboost.csv') 
      predictions_xgb  = pd.read_csv('./preprocess/test_xgboost.csv')  

  def stack_model(oof_1, oof_2, oof_3, predictions_1, predictions_2, predictions_3, y): 
          
          # Part 1.数据准备 
          # 按行拼接列,拼接验证集所有预测结果 
          # train_stack就是final model的训练数据 
          train_stack = np.hstack([oof_1, oof_2, oof_3]) 
          # 按行拼接列,拼接测试集上所有预测结果 
          # test_stack就是final model的测试数据 
          test_stack = np.hstack([predictions_1, predictions_2, predictions_3]) 

         # 创建一个和测试集行数相同的全零数组 
          predictions = np.zeros(test_stack.shape[0]) 
           
          # Part 2.多轮交叉验证 
          from sklearn.model_selection import RepeatedKFold 
          folds = RepeatedKFold(n_splits=5, n_repeats=2, random_state=2020) #5折交叉验证,两轮

          
          # fold_为折数,trn_idx为每一折训练集index,val_idx为每一折验证集index 
          for fold_, (trn_idx, val_idx) in enumerate(folds.split(train_stack, y)): 
              # 打印折数信息 
              print('  fold n°{}'  .format(fold_+1)) 
              # 训练集中划分为训练数据的特征和标签 
              trn_data, trn_y = train_stack[trn_idx], y[trn_idx] 
              # 训练集中划分为验证数据的特征和标签 
              val_data, val_y = train_stack[val_idx], y[val_idx] 
              # 采用贝叶斯回归作为结果融合的模型(final model) 
              clf = BayesianRidge() 
              # 在训练数据上进行训练 
              clf.fit(trn_data, trn_y) 
              # 在验证数据上进行预测,并将结果记录在oof对应位置 
              # oof[val_idx] = clf.predict(val_data) 
              # 对测试集数据进行预测,每一轮预测结果占比额外的1/10 
              predictions += clf.predict(test_stack) / (5 * 2) 
           
          # 返回测试集的预测结果 
          return predictions  

最终得到私榜分数3.627,公榜3.72,即staking比voting更有效

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1810777.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

独立游戏之路 -- 看看你是否适合做独立游戏?

独立游戏系列文章介绍 -- 分析你是否适合做独立游戏? 前言一,专栏介绍1.1 订阅须知1.2 关于作者1.3 文章累积 二, 为什么要做独立游戏?2.1 明确目标2.2 几个能力 三,你能独立到什么程度?3.1 设计3.2 美术3.…

IP纯净度对跨境电商有影响吗?

当我们谈论代理IP时,通常会提到一个重要概念,那就是“IP纯净度”。 IP纯净度是指代理IP服务中所提供的IP地址的质量、干净程度和安全性,纯净度高的IP地址通常具备低恶意软件攻击的风险、良好的访问效果、稳定性和速度以及隐私保护等特点。在…

牛客题目线段树

主要是操作三&#xff0c;怎么计算 那么只需要维护区间和和区间平方和即可&#xff0c;1/2用逆元 多个标记注意标记之间有没有影响&#xff0c;mod其实很简单的&#xff0c;但是我标记没处理好一直wa,mod乱搞一下&#xff0c;我mod很丑 #include<iostream> #include<…

根据阿里文档编写【springAI+通义千问】出现的 “Can not find api-key” 异常

昨天晚上照着阿里的文档开始了我的首次【springAI 通义千问】之旅&#xff0c;不料刚开始就被狠狠地搞了一下&#xff0c;主要原因是文档有误导致程序无法按着预期运行。 按着文档一步步配置好以后&#xff0c;启动后报错信息如下&#xff1a; 照着文档&#xff08;如下图&a…

脉动圆形加载动画

效果图: 完整代码: <!DOCTYPE html> <html> <head><meta charset="UTF-8" /><title>脉动圆形加载动画</title><style type="text/css">body {background: #ECF0F1;display: flex;justify-content: center;al…

AI大模型:未来5~10年的技术革命与机遇

引言 在当今科技飞速发展的时代&#xff0c;AI大模型无疑成为了一个热门话题。它不仅仅是一个技术名词&#xff0c;更是未来5&#xff5e;10年内不可避免的技术革命。AI大模型以其强大的数据处理能力、深度学习能力以及广泛的应用前景&#xff0c;正在改变我们的生活和工作方式…

人大京仓数据库关闭大小写敏感

人大京仓数据库关闭大小写敏感 1、先删除data&#xff08;Kingbase\ES\V8\&#xff09;文件夹下的所有文件夹 2、接着找到initdb.exe所在位置&#xff0c;我的位置是在这里D:\Kingbase\ES\V8\Server\bin&#xff0c;然后输入cmd,运行一下 initdb -E UTF-8 -D C:\Kingbase\ES…

秋招突击——6/10——复习{(树形DP)树的最长路径、}——新作{电话号码的字母组合}

文章目录 引言复习树形DP——树的最长路径思路分析参考思路求图的最长的直径的通用方法证明 树形DP分析方法问题 参考代码使用一维数组模拟邻接表存储树形结构或者稀疏图 新作电话号码的组合思路分析参考实现 总结 引言 中间面试了两天&#xff0c;去上海呆了一天&#xff0c;…

1992-2012年美国西海岸的海面高度异常数据集

Gridded Altimeter Fields with Enhanced Coastal Coverage 具有增强海岸覆盖范围的网格化测高场 简介 具有增强的海岸覆盖范围的网格化高度计场数据产品包含美国西海岸的海面高度异常&#xff08;SSHA 或 SLA&#xff09;以及北纬 35.25 度-48.5 度和东经 227.75 度-248.5 …

Java版商城:Spring Cloud+SpringBoot b2b2c实现多商家入驻、一件代发及免 费小程序商城搭建

1. 涉及平台 平台管理、商家端&#xff08;pc端、手机端&#xff09;、买家平台&#xff08;h5/公众号、小程序、app端&#xff08;ios/android&#xff09;、微服务平台&#xff08;业务服务&#xff09; 2. 核心架构 spring cloud、spring boot、mybatis、redis 3. 前端框架…

PHP短链接短网址生成源码

下载地址&#xff1a;PHP短链接短网址生成源码 V3.0(11月14日更新) 1.更换用户中心模板 2.首页可以更换模板&#xff08;暂时只有俩套&#xff09; 3.增加首页背景更换 4.logo可以在后台设置 5.更换后台模板 6.优化访问统计功能 7.删除了几个没什么用的东西 8.数据表已支持全…

ARM32开发--串口库封装(初级)

知不足而奋进望远山而前行 目录 文章目录 前言 目标 内容 开发流程 文件目录创建 分组创建 接口定义 完整代码 总结 前言 在嵌入式软件开发中&#xff0c;封装抽取流程和抽取封装策略是非常重要的技术&#xff0c;能够提高代码的复用性和可维护性。本文将介绍如何在文…

操作系统安全:Windows系统安全配置,Windows安全基线检查加固

「作者简介」&#xff1a;2022年北京冬奥会网络安全中国代表队&#xff0c;CSDN Top100&#xff0c;就职奇安信多年&#xff0c;以实战工作为基础对安全知识体系进行总结与归纳&#xff0c;著作适用于快速入门的 《网络安全自学教程》&#xff0c;内容涵盖系统安全、信息收集等…

使用 C# 学习面向对象编程:第 4 部分

C# 构造函数 第 1 部分仅介绍了类构造函数的基础知识。 在本课中&#xff0c;我们将详细讨论各种类型的构造函数。 属性类型 默认构造函数构造函数重载私有构造函数构造函数链静态构造函数析构函数 请注意构造函数的一些基本概念&#xff0c;并确保你的理解非常清楚&#x…

Spring Boot 分片上传、断点续传、大文件上传、秒传,应有尽有

文件上传是一个老生常谈的话题了&#xff0c;在文件相对比较小的情况下&#xff0c;可以直接把文件转化为字节流上传到服务器&#xff0c;但在文件比较大的情况下&#xff0c;用普通的方式进行上传&#xff0c;这可不是一个好的办法&#xff0c;毕竟很少有人会忍受&#xff0c;…

怎么隐藏文件夹?4个方法保护文件!

“我在使用电脑时&#xff0c;想将一个比较重要的文件夹隐藏&#xff0c;但是不知道应该怎么操作&#xff0c;请大家给我出出主意。” 在数字化时代&#xff0c;我们的电脑和手机中存储着大量个人信息和敏感数据。其中&#xff0c;一些文件夹可能包含了不愿被他人轻易发现的私密…

【全篇】C语言从入门到入土

【全篇】C语言从入门到入土 文章目录 【全篇】C语言从入门到入土第一章 前言如何去学习&#xff0c;学习方法论 第二章 初识1.代码编译工具2.c程序的基础框架3.数据的表现形式变量1.要先定义后使用&#xff08;变量名的定义是由自己决定的&#xff0c;一般倾向于顾文生义&#…

Bankless:为什么 AI 需要 Crypto 的技术?

原文标题&#xff1a;《Why AI Needs Crypto’s Values》 撰文&#xff1a;Arjun Chand&#xff0c;Bankless 编译&#xff1a;Chris&#xff0c;Techub News 原文来自香港Web3媒体&#xff1a;Techub News 人工智能革命的梦想一直是一把双刃剑。 释放人工智能的潜力可以解…

MySQL高性能(MySQL锁)

MySQL性能系列 MySQL锁 前言1. 死锁机制2. 思维导图与锁划分介绍3. 粒度划分锁3.1. 全局锁3.2. 页级锁&#xff08;Page-level locking&#xff09;3.3. 表级锁&#xff08;Tables-level lock&#xff09;○ 共享锁&#xff08;表级&#xff09;○ 排他锁&#xff08;表级&…

JS 实现动态规划

function getPaths(m, n) {// m * n 二维数组&#xff0c;模拟网格const map new Array(m)for (let i 0; i < m; i) {map[i] new Array(n)}// 如果只走第一行&#xff0c;就只有一条路径。所以第一行所有 item 都填充 1map[0].fill(1)// 如果只走第一列&#xff0c;也只有…