堆叠聚合模型是处理非平衡数据的理想算法

news2024/10/3 0:32:16

堆叠聚合模型是处理非平衡数据的理想算法

堆叠聚合模型的设计是通过训练多个模型,然后使用原模型,将多个模型的输出结果整合在一起以实现更准确的预测。这叠聚合模型在多个临床场景上都表现出优于单一模型的效能[1]。是构建临床预测模型过程中值得考察的一种算法。这里使用的堆叠聚合模型是堆叠了逻辑回归和随机森林两个模型。
非平衡数据是指结局变量中的类别比例不均匀,有的类别的数量会远远少于其他的类别,而医学数据往往是非平衡的数据,比如肿瘤转移患者的数量往往是小于肿瘤不转移患者的数量。
这里使用SEER来源的食管癌非平衡数据构建堆叠聚合模型,并与单纯的逻辑回归模型进行比较,体现堆叠聚合模型在处理非平衡数据中的一些特点。

1.整体评价方面
许多研究都提到对接聚合模型可以在区分度优于单一的模型。而对于非平衡数据来说,有的意见推荐使用PRC曲线来替代ROC曲线来比较模型之间的效能。图1所示,在食管癌数据中,ROC曲线下面积(AUROC)和PRC曲线下面积(AUPRC),堆叠聚合模型都是高于逻辑回归模型。
在这里插入图片描述

图1. 模型的整体评价。ABC逻辑回归模型的评价参数;DEF堆叠聚合模型的评价参数。
2.局部评价方面
对于非平衡数据来说,有的资料会推荐使用局部评价[2]。如图2所示,这里使用局部ROC曲线下面积和局部PRC曲线下面积来进行评价,结果上有一些不一致,堆叠聚合模型在局部ROC曲线下面积高于逻辑回归模型,但是在局部PRC曲线下面积的结果反之。局部评价参数用于非平衡数据的评价还有待于进一步发展,表现在其计算的方法还没有统一。这里使用的局部ROC曲线下面积的计算是参考文献中的计算方法[2]。
在这里插入图片描述

图2.模型的局部评价。ABC逻辑回归模型的评价参数;DEF堆叠聚合模型的评价参数。红线标注局部评价的阈值范围0.02~0.2。
3.校准度评价
非平衡数据对校准度的影响比较大,即使是逻辑回归模型也不能获得一个很好的校准度。这时候需要进行概率校正。概率校准比较常用的一个办法就是保序回归(isotonic regression)。此次分析过程中值得一提的一个发现,就是叠聚合模型的不需要进行概率的校准就能够达到一个比较良好的校准度,体现在校准曲线上就是预测的曲线和实际的理想的曲线比较贴合(图2F),甚至优于经过概率校准的单一的逻辑回归模型。但是当我们使用H-L 检验,对校准度进行评价的时候逻辑回归和堆叠聚合模型的结果都是P<0.05,代表校准度不佳。校准曲线是H-L检验结果之间的矛盾如何进行解释并没有答案,但是校准曲线是似乎是更加全面的一种评价,应该以校准曲线的结果为准。所以这里倾向于认为堆叠聚合模型可以产生一个比较理想的校准度。

总之,堆叠聚合模型是在临床预测模型过程中非常是值得考察的一个算法。

参考文献:
[1]Hwangbo L, Kang YJ, Kwon H, Lee JI, Cho HJ, Ko JK, Sung SM, Lee TH. Stacking ensemble learning model to predict 6-month mortality in ischemic stroke patients. Sci Rep. 2022 Oct 17;12(1):17389. doi: 10.1038/s41598-022-22323-9. Erratum in: Sci Rep. 2022 Dec 21;12(1):22112. PMID: 36253488; PMCID: PMC9576722.

[2]Carrington AM, Fieguth PW, Qazi H, Holzinger A, Chen HH, Mayr F, Manuel DG. A new concordant partial AUC and partial c statistic for imbalanced data in the evaluation of machine learning algorithms. BMC Med Inform Decis Mak. 2020 Jan 6;20(1):4. doi: 10.1186/s12911-019-1014-6.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/918963.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

听GPT 讲Alertmanager源代码--api

在Alertmanager项目中&#xff0c;api目录承担了与Alertmanager的API相关的功能和实现。下面是api目录中一些主要文件和作用的详细解释&#xff1a; api.go: 这个文件定义了Alertmanager的API接口&#xff0c;包括路由和处理API请求的函数。它定义了与Alertmanager交互的各种AP…

生信豆芽菜-样本分布比较的圈图

网址&#xff1a;http://www.sxdyc.com/visualsPieComparePlot 1、数据准备 样本的分组信息&#xff0c;其中第一列为需要比较组&#xff0c;其他都是默认和第一个进行比较 2、输入图片的宽度和高度&#xff0c;选择颜色的类型&#xff0c;提交后&#xff0c;等待运行成功即可…

C#开发WinForm之DataGridView开发

前言 DataGridView是开发Winform的一个列表展示&#xff0c;类似于表格。学会下面的基本特征用法&#xff0c;再辅以经验&#xff0c;基本功能开发没问题。 1.设置 DataGridView表格行首为序号索引, //设置 DataGridView表格行首为序号索引private void dataGridView1_RowPost…

WinDbg定位死锁问题

文章目录 方法1方法2方法3 方法1 1、首先确认下是哪个进程出现死锁的情况&#xff0c;如界面卡死、点击没有反应等&#xff0c;抓取对应进程的dump 2、查看是否存在 0:000> kv ChildEBP RetAddr Args to Child 0019f3b8 77736b0c 77722253 00000108 0000000…

JavaWeb-学习目录

技术栈介绍 文章目录 1.数据库&#xff1a;1.1 Mysql1.2 JDBC1.3 Maven1.4 Mybatis 2.前端2.1 HTMLCSSJS2.2 AjaxVueElementUI 3. Web核心3.1 TomcatHttpServlet3.2 RequestResponse3.3 JSP3.4 CookieSession3.5 FilterListener 1.数据库&#xff1a; 1.1 Mysql mysql&#…

HBase--技术文档--基本概念--《快速扫盲》

官网 Apache HBase – Apache HBase™ Home 阿里云hbase 云数据库HBase_大数据存储_订单风控_数据库-阿里云 云数据库 HBase-阿里云帮助中心 基本概念 HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。它基于Hadoop&#xff0c;采用列式存储方式&#xff0c;可…

JAVA毕业设计095—基于Java+Springboot+Vue的酒店管理系统(源码+数据库)

基于JavaSpringbootVue的酒店管理系统(源码数据库)095 一、系统介绍 本系统前后端分离(网页端和app端都有) 本系统分为管理员、酒店管理员、酒店员工、用户四种角色(角色菜单可自行分配) 用户功能&#xff1a; 注册、登录、酒店搜索、酒店列表、酒店预订、我的收藏、我的订…

C语言刷题(15)

第一题 第二题 第三题 第四题 第五题 第六题 注意点 1.异或满足交换律 2.两个相同的数字异或之后为0 第七题

遭多家知名对冲基金大肆抛售,财务面临挑战,百度能重新起飞吗?

来源&#xff1a;猛兽财经 作者&#xff1a;猛兽财经 总结&#xff1a; &#xff08;1&#xff09;百度&#xff08;BIDU&#xff09;的“萝卜快跑”订单量在2023年第一季度增长了三倍多&#xff0c;在开放道路上提供了近66万次服务。 &#xff08;2&#xff09;百度的目标是提…

python 面向对象的属性,类方法,静态方法,实例方法的区别及用法详解

一. 前言 在Python的面向对象编程中&#xff0c;类属性和实例属性是两个不同的概念&#xff0c;它们在作用域和使用方式上有所区别。Python中的面向对象编程中有三种方法&#xff1a;实例方法、类方法和静态方法&#xff0c;它们之间的差异主要体现在参数传递和调用方式上。 …

【高危】WPS Office 远程代码执行漏洞(WPSSRC-2023-0701绕过) (MPS-qjky-hw9x)

zhi.oscs1024.com​​​​​ 漏洞类型代码注入发现时间2023-08-22漏洞等级高危MPS编号MPS-qjky-hw9xCVE编号-漏洞影响广度广 漏洞危害 OSCS 描述 WPS Office 软件是由金山办公软件股份有限公司自主研发的一款办公软件套装。 由于对 WPSSRC-2023-0701 的修复不充分&#xff0c;…

Hive面试自学版

1.什么是HIVE&#xff1f; Hive是由Facebook开源&#xff0c;基于Hadoop的一个数据仓库工具&#xff0c;可以将结构化的数据文件映射为一张表&#xff0c;并提供类SQL查询功能。 Hive是一个基于Hadoop的数据仓库工具&#xff0c;可以将结构化数据文件映射为一张表&#xff0c;…

SpringBoot 2.7 集成 Netty 4 模拟服务端与客户端通讯入门教程

文章目录 1 摘要2 核心 Maven 依赖3 核心代码3.1 服务端事务处理器 (DemoNettyServerHandler)3.2 服务端连接类(InitNettyServer)3.3 客户端事务处理器(DemoNettyClientHandler)3.4 客户端连接类(DemoNettyClient) 4 测试4.1 测试流程4.2 测试结果4.3 测试结论 5 推荐参考资料6…

Datax、Datax-web 安装部署

Datax安装&#xff08;Windows&#xff09; 1、源码地址&#xff1a;GitHub - alibaba/DataX: DataX是阿里云DataWorks数据集成的开源版本。 2、下载安装包并解压&#xff08;安装前需有jdk、python开发环境&#xff09;&#xff1a;https://github.com/alibaba/DataX/archiv…

游戏开发服务器选型的横向对比

来源一个某乎的作者&#xff0c;貌似来自台湾 上篇介绍了go版本的游戏服务器&#xff0c;这篇介绍下其它语言版本&#xff1a; SkynetkbengineNoahGameFramePomeloPinusET使用的语言C/LuaCCNodejsTypeScriptC#概述云风前辈开源的框架mmo框架server一个快速的、可扩展的、分布…

【Prometheus】概述及部署

目录 Prometheus 概述 Prometheus 的生态组件 Prometheus 的工作模式 Prometheus 的工作流程 Prometheus 的局限性 部署 Prometheus Prometheust Server 端安装和相关配置 部署 Exporters 监控 MySQL 配置示例 监控 Nginx 配置示例 部署 Grafana 进行展示 部署 Pro…

Java如何调用接口API并返回数据(两种方法)

Java如何调用接口API并返回数据&#xff08;两种方法&#xff09; java处理请求接口后返回的json数据-直接处理json字符串 处理思路&#xff1a; 将返回的数据接收到一个String对象中&#xff08;有时候需要自己选择性的取舍接收&#xff09; 再将string转换为JSONObject对象 …

Shiro学习总结

第一章 入门概述 1.概念 shiro是一个Java安全框架&#xff0c;可以完成&#xff1a;认证、授权、加密、会话管理、与web集成、缓存… 2.优势 ● 易于使用&#xff0c;构建简单 ● 功能全面 ● 灵活&#xff0c;可以在任何应用程序环境中工作&#xff0c;并且不需要依赖它们…

log4框架

1.log4cplus基本元素 Layouts &#xff1a;控制输出消息的格式。 Appenders &#xff1a;输出位置。 Logger &#xff1a;日志对象。 Priorities &#xff1a;优先权&#xff0c;包括TRACE, DEBUG, INFO, WARNING, ERROR, FATAL。 2.log4cplus基本结构 3. 使用步骤&am…

2023年7月最新道路矢量数据(全国/分省/分城市)

2023年7月最新道路矢量数据&#xff08;全国/分省/分城市&#xff09; 道路数据是我们在各项研究中经常使用的数据&#xff01;道路数据虽然很常用&#xff0c;但是却基本没有能下载最近年份道路数据的网站&#xff0c;所以很多人不知道如何获到道路数据。 本次我们为大家推…