堆叠聚合模型与单独的逻辑回归模型处理非平衡数据的比较

news2024/9/21 2:48:29

堆叠聚合模型与单独的逻辑回归模型处理非平衡数据的比较

堆叠聚合模型的设计是通过训练多个模型,然后使用原模型,将多个模型的输出结果整合在一起以实现更准确的预测。这叠聚合模型在多个临床场景上都表现出优于单一模型的效能[1]。是构建临床预测模型过程中值得考察的一种算法。这里使用的堆叠聚合模型是堆叠了逻辑回归和随机森林两个模型。
非平衡数据是指结局变量中的类别比例不均匀,有的类别的数量会远远少于其他的类别,而医学数据往往是非平衡的数据,比如肿瘤转移患者的数量往往是小于肿瘤不转移患者的数量。
这里使用SEER来源的食管癌非平衡数据构建堆叠聚合模型,并与单纯的逻辑回归模型进行比较,体现堆叠聚合模型在处理非平衡数据中的一些特点。

1.整体评价方面
许多研究都提到对接聚合模型可以在区分度优于单一的模型。而对于非平衡数据来说,有的意见推荐使用PRC曲线来替代ROC曲线来比较模型之间的效能。图1所示,在食管癌数据中,ROC曲线下面积(AUROC)和PRC曲线下面积(AUPRC),堆叠聚合模型都是高于逻辑回归模型。
在这里插入图片描述

图1. 模型的整体评价。ABC逻辑回归模型的评价参数;DEF堆叠聚合模型的评价参数。
2.局部评价方面
对于非平衡数据来说,有的资料会推荐使用局部评价[2]。如图2所示,这里使用局部ROC曲线下面积和局部PRC曲线下面积来进行评价,结果上有一些不一致,堆叠聚合模型在局部ROC曲线下面积高于逻辑回归模型,但是在局部PRC曲线下面积的结果反之。局部评价参数用于非平衡数据的评价还有待于进一步发展,表现在其计算的方法还没有统一。这里使用的局部ROC曲线下面积的计算是参考文献中的计算方法[2]。
在这里插入图片描述

图2.模型的局部评价。ABC逻辑回归模型的评价参数;DEF堆叠聚合模型的评价参数。红线标注局部评价的阈值范围0.02~0.2。
3.校准度评价
非平衡数据对校准度的影响比较大,即使是逻辑回归模型也不能获得一个很好的校准度。这时候需要进行概率校正。概率校准比较常用的一个办法就是保序回归(isotonic regression)。此次分析过程中值得一提的一个发现,就是叠聚合模型的不需要进行概率的校准就能够达到一个比较良好的校准度,体现在校准曲线上就是预测的曲线和实际的理想的曲线比较贴合(图2F),甚至优于经过概率校准的单一的逻辑回归模型。但是当我们使用H-L 检验,对校准度进行评价的时候逻辑回归和堆叠聚合模型的结果都是P<0.05,代表校准度不佳。校准曲线是H-L检验结果之间的矛盾如何进行解释并没有答案,但是校准曲线是似乎是更加全面的一种评价,应该以校准曲线的结果为准。所以这里倾向于认为堆叠聚合模型可以产生一个比较理想的校准度。

总之,堆叠聚合模型是在临床预测模型过程中非常是值得考察的一个算法。

参考文献:
[1]Hwangbo L, Kang YJ, Kwon H, Lee JI, Cho HJ, Ko JK, Sung SM, Lee TH. Stacking ensemble learning model to predict 6-month mortality in ischemic stroke patients. Sci Rep. 2022 Oct 17;12(1):17389. doi: 10.1038/s41598-022-22323-9. Erratum in: Sci Rep. 2022 Dec 21;12(1):22112. PMID: 36253488; PMCID: PMC9576722.

[2]Carrington AM, Fieguth PW, Qazi H, Holzinger A, Chen HH, Mayr F, Manuel DG. A new concordant partial AUC and partial c statistic for imbalanced data in the evaluation of machine learning algorithms. BMC Med Inform Decis Mak. 2020 Jan 6;20(1):4. doi: 10.1186/s12911-019-1014-6.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/888395.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java之juc二

JMM 请你谈谈对Volatile的理解 Volatile是jvm提供的轻量级的同步机制&#xff08;和synchronized差不多&#xff0c;但是没有synchronized那么强大&#xff09; 保证可见性不保证原子性禁止指令重排 什么是JMM JMM&#xff1a;java内存模型&#xff0c;不存在的东西&#…

UE_移动端测试使用

教程流程&#xff1a; 参照官方文档-android篇&#xff1a; https://docs.unrealengine.com/5.1/zh-CN/android-development-requirements-for-unreal-engine/https://docs.unrealengine.com/5.1/zh-CN/android-development-requirements-for-unreal-engine/ AS下载&#xf…

点云滤波介绍

一、介绍 1、Filtering a PointCloud using a PassThrough filter 2、Downsampling a PointCloud using a VoxelGrid filter 3、Removing sparse outliers using StatisticalOutlierRemoval 4、Projecting points using a parametric model 数据集&#xff1a;链接&#x…

mysql mysql 容器 忽略大小写配置

首先能够连接上mysql&#xff0c;然后输入下面这个命令查看mysql是否忽略大小写 show global variables like %lower_case%; lower_case_table_names 0&#xff1a;不忽略大小写 lower_case_table_names 1&#xff1a;忽略大小写 mysql安装分为两种&#xff08;根据自己的my…

移动端身份证识别技术的应用,告别手动录入证件信息

随着移动互联网的的发展&#xff0c;越来越多的公司都推出了自己的移动APP&#xff0c;这些APP多数都涉及到个人身份证信息的输入认证&#xff08;即实名认证&#xff09;&#xff0c;如果手动去输入身份证号码和姓名&#xff0c;速度非常慢&#xff0c;且用户体验非常差。为了…

MotionBERT:人体运动表征

MotionBERT&#xff1a;A Unified Perspective on Learning Human Motion Representations解析 摘要1. 简介2. Related Work2.1 学习人体运动表征2.2 3D人体姿态估计2.3 基于骨骼的动作识别2.3 人体网格恢复 3. Method3.1 Overview3.2 网络架构Spatial BlockTemporal BlockDual…

MybatisPlus整合p6spy组件SQL分析

目录 p6spy java为什么需要 如何使用 其他配置 p6spy p6spy是一个开源项目&#xff0c;通常使用它来跟踪数据库操作&#xff0c;查看程序运行过程中执行的sql语句。 p6spy将应用的数据源给劫持了&#xff0c;应用操作数据库其实在调用p6spy的数据源&#xff0c;p6spy劫持到…

Python项目中怎么实现异步任务和定时任务

这里写目录标题 一、异步任务:二、定时任务:三、Celery介绍特点:Celery由三部分构成:工作原理:安装Celery选择一个Broker:RabbitMQKafka和RabbitMQ的区别:定义一个任务定义第二个任务定义一个生产者(producer) 来 调用异步任务启动celery服务定义一个获取结果的类定时任…

Activiti6

一、Activiti介绍与搭建开发环境 二、运行官方例子 三、编写第一个Activiti程序 3.1 流程部署 代码 /*** 部署流程* 涉及到的表有&#xff1a; * 1.act_ge_bytearray 两条记录&#xff0c;一条xml数据&#xff0c;一条png图片信息 * 2.act_re_deployment 一条记录 * 3.a…

BBS项目day02、注册、登录(登录之随机验证码)、退出登录、密码加密加盐、首页(导航条、模态框,修改密码)

一、注册 1.注册之前端页面 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>注册页面</title><!--动态引入文件-->{% load static %}<script src"{% static js/jquery.min.js %…

深度开发者故事 | 华为云API Explorer 自动化运维的得力助手

华为云API Explorer为开发者提供一站式API解决方案统一平台&#xff0c;集成华为云服务所有开放API&#xff0c;支持全量快速检索、可视化调试、帮助文档、代码示例等能力&#xff0c;帮助开发者快速学习API&#xff0c;使用API开发代码实现自动化运维。 体验通道&#xff1a;…

企业数字化时代,数据要素是什么?有什么作用价值?

信息化、数字化社会加速到来&#xff0c;企业纷纷开始布局数字化转型&#xff0c;数字经济将成为未来世界中最为火热的新型经济。 数据报表作为企业数字化转型的代表节点之一&#xff0c;未来会成为数字化企业的基本配置。 要想企业全身心投入数据报表体系建设中&#xff0c;…

个性化定制界面与极简版原装界面:我们为什么选择个性化?

个性化定制界面和极简版原装界面&#xff0c;哪一个你用起来更加顺手呢&#xff0c;相比之下你更喜欢哪一个&#xff1f;来聊一聊原因吧&#xff01; 随着科技的不断发展&#xff0c;人们对于界面设计也有了越来越高的要求。而在界面设计领域&#xff0c;个性化定制界面和极简版…

rust入门系列之Rust介绍及开发环境搭建

Rust教程 Rust基本介绍 网站: https://www.rust-lang.org/ rust是什么 开发rust语言的初衷是&#xff1a; 在软件发展速度跟不上硬件发展速度&#xff0c;无法在语言层面充分的利用硬件多核cpu不断提升的性能和 在系统界别软件开发上&#xff0c;C出生比较早&#xff0c;内…

Qt表格数据处理

概述 在Qt表格数据处理中&#xff0c;涉及到如下几个具体的类&#xff1a; QAbstractItemModel&#xff1a;这是一个抽象基类&#xff0c;定义了模型&#xff08;Model&#xff09;的接口规范。所有的模型类都应该派生自QAbstractItemModel&#xff0c;并实现它的纯虚函数&…

学习电工有哪些好处?在哪学习电工?

学习电工有哪些好处&#xff1f;在哪学习电工&#xff1f;学习电工可以做什么&#xff1f;优势有哪些&#xff1f; 学习电工可以做什么&#xff1f;学习电工有哪些好处&#xff1f; 就业去向&#xff1a;可在企业单位从事电气设备的安装、调试、操作、维护等工作&#xff0c;…

GDP药品供应管理规范确保冷链运输合规性

药品运输面临许多挑战&#xff0c;包括产品可能因暴露在不利条件下导致降解。药品供应管理规范 (GDP) 运输指南在确保整个运输链的冷链合规性方面发挥着关键作用。 药品的分销与生产和制造生产线一样精细和敏感。自全球物流公司成立以来&#xff0c;配送过程中对受控环境的需求…

运维自动化与Cobbler服务部署

运维自动化与Cobbler服务部署 一.Cobbler简介1.1.简介1.2.Cobbler的下属服务1.3.工作流程 二.Cobbler安装2.1.安装epel源2.2.安装Cobbler及其相关的服务和组件 三.Cobbler配置3.1.Cobbler配置文件及各目录情况3.2.配置及启动cobblerd服务 四.Cobbler使用4.1用法4.2配置linux发行…

IIC总线原理

1. IIC总线概述 IIC总线 IIC总线是Philips公司在八十年代初推出的一种串行、半双工总线 主要用于近距离、低速的芯片之间的通信&#xff1b;IIC总线有两根双向的信号线一根数据线SDA用于收发数据&#xff0c;一根时钟线SCL用于通信双方时钟的同步&#xff1b;IIC总线硬件结构简…

elementPlus——图标引入+批量注册全局组件——基础积累

因为我们要根据路由配置对应的图标&#xff0c;也要为了后续方便更改。因此我们将所有的图标注册为全局组件。&#xff08;使用之前将分页器以及矢量图注册全局组件的自定义插件&#xff09;&#xff08;所有图标全局注册的方法element-plus文档中已给出&#xff09; 全局注册…