必看项目|多维度揭示心力衰竭患者生存关键因素(生存分析、统计检验、随机森林)

news2024/11/17 15:51:41

1.项目背景

心力衰竭是一种严重的公共卫生问题,影响着全球数百万人的生活质量和寿命,心力衰竭的病因复杂多样,既有个体生理因素的影响,也受到环境和社会因素的制约,个体的生活方式、饮食结构和医疗状况在很大程度上决定了其心力衰竭的风险。在现代社会,随着生活水平的提高和医疗技术的进步,人们的寿命显著延长,但心血管疾病的发病率也在逐年增加,高盐、高脂饮食、不规律的作息和缺乏运动等不健康的生活方式是心力衰竭的主要诱因。此外,心理因素如压力、焦虑和抑郁等也会加重心力衰竭的风险。随着人口老龄化趋势的加剧,心力衰竭问题变得尤为突出。

本项目通过可视化分析对心力衰竭患者的数据进行初步探索,再通过绘制Kaplan-Meier生存曲线和建立Cox比例风险回归模型进行生存分析,探讨导致患者死亡的主要因素。同时,通过斯皮尔曼相关性分析、t检验和卡方检验,从统计角度进一步验证这些因素的显著性。最后,建立随机森林模型,预测患者死亡的概率,并分析模型的重要特征,以此帮助医疗机构和患者制定更有效的预防和治疗策略。

2.数据说明

列名(英文) 列名(中文) 说明
Age 年龄 记录患者的年龄,心脏病的风险随年龄增长而增加。
Anaemia 贫血 贫血可能影响心脏功能,记录患者是否患有贫血。
High blood pressure 高血压 高血压是心脏病的主要风险因素之一。
Creatinine phosphokinase (CPK) 肌酸激酶 血液中的CPK水平可以反映心肌损伤。
Diabetes 糖尿病 糖尿病与心脏病风险增加有关。
Ejection fraction 射血分数 心脏每次收缩时泵出的血液百分比,是心脏功能的重要指标。
Sex 性别 性别可能影响心脏病的风险和表现形式。
Platelets 血小板 血小板水平可能与血液凝固和心脏病风险相关。
Serum creatinine 血清肌酐 血液中的肌酐水平可以反映肾脏功能,与心脏病风险有关。
Serum sodium 血清钠 钠水平的异常可能与心脏疾病相关。
Smoking 吸烟 吸烟是心脏病的一个重要可预防风险因素。
Time 时间 记录患者的随访期,用于观察长期健康变化。
Death event 死亡事件 记录患者在随访期间是否发生了死亡事件,作为研究的主要结果指标。

3.Python库导入及数据读取

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from lifelines import KaplanMeierFitter,CoxPHFitter
import scipy.stats as stats
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import RandomOverSampler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report,confusion_matrix,roc_curve, auc
import warnings
warnings.filterwarnings('ignore')
data = pd.read_csv(r'D:\Desktop\商业数据分析案例\心衰患者特征数据集\heart_failure_clinical_records_dataset.csv')

4.数据预览

查看数据维度

(299, 13)

查看数据信息

查看各列缺失值

查看重复值

0

查看分类特征的唯一值

绘制箱线图,查看是否存在异常值

数据集包含299条记录和13个特征列,不存在缺失值与重复值,分类特征不存在异常值,箱线图中年龄分布较正常,无明显异常值;血液中肌酸激酶水平: 存在明显的异常高值,可能需要进一步确认是否为测量误差或特殊病例;心脏每次收缩时泵出的血液百分比: 分布较集中,无明显异常值;血液中的血小板数量: 存在一些较低或较高的异常值;血液中的肌酐水平: 有较高的异常值,可能需要医学解释;血液中的钠水平: 有少量低值和高值,但这些可能是临床上正常的变异范围;随访期: 分布较正常,无明显异常值。

从统计图表来看,存在潜在的异常值。由于医学数据的复杂性,这里不采取剔除或进一步分析这些数据点。

5.描述性分析

数值特征统计信息

  1. 年龄 (age)

    • 平均值:60.84
    • 标准差:11.89
    • 最小值:40
    • 最大值:95
  2. 肌酸激酶 (creatinine_phosphokinase)

    • 平均值:581.84
    • 标准差:970.29
    • 最小值:23
    • 最大值:7861
  3. 射血分数 (ejection_fraction)

    • 平均值:38.08
    • 标准差:11.83
    • 最小值:14
    • 最大值:80
  4. 血小板 (platelets)

    • 平均值:263358.03
    • 标准差:97804.24
    • 最小值:25100
    • 最大值:850000
  5. 血清肌酐 (serum_creatinine)

    • 平均值:1.39
    • 标准差:1.03
    • 最小值:0.5
    • 最大值:9.4
  6. 血清钠 (serum_so

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1716754.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

利用英特尔 Gaudi 2 和至强 CPU 构建经济高效的企业级 RAG 应用

检索增强生成 (Retrieval Augmented Generation,RAG) 可将存储在外部数据库中的新鲜领域知识纳入大语言模型以增强其文本生成能力。其提供了一种将公司数据与训练期间语言模型学到的知识分开的方式,有助于我们在性能、准确性及安全隐私之间进行有效折衷。…

计算机网络-Traffic-Filter流量过滤策略

一、概述 为提高网络安全性,管理人员需要控制进入网络的流量,将不信任的报文丢弃在网络边界。所谓的不信任报文是指对用户来说存在安全隐患或者不愿意接收的报文。同时保证数据访问安全性,企业网络中经常会要求一些部门之间不能相互访问。 背…

金融行业专题|超融合对国密卡和国产加密技术的支持能力如何?

目前,不少金融机构都使用国密卡(满足国密算法要求的加密卡)和国产密码解决方案保障金融信息安全。而在传统虚拟化架构下,单块加密卡通常只能服务一个系统,经常会出现资源利用率低、加密处理性能不足等问题,…

神经网络与深度学习——第14章 深度强化学习

本文讨论的内容参考自《神经网络与深度学习》https://nndl.github.io/ 第14章 深度强化学习 深度强化学习 强化学习(Reinforcement Learning,RL),也叫增强学习,是指一类从与环境交互中不断学习的问题以及解决这类问题…

最简单的安卓模拟器抓包?

安装模拟器抓包似乎是有个绕不开的话题,但是现在普遍的安卓模拟器抓包会遇到以下问题: 1.证书配置繁琐 2.模拟器不兼容软件 3.系统设置繁琐。 前几天写过一次微信小程序如何抓包,现在来讲一下模拟器怎么抓包吧。首先使用的工具还是TangGo测…

开源集运wms系统

集运WMS系统是一种专为集运业务设计的仓库管理系统,它能够高效地处理来自多个来源的货物,优化存储和发货流程。 经过长时间的开发和测试,推出了我的集运WMS系统。它不仅具备传统WMS系统的所有功能,还针对集运业务的特点进行了特别…

Python轻量级的插件框架库之pluginbase使用详解

概要 在软件开发中,插件系统是一个常见的需求。插件系统允许开发者动态加载和卸载功能模块,从而提高应用程序的灵活性和可扩展性。Python的pluginbase库是一个轻量级的插件框架,旨在简化插件系统的构建过程。pluginbase库提供了一套简单易用的API,使开发者能够快速集成插件…

初步研究Pose_300W_LP datasets.py

mat文件参数解读 Color_para:颜色参数,用于描述图像的颜色属性,比如图像的亮度、对比度等信息。 亮度属性、对比度属性、饱和度属性(颜色越鲜艳)、色调属性(色调越偏向蓝色)、色温属性&#xf…

结构体(自定义类型)

1.结构体 结构体这种自定义的数据类型,让程序员可以自己创造适合的类型 结构是一些值的集合,这些值称为成员变量,结构的每个成员可以是不同类型的变量,可以是标量,数组,指针甚至是其他结构体 1.1.1 结构…

六西格玛培训:企业逆袭的秘密武器!——张驰咨询

为了提升企业的运营效率、产品质量和客户满意度,六西格玛培训成为了一个不可或缺的环节。以下是企业成功实施六西格玛培训的关键步骤: 一、清晰设定培训目标 首先,企业应明确六西格玛培训的具体目标,如提升产品质量、降低成本、…

武汉城投城更公司与竹云科技签署战略协议,携手构建智慧城市新未来!

2024年5月16日,武汉城投城更公司与深圳竹云科技股份有限公司(以下简称“竹云”)签订战略合作协议,双方将深入推进产业项目合作。 签约现场,双方围绕产业项目合作方向、路径和内容等进行了全面深入交流。城投城更公司党…

Windows和Linux系统部署Docker(2)

目录 一、Linux系统部署docker 前置环境: 1.安装需要的软件包, yum-util 提供yum-config-manager功能 2.添加阿里云 docker-ce 仓库 3.安装docker软件包 4.启动 docker并设置开机自启 5.查看版本: 二、windows系统部署docker 1.查看…

如何用unittest帮你快速生成自动化测试报告?

🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一直以来很多使用 pythonunittest 做自动化测试的的小伙伴都在想,unittest 这个官方库…

MFC工控项目实例之一主菜单制作

1、本项目用在WIN10下安装的vc6.0兼容版实现。创建项目名为SEAL_PRESSURE的MFC对话框。在项目res文件下添加相关256色ico格式图片。 2、项目名称:密封压力试验机 主菜单名称: 系统参数 SYS_DATA 系统测试 SYS_TEST 选择型号 TYP_CHOICE 开始试验 TES_STA…

Tasker+SendSilentMail实现钉钉自动打卡

Tasker 允许用户根据自定义的“配置文件”(Profiles),在特定的“背景”(Contexts)下,执行指定的“任务”(Tasks)。以下是关于Tasker的详细介绍: 强大的自定义能力:用户可以根据自己的需求,创建各种配置文件和任务&…

vwmare虚拟机我已复制和我已移动的区别

问题 此虚拟机可能已被移动或复制。 为了配置特定的管理和网络功能,WMware Workstation需要知道是否已移动或复制了此虚拟机。 如果您不知道,请回答“我已复制该虚拟机(P)” 我已复制 意味着复制出了一个完全相同的副本。 这两个副本可以运行在一台物理…

Linux 服务器配置 SSH 服务登录失败处理

任务目标 配置 Linux 服务器ssh远程登录失败处理机制,防止黑客爆破服务器密码 操作步骤 备份原配置文件 $ sudo cp /etc/pam.d/sshd /etc/pam.d/sshd.bak $ sudo cp /etc/ssh/sshd_config /etc/ssh/sshd_config.bak安装 pam_tally2 统计登陆失败次数 # 对于Debia…

CyberDAO M级共识交流会·西安站圆满落幕:共筑Web3美好未来

CyberDAO M级共识交流会于2024年5月28日在西安隆重举行,这是一场CyberDAO精英汇聚的盛会,以同心共筑,志在必达为主题口号与DAO精英携手并进,共筑CyberDAO美好宏图。CyberDAO的使命是降低WEB3的门槛,帮助用户轻松抓住行…

每日一题《leetcode--117.填充每个结点的下一个右侧结点指针||》

https://leetcode.cn/problems/populating-next-right-pointers-in-each-node-ii/ 这道题与我之前发布的题目116是一样的解题过程,只是本题所给的数组大小与116不同,这是需要注意的。 116题目链接: http://t.csdnimg.cn/3Ub02 struct Node* c…

中断向量码

中断请求引脚 INTR-可屏蔽中断请求信号输入引脚 NMI-不可屏蔽中断请求信号输入引脚 #INTA-可屏蔽中断请求信号应答引脚 IF-中断允许标志位 TF-陷阱标志位 中断向量表 由中断向量码确定中断源的类型 存储结构 中断向量地址 中断程序入口地址 示例 中断类型 内存中结构 5个…