数据可视化与机器学习建模:心力衰竭预测_企业科研_论文科研_毕业设计

news2024/9/19 10:50:44

图片

数据分析与可视化

心力衰竭或心血管疾病 (CVD) 是全球第一大死因,每年夺去大约1790 万人的生命,占全球所有死亡人数的 31%。   

大多数心血管疾病可以通过使用全民策略解决烟草使用、不健康饮食和肥胖、缺乏身体活动和有害使用酒精等行为风险因素来预防。

患有心血管疾病或处于高心血管风险(由于存在一种或多种风险因素,如高血压、糖尿病、高脂血症或已经确定的疾病)的人需要早期检测和管理,其中机器学习模型可以提供很大帮助。  

数据可视化

介绍

为了更好地理解数据集,我们以图形格式表示它。这有助于我们解释数据并识别模式。由于人脑处理信息的方式,使用图表或图形可视化大量复杂数据比仔细研究电子表格或报告更容易。

预处理:

首先,我们首先检查数据集中是否存在 NaN 值。这有助于我们验证数据的完整性。如下图所示,不存在 NaN 值,这意味着这是一个完整的数据集。

图片

接下来,我们获得数据集的摘要以更好地理解数据集。这将为我们提供有关数据列数、数据类型和条目数的信息。

图片

从上图可以看出,数据集有 13 列,299 个数据条目,数据为数字格式。

接下来,我们重命名数据集及其数据入口点以更好地表达它们的含义。我们将数据集中的 1 和 0 更改为它们的代表字符串,并重命名列名以获得更清晰和更好的外观。最终,我们 得到如下所示的数据集:

图片

目标数据:患者状态

患者状态:如果患者在随访期间死亡(布尔值)

该数据集的目标是预测患者是否会心脏病发作。我们首先检查我们是否有一个平衡的目标变量。因此,我们绘制了目标变量的饼图。

如上所示,目标变量仅占数据集的 32.1%。这意味着数据集是高度不平衡的。但就我们任务的性质而言,不平衡的数据集不是问题。由于工作的性质,大多数患者可能不易患心脏病。

年龄和心力衰竭

年龄:代表患者的年龄。(整数)

我们首先在直方图中绘制关于“患者状态”的第一个特征变量“年龄”。“年龄”的范围是40-95。

  • 70 岁以上的患者中有 49.35% 患有心脏病。(77 之 38)

  • 26.13% 的 70 岁以下患者心脏病发作。(222 人中有 58 人)

性和心力衰竭

性别:代表患者的性别。(布尔值)

接下来我们绘制“性别”和“患者状态”。如下图所示,男性占整个数据集的 64.9%。

  • 31% 的男性患者心脏病发作。

  • 32% 的女性患者心脏病发作。

糖尿病和心力衰竭

糖尿病:表示患者是否患有糖尿病。(布尔值)

接下来我们绘制“糖尿病”和“患者状态”。如下图所示,糖尿病患者占整个数据集的 41.8%。这个功能比较平衡。

  • 60 岁是糖尿病患者的平均年龄,而非糖尿病患者心脏病发作的平均年龄是 68.5 岁。

  • 从上图可以看出,有一群糖尿病患者在 59-60 岁之间患有心脏病。

  • 总的来说,非糖尿病患者的寿命往往比糖尿病患者长。

吸烟与心力衰竭

吸烟:代表一个人是否吸烟。(布尔值)

进一步绘制吸烟患者,他们占数据集的 32.1%。 因此,该特征在数据集中不平衡,导致结果出现偏差。

  • 50% 的吸烟者在 60-72 岁之间患有心脏病。

  • 而 25% 的非吸烟者在 60-75 岁之间心脏病发作。

高血压和心力衰竭

高血压:代表一个人是否患有高血压或高血压。(布尔值)

同样,我们绘制患有高血压(高血压)的患者。如下所示,占数据集的 35.1%。

  • 50% 的高血压患者在 50-75 岁之间心脏病发作。

射血分数和心力衰竭

射血分数(EF):每次收缩时离开心脏的血液百分比。(整数)

正常心脏的射血分数可能在 50% 到 70% 之间。射血分数测量值低于 40% 可能是心力衰竭的证据。

41% 到 49% 的 EF 可能被认为是“临界值”。它并不总是表明一个人正在发展为心力衰竭。相反,它可能表示损伤,可能来自之前的心脏病发作。

  • 33.8% 的射血功能低下的患者心脏病发作。

  • 19% 的射血分数正常的患者心脏病发作。

  • 可以看出,对于具有高射血分数水平的患者而言,数据太小而无法做出有根据的推断。

血小板

血小板:血液中的血小板 (kiloplatelets/mL)(整数)

正常的血小板计数范围为 150,000 至 350,000。

  • 30% 的血小板计数正常的患者心脏病发作。

  • 37% 的血小板计数高的患者心脏病发作。

  • 41% 的血小板计数低的患者心脏病发作。

贫血

贫血:表示患者是否患有贫血。(布尔值)

贫血患者约占数据集的 43.1%。因此,此功能似乎相当平衡。

  • 50% 的贫血患者在 58-75 岁之间心脏病发作。

肌酐磷酸激酶

肌酐磷酸激酶:血液中 CPK 酶的水平 (mcg/L)。(整数)

在 健康 成人中,血清 CK 水平 因多种因素(性别、种族和活动)而异,但 正常范围 为 22 至 198 U/L(单位/升)。

  • 32.7%的CPK值高的患者心脏病发作。

  • 24.7% 的 CPK 值正常的患者心脏病发作。

血清肌酐

血清肌酐:血液中的血清肌酐水平 (mg/dL)。(漂浮)

 血液中肌酐的正常范围可能为每分升 0.84 至 1.21 毫克(每升 74.3 至 107 微摩尔),尽管这可能因实验室、男性和女性以及年龄 而 异 

  • 25.7% 的肌酐水平正常的患者心脏病发作。

  • 52.8% 的肌酐水平高的患者心脏病发作。

血清钠

血清钠:血液中的血清钠水平 (mEq/L)(整数)

正常 血钠水平 在每升 135 到 145 毫当量 (mEq/L) 之间,尽管这可能因实验室、男性和女性以及年龄而异。

  • 32% 钠含量正常的患者心脏病发作。

  • 从上面可以看出,对于高钠水平的患者来说,数据太小而无法做出有根据的推断。


数据可视化与机器学习建模就为大家介绍到这里,欢迎大家学习《python机器学习生物信息学》了解更多相关知识。


版权声明:文章来自公众号(python生物信息学),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/822197.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【云原生】k8s组件架构介绍与K8s最新版部署

个人主页:征服bug-CSDN博客 kubernetes专栏:kubernetes_征服bug的博客-CSDN博客 目录 1 集群组件 1.1 控制平面组件(Control Plane Components) 1.2 Node 组件 1.3 插件 (Addons) 2 集群架构详细 3 集群搭建[重点] 3.1 mi…

Spring入门-技术简介、IOC技术、Bean、DI

前言 Spring是一个开源的项目,并不是单单的一个技术,发展至今已形成一种开发生态圈。也就是说我们可以完全使用Spring技术完成整个项目的构建、设计与开发。Spring是一个基于IOC和AOP的架构多层j2ee系统的架构。 SpringFramework:Spring框架…

GridFsTemplate实现文件管理

目录 需求分析解决方案实现步骤添加maven`spring-boot-starter-data-mongodb`配置文件`GridFsTemplate`实现临时文件和正式文件存储桶分离创建`GridFsTemplateUtil`工具类管理文件的上传、下载和删除创建`GridFsTemplateFileController`控制器暴露上传、下载和删除接口总结需求…

学习gRPC(一)

gRPC 简介 根据官网的介绍,gRPC 是开源高性能远程过程调用(RPC)框架,可以在任何环境中运行。它可以有效地连接数据中心内部和数据中心之间的服务,并为负载平衡、跟踪、运行状况检查和身份验证提供支持。同时由于其建立…

SAP RSA与RBA,业务需求与技术实现间的桥梁

1. 背景 SAP相关的缩略语很多,抛开背景说RSA与RBA,一定会让大家产生无数的联想。今年介绍的RSA与RBA是SAP最新企业架构方法论中的两个概念,听起来高大上,但其实其初衷和想法都是很容易理解的。话不多说,开始。 2. SA…

C++设计模式之访问者模式

C访问者设计模式 文章目录 C访问者设计模式什么是设计模式什么是访问者设计模式该模式有什么优缺点优点缺点 如何使用 什么是设计模式 设计模式是一种通用的解决方案,用于解决特定的一类问题。它是一种经过验证的代码组织方式,可以帮助开发人员更快地实…

全网最强大的工具箱—utools介绍及分享

今天来介绍一个相见恨晚的PC端工具——utools,什么是utools?用其自身的话来说:“uTools是一个极简、插件化、跨平台的现代化桌面软件。通过自由选配丰富的插件,打造你得心应手的工具集合。”,体验了下,好用且强大&…

vi编辑器的使用二

vi光标命令 vi的查找命令 /string 查找字符串 n 继续查找N 反向继续查找支持正则表达式比如:/^the /end$ vi替换命令 利用:s命令可以实现字符串的替换usage:范围 s/old str/new str (s代表替换。没有指定范围则默认指的是当前行) : s/str1/str2/: s/…

装修小程序,开启装修公司智能化服务的新时代

随着数字化时代的来临,装修小程序成为提升服务质量和效率的关键工具。装修小程序旨在为装修公司提供数字化赋能、提高客户满意度的智慧装修平台。通过装修小程序,装修公司能够与客户进行在线沟通、展示设计方案、提高服务满意度等操作。 装修小程序的好处…

抄写Linux源码(Day2:构建调试环境)

我们计划把操作系统运行在 qemu-system-x86_64 上,使用 gdb 调试 经过 RTFM,可以使用 qemu-system-x86_64 -s -S 让 qemu 在启动之后停住 接着在另一个窗口运行 gdb,输入命令 target remote localhost:1234,即可连接qemu并调试运…

【数据结构】图文并茂,通过逻辑图带你轻松拿捏链表,实现各种接口功能

君兮_的个人主页 勤时当勉励 岁月不待人 C/C 游戏开发 Hello,米娜桑们,这里是君兮_,我们接着之前讲过的顺序表来继续介绍初阶数据结构的内容,今天给大家带来的是有关链表的基本知识和各种接口功能的实现 好了,废话不多说&#x…

STM32(HAL)串口中断接收

目录 1、简介 2 基础配置 2.1.1 SYS配置 2.1.2 RCC配置 2.2 串口外设配置 2.3 项目生成 3、KEIL端程序整合 1、简介 本文对HAL串口中断函数进行介绍。 2 基础配置 2.1.1 SYS配置 2.1.2 RCC配置 2.2 串口外设配置 2.3 项目生成 3、KEIL端程序整合 首先在main.c文件中进行…

Pytorch入门学习——快速搭建神经网络、优化器、梯度计算

我的代码可以在我的Github找到 GIthub地址 https://github.com/QinghongShao-sqh/Pytorch_Study 因为最近有同学问我如何Nerf入门,这里就简单给出一些我的建议: (1)基本的pytorch,机器学习,深度学习知识&a…

深入理解 Java Bean 的生命周期及各个阶段解析

目录 引言:一、什么是Java Bean二、Bean的生命周期概述三、Bean的创建阶段四、属性设置阶段初始化阶段六、使用阶段七、销毁阶段 引言: Java Bean是Java编程中经常使用的重要概念,它是可重用、可移植、可序列化的组件。在Java开发中&#xf…

绝杀 GETPOST 嵌套的 JSON 参数

JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,常用于Web应用程序中的数据传输。在HTTP数据包信息传递时,JSON扮演着非常正常的角色,因为它是一种通用的数据格式,可以被多种编程语言和应用程…

Linux远程连接mysql 出错plugin caching_sha2_password could not be loaded:

问题描述: 今天使用SQLyog远程连接mysql时出错plugin caching_sha2_password could not be loaded问题。 但在本地cmd 进入命令行窗口:输入命令连接远程连接mysql,发现可以顺利连接。 主要问题是 MySQL可视化工具(如&#xff1a…

Excel技巧 - 管理规则设置一行变色

如何设置某一列单元格的值大于一个值时,该单元格所在的一整行都变色呢? 1、先框选内容区域,点击开始,条件格式,新建规则 2、如果销量大于20,则该行都变为绿色 编辑格式选择:使用公式确定要设置…

Centos7 如何用命令直接更改配置文件里面内容

环境: Centos7.7 问题描述: Centos7 如何用命令直接更改配置文件里面内容 ifcfg-bond1文件里面DNS想替换改成114 解决方案: 1.使用sed命令 sed -i -e "s:匹配参数.*:匹配参数替换后的内容:g" 对应的文件路径本案例命令 se…

2022年全国硕士研究生入学统一考试管理类专业学位联考写作试题——解析版

四、写作:第56~57小题,共65分。其中论证有效性分析30分,论说文35分。 56.论证有效性分析:分析下述论证中存在的缺陷和漏洞,选择若干要点,写一篇600字左右的文章,对该论证的有效性进…

【iOS】多线程 锁问题总结

文章目录 前言1. 你理解的多线程优点缺点 2. atomic 和 nonatomic 的区别及其作用3. GCD的队列类型 - 三种队列类型4. GCD的死锁问题5. 多线程之间的区别和联系6. 进程和线程?进程间的通信方式线程间的通信方式 6. iOS的线程安全手段如何保证 前言 iOS 锁和多线程的…