R语言逻辑回归、决策树、随机森林、神经网络预测患者心脏病数据混淆矩阵可视化...

news2024/11/19 19:29:58

全文链接:https://tecdat.cn/?p=33760

众所周知,心脏疾病是目前全球最主要的死因。开发一个能够预测患者心脏疾病存在的计算系统将显著降低死亡率并大幅降低医疗保健成本。机器学习在全球许多领域中被广泛应用,尤其在医疗行业中越来越受欢迎。机器学习可以在预测关键疾病(例如心脏病)的存在或不存在方面发挥重要作用点击文末“阅读原文”获取完整代码数据)。

相关视频

如果能提前准确预测这些信息,可以为医生提供重要见解,从而能够相应并有效地进行患者治疗。以下演示了对流行的心脏疾病数据库进行的探索性数据分析。除此之外,还使用不同方法(如逻辑回归、随机森林和神经网络)进行心脏病预测。

数据集:数据集包含76个属性,但建议我们只使用其中的14个进行分析。在本文中,使用一个合并的数据集构建分类器,并使用交叉验证技术进行性能评估。

特征:

  1. Age:年龄(以年为单位)。

  2. Gender:性别,1表示男性,0表示女性。

  3. Cp:胸痛类型,取值1:典型心绞痛,取值2:非典型心绞痛,取值3:非心绞痛疼痛,取值4:无症状。

  4. Trestbps:静息血压(以毫米汞柱为单位)。

  5. Chol:血清胆固醇(以毫克/分升为单位)。

  6. Fbs:空腹血糖 > 120 mg/dl,1表示真,0表示假。

  7. Restecg:静息心电图结果,取值0:正常,取值1:ST-T波异常,取值2:根据Estes标准显示可能或明确的左室肥厚。

  8. Thalach:达到的最高心率(每分钟心跳数)。

  9. Exang:运动诱发心绞痛,1表示是,0表示否。

  10. Oldpeak:相对于休息引起的ST段压低。

  11. Slope:峰值运动ST段的斜率,取值1:上坡,取值2:平坦,取值3:下坡。

  12. Ca:血管数量(0-3)。

  13. Thal:3 = 正常;6 = 固定缺陷;7 = 可逆性缺陷。

  14. Target:两个类别,因此是一个二分类问题。

目标:预测一个人是否患有心脏疾病。

读取数据集并检查是否有缺失值

head(heartDiseaseData)

02332570e88dea6c4dc8c57fc75bd742.png

sum(is.na(heartDiseaseData))
## [1] 0
colnames(heartDiseaseData)[1]<-"age"
str(heartDiseaseData)

382c0c10ac3b2a5f1bb78426134895f7.png

数据预处理

heartDiseaseData$cp<-as.factor(heartDiseaseData$cp)
levels(heartDiseaseData$cp)[levels(heartDiseaseData$cp)==0] <- "Chest Pain Type 0"
levels(heartDiseaseData$cp)[levels(heartDiseaseData$cp)==1] <- "Chest Pain Type 1"
levels(heartDiseaseData$cp)[levels(heartDiseaseData$cp)==2] <- "Chest Pain Type 2"
levels(heartDiseaseData$cp)[levels(heartDiseaseData$cp)==3] <- "Chest Pain Type 3"
...

06d085cccc88288d641e91e0272b1cba.png

检查缺失值

sum(is.na(heartDiseaseData))
## [1] 0

数据摘要

summary(heartDiseaseData)

ad5050ac56ec66dafbdecf62c74457a9.png

健康人和心脏病患者的观测总数。

ggplot(heartDiseaseData,aes(t...

555f19d56c119b7d158e929d49946049.png

女性心脏病的发病率高于男性

ggplot(heartDiseaseData,aes(target, fill=target)) +
...

a8addb1aae31dd5bb75440f1c069bc03.png

可以观察到,健康人和患有心脏病的人的 Rest ECG 分布没有明显差异。

ggplot(heartDiseaseData,aes(trestbps, fill=target)) + 
  geom_histogram(aes(y=..density..),breaks=seq(90, 200, by=10), ...

44ed01af12c7322dcfb31325da70c15d.png

可以观察到心脏病在各个年龄段均匀分布。此外,患者的中位年龄为56岁,最年轻和最年长的患者分别为29岁和77岁。可以从图表中观察到,患有心脏病的人的中位年龄小于健康人。此外,患心脏病的患者的分布略微倾斜。因此,我们可以将年龄作为一个预测特征。

ggplot(heartDiseaseData,aes(age, fill=target)) + ...

8c74c3a3c79d3339a1651de857eecda5.png

ggplot(heartDiseaseData,aes(x=target, y=age, fill=target)) + 
...

b3ae7b702cd760215a559a2bf6bfc77e.png

此外,患有心脏病的人通常具有比健康人更高的最高心率。

ggplot(heartDiseaseData,aes(thalach, fill=target)) +
...
  ggtitle("Max Heart Rate Histogram")

e672b59e2b51cce4e58b452ca9bea482.png

此外,可以观察到大多数患有心脏病的人其血清胆固醇在200-300 mg/dl范围内。

ggplot(heartDiseaseData,aes(chol, fill=target)) +
 ...

2f483c467264f2fef9c2d81fec567de8.png

大多数心脏病患者的ST段压低为0.1。


点击标题查阅往期内容

41bb0fc5004fe2c4931bdfb636e0bfe7.jpeg

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

outside_default.png

左右滑动查看更多

outside_default.png

01

5abd12a93d6679299cb1e75109fd0550.png

02

20ba08d5434edf475395efcdb20fada1.png

03

39794d3aea28dc7802e3e59dcf7efe16.png

04

bc81459bb2fb49a6fb62b8b3dcbaf5da.png

ggplot(heartDiseaseData,aes(oldpeak, fill=target)) +
  geom_histogram(aes(y=..density..),breaks=seq(0, 7, by=0.1), ...

9939bb4058524d7464d224205a9671d5.png

大多数拥有0个主要血管的人患有心脏病。

ggplot(heartDiseaseData,aes(ca, fill=target)) +
  geom_histogram(aes(y=..density..),breaks=seq(0, 5, by=1), ...

29ca23d0a937f01c0d2bc27f0a9950f7.png

大多数患有心脏病的人胸痛类型为1或2。

ggplot(heartDiseaseData,aes(target, fill=target)) +
...

f2ea07747b3cb8221713a24822742c73.png

空腹血糖没有明显差异。

ggplot(heartDiseaseData,aes(target, fill=target)) +
...

7781bfe2f703a21233a4e3454b429989.png

拥有静息心电图异常类型1的人患心脏病的可能性较高。

ggplot(heartDiseaseData,aes(target, fill=target)) +
...

315cfc4129f00adf808298f35486a4e4.png

没有运动诱发性心绞痛的人患心脏病的可能性较高。

ggplot(heartDiseaseData,aes(target, fill=target)) +
...
  scale_fill_manual(values=c("#97BE11","#DC1E0B"))

5e71890c3878e3d3462a9080cb68f56d.png

具有最高斜率2的人患心脏病的可能性更高

R
ggplot(heartDiseaseData, aes(target, fill=target)) +
...
  scale_fill_manual(values=c("#97BE11", "#DC1E0B"))

3ddc42c35452dfcb17b62e003a41132d.png

具有固定缺陷地中海贫血的人患心脏病的可能性更高

R
ggplot(heartDiseaseData,aes(target, fill=target)) +
...
  scale_fill_manual(values=c("#97BE11","#DC1E0B"))

95a97a16f9ba1899e7680b138ec331fb.png

可以观察到仅有少数参数,如胸痛类型、性别、运动诱发心绞痛、血管数量和ST段压低,对结果有显著影响。因此,可以舍弃其他参数。

R
log <- glm(...

76654f579075fbe2a27acf291895e6de.png

8d594055d7b527656616870573f5133b.png

显著特征的总结

R
d <- heartDiseaseDa...

896f0f1e199ce2870898a954cf5b54e9.png

逻辑回归

R
log <- glm(...=binomial)
summary(log)

5c1439ebb3ea9be31f17208d78663e3b.png

R
log.df <- tidy...

观察表明,如果个体患有2型或3型胸痛,患心脏病的可能性更高。随着血管数量、运动诱发心绞痛、ST段压低和男性性别数值的增加,患心脏病的可能性较低。

R
log.df %>%
  mutate(term=reorder(term,estimate)) %>%
...
  geom_hline(yintercept=0) +
  coord_flip()

dde8eb5c31e61e36d2b99d5341e5a2cc.png

随着ST段压低值的增加,患心脏病的可能性降低。随着血管数量的增加,女性患心脏病的可能性降低,而男性的可能性增加。

逻辑回归

R
data <- d
set.seed(1237)
train <- sample(nrow(data), .8*nrow(data), replace = FALSE)
...

#调整参数
fitControl <- trainControl(method = "repeatedcv",
      ...
TrainSet$target <- as.factor(TrainSet$target)
R
gbm.ada.1 <- caret::train(target ~ ., 
                    ...
                          metric="ROC")

gbm.ada.1

8e44bbdf5793286711949a4975229398.png

ST段压低是最重要的特征,其次是胸痛类型2等等。

varImp(gbm.ada.1)

4e3e6777d34c0f2a12b67d57435c4daa.png

pred <- predict(gbm.ada.1,ValidSet)
....
res<-caret::confusionMatrix(t...

47feb6b0dd10c4a85d9833d31b7d8c4e.png

混淆矩阵

ggplot(data = t.df, aes(x = Var2, y = pred, label=Freq)) +
...
  ggtitle("Logistic Regression")

276559ded73d8d3b2714bdda8dd74eea.png

随机森林

gbm.ada.1 <- caret::train(target ~ ., 
                          ...
                                      metric="ROC")

gbm.ada.1

0676d67abe0a000cb1afb54b3665a05e.png

变量重要性

varImp(gbm.ada.1)

3a716567a241356dd4cfc21d136d6c17.png

pred <- predict(gbm.ada.1,ValidSet)
...
res<-caret::confusionMatrix(t, positive="Heart Disease")
res

30d2f12d7f7c29d08a3eb14c7b85156a.png

混淆矩阵

ggplot(data = t.df, aes(x = Var1, y = pred, label=Freq)) +
 ...
  ggtitle("Random Forest")

e873afc4efada4882e36b7c97b8e6604.png

绘制决策树

gbmGrid <-  expand.grid(cp=c(0.01))
fitControl <- trainControl(method = "repeatedcv",
                    ...
                           summaryFunction = twoClassSummary)
d$target<-make.names(d$target)
system.time(gbm.ada.1 <- caret::train(target ~ ., 
                    ...
                                      tuneGrid=gbmGrid))
gbm.ada.1

152743c1960ea2d2ae0bb13a288590bc.png

varImp(gbm.ada.1)

e34cbb5d1264ceee193d7cd916d78ee4.png

rpart.plot(gbm.ada.1$finalModel,   
    ...
           nn=TRUE)

da6c9a8d2ee0030c0ab806d3a83ccb33.png

神经网络

fitControl <- trainControl(method = "repeatedcv",
                      ...
                           summaryFunction = twoClassSummary)
gbm.ada.1 <- caret::train(target ~ ., 
                             ...
                                      metric="ROC")

94c2c2ec2defec3dcfe91e89438e4d8b.png

gbm.ada.1

bc9848ce37f928cb1d2957bb3587482b.png

变量重要性

varImp(gbm.ada.1)

01bbec2c9435ff2ad46b92684037ef27.png

pred <- predict(gbm.ada.1,ValidSet)
...
res<-caret::confusionMa...

c77146fd82fca8b9e9580fb8a7b1a73a.png

混淆矩阵

混淆矩阵(Confusion Matrix)是用于评估分类模型性能的一种表格。它以四个不同的指标来总结模型对样本的分类结果:真阳性(True Positive, TP)、真阴性(True Negative, TN)、假阳性(False Positive, FP)和假阴性(False Negative, FN)。

ggplot(data = t.df, aes(x = Var1, y = pred, label=Freq)) +
...
  ggtitle("Neural Network")

a1523553d678227ebfae1b29a7c2df71.png


b9fce0b3f451698d18ce0ec9f89483dd.jpeg

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《R语言逻辑回归、决策树、随机森林、神经网络预测患者心脏病数据混淆矩阵可视化》。

9be5847b44f561d53dd6ef59bfe0e033.jpeg

91827ad0c3c7edc859a428684bc65934.png

点击标题查阅往期内容

数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒交叉验证ROC

MATLAB随机森林优化贝叶斯预测分析汽车燃油经济性

R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数

R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据

R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归

Python贝叶斯回归分析住房负担能力数据集

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

Python用PyMC3实现贝叶斯线性回归模型

R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型

R语言Gibbs抽样的贝叶斯简单线性回归仿真分析

R语言和STAN,JAGS:用RSTAN,RJAG建立贝叶斯多元线性回归预测选举数据

R语言基于copula的贝叶斯分层混合模型的诊断准确性研究

R语言贝叶斯线性回归和多元线性回归构建工资预测模型

R语言贝叶斯推断与MCMC:实现Metropolis-Hastings 采样算法示例

R语言stan进行基于贝叶斯推断的回归模型

R语言中RStan贝叶斯层次模型分析示例

R语言使用Metropolis-Hastings采样算法自适应贝叶斯估计与可视化

R语言随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型

WinBUGS对多元随机波动率模型:贝叶斯估计与模型比较

R语言实现MCMC中的Metropolis–Hastings算法与吉布斯采样

R语言贝叶斯推断与MCMC:实现Metropolis-Hastings 采样算法示例

R语言使用Metropolis-Hastings采样算法自适应贝叶斯估计与可视化

视频:R语言中的Stan概率编程MCMC采样的贝叶斯模型

R语言MCMC:Metropolis-Hastings采样用于回归的贝叶斯估计

R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

6727e50170ec32236200e58de9032b2b.png

6bbfbe810279cd2633788b685afbdb95.jpeg

2780618a8c5464aa204ee4ed7294e093.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1035585.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

若依前后端分离如何解决匿名注解启动报错?

SpringBoot2.6.0默认是ant_path_matcher解析方式,但是2.6.0之后默认是path_pattern_parser解析方式。 所以导致读取注解类方法需要对应的调整,当前若依项目默认版本是2.5.x,如果使用大于2.6.x,需要将info.getPatternsCondition().getPatterns()修改为info.getPathPatterns…

保研CS/软件工程/通信专业问题汇总(搜集和自己遇到的)

机器学习 1.TP、TN、FP、FN、F1 2.机器学习和深度学习的区别和联系 模型复杂性&#xff1a;深度学习是机器学习的一个子领域&#xff0c;其主要区别在于使用深层的神经网络模型。深度学习模型通常包含多个隐层&#xff0c;可以学习更加复杂的特征表示&#xff0c;因此在某些任…

使用python处理MNIST数据集

文章目录 一. MNIST数据集1.1 什么是MNIST数据集1.2MNIST数据集文件格式1.3使用python访问MNIST数据集文件内容 附录程序源码 一. MNIST数据集 1.1 什么是MNIST数据集 MNIST数据集是入门机器学习/识别模式的最经典数据集之一。最早于1998年Yan Lecun在论文:[Gradient-based l…

Qt5开发及实例V2.0-第十九章-Qt.QML编程基础

Qt5开发及实例V2.0-第十九章-Qt.QML编程基础 第19章 QML编程基础19.1 QML概述19.1.1 第一个QML程序19.1.2 QML文档构成19.1.3 QML基本语法 19.2 QML可视元素19.2.1 Rectangle&#xff08;矩形&#xff09;元素19.2.2 Image&#xff08;图像&#xff09;元素19.2.3 Text&#xf…

JavaScript中的代理对象(proxy)

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 创建代理对象⭐ 使用代理对象⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 欢迎来到前端入门之旅&#xff01;感兴趣的可以订阅本专栏哦&#xff01;这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友…

Helm 的简单使用 wordpress install

概述 尝试使用Helm部署wordpress博客服务 Helm | Helm Helm命令 bash自动补全 Helm | Helm补全 - bash wordpress案例 install helm repo add bitnami https://charts.bitnami.com/bitnamihelm install wordpress bitnami/wordpress \ --namespacewordpress \ --create-…

缓存(cache)与缓冲区(buffer)的主要区别

缓存&#xff08;cache&#xff09;与缓冲区(buffer)的主要区别 1.Buffer的核心作用是用来缓冲&#xff0c;缓和冲击&#xff08;对输出设备的冲击&#xff0c;包括磁盘、打印机、显示器&#xff09;。比如你每秒要写100次硬盘&#xff0c;对系统冲击很大&#xff0c;浪费了大…

SAP PO运维(三):XML消息监控

登录到SAP ECC系统&#xff0c;输入事务码&#xff1a;SXI_MONI&#xff0c;点击“Technical Monitor for Processed XML Messages”&#xff0c;或直接输入事务码SXI_MONITOR&#xff1a; 2、在XML消息处理页面输入查询条件&#xff0c;查看接口XML报错消息&#xff1a; 3、检…

Spring Cloud Alibaba Sentinel流量防卫兵

文章目录 Spring Cloud Alibaba Sentinel流量防卫兵1. 分布式遇到的问题2.解决的方法 Sentinel: 分布式系统的流量防卫兵1. 简介和特折 Sentinel流量防卫兵的搭建1.引入依赖2.添加配置类3.运行类上添加SentinelResource&#xff0c;并配置blockHandler和fallback4. linux中放入…

手摸手图解 CodeWhisperer 的安装使用

CodeWhisperer 是亚⻢逊出品的一款基于机器学习的通用代码生成器&#xff0c;可实时提供代码建议。 亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术&#xff0c;观点…

KNN-K近邻算法(K-Nearest Neighbors)

k近邻算法的特点 思想极度简单应用数学知识少&#xff08;近乎为零&#xff09;效果好(缺点&#xff1f;)可以解释机器学习算法使用过程中的很多细节问题更完整的刻画机器学习应用的流程 k近邻算法 k近邻算法整体是这样的一个算法&#xff0c;我们已经知道的这些数据点其实是…

服务注册发现_Eureka概述

Spring Cloud Eureka 是Netflix 开发的注册发现组件&#xff0c;本身是一个基于 REST 的服务。提供注册与发现&#xff0c;同时还提供了负载均衡、故障转移等能力。 Eureka3个角色 服务中心服务提供者服务消费者。 注意&#xff1a; Eureka Server&#xff1a;服务器端。它提…

【Linux】系统编程线程读写者模式(C++)

目录 一、读写锁 二、读写锁接口 【2.1】设置读写优先 【2.2】初始化 【2.3】销毁 【2.4】加读锁 【2.5】加写锁 【2.6】解锁 三、读写锁实例 一、读写锁 在编写多线程的时候&#xff0c;有一种情况是十分常见的。那就是&#xff0c;有些公共数据修改的机会比较少。相…

接口自动化测试之Mock

【软件测试面试突击班】如何逼自己一周刷完软件测试八股文教程&#xff0c;刷完面试就稳了&#xff0c;你也可以当高薪软件测试工程师&#xff08;自动化测试&#xff09; 1.Mock实现原理和实现机制 在某些时候&#xff0c;后端在开发接口的时候&#xff0c;处理逻辑非常复杂&a…

基于Java+SpringBoot+Vue+Uniapp奶茶在线下单小程序设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言用户微信小程序端的主要功能有&#xff1a;管理员的主要功能有&#xff1a;具体实现截图详细视频演示为什么选择我自己的网站自己的小程序&#xff08;小蔡coding&#xff09;有保障的售后福利 代码参考论文参考源码获取 前言 &#x1f497;博主介绍&#xff1a;✌…

Linux 用户 用户组管理

用户 Linux系统是一个多用户多任务的分时操作系统&#xff0c;任何要使用系统资源的用户&#xff0c;都必须首先向系统管理员申请一个账号&#xff0c;然后以这个账号的身份进入系统。每个用户账号都拥有一个唯一的用户名和各自的口令。用户在登录时键入正确的用户名和口令后&a…

ubuntu22.04编译DPDK19.08.2注意事项

下载&#xff1a;http://fast.dpdk.org/rel/dpdk-19.08.2.tar.xz 解压&#xff1a;tar -xvf dpdk-19.08.2.tar.xz &#xff08;1&#xff09;设置环境变量和编译 cd dpdk-stable-19.08.2 export RTE_SDKpwd export RTE_TARTGETx86_64-native-linuxapp-gcc make config Tx86…

Ae 效果:CC Simple Wire Removal

Keying/CC Simple Wire Removal Keying/CC Simple Wire Removal CC Simple Wire Removal &#xff08;CC 简单线条移除&#xff09;通过在两点之间创建一条指定宽度&#xff08;厚度&#xff09;的连线&#xff0c;然后将连线区域内的像素按指定方式进行填充&#xff0c;从而实…

R语言非线性方程数值分析生物降解、植物生长数据:多项式、渐近回归、米氏方程、逻辑曲线、Gompertz、Weibull曲线...

全文链接&#xff1a;https://tecdat.cn/?p33742 在选择最佳拟合实验数据的方程时&#xff0c;可能需要一些经验。当我们没有文献信息时该怎么办&#xff1f;我们建立模型的方法通常是经验主义的。也就是说&#xff0c;我们观察过程&#xff0c;绘制数据并注意到它们遵循一定的…

Qt使用opencv操作摄像头的例子

概述 这是一个Qt使用opencv lib操作摄像头的例子 详细 一、简介 这是一个Qt使用opencv lib操作摄像头的例子 二、代码实现过程 新建一个VideoCapture对象&#xff0c;然后通过这个对象读取Mat图像数据&#xff0c;再讲Mat数据转成QImage显示在QLabel上。 VideoCapture既支持…