R语言探索 BRFSS 数据和预测

news2024/11/26 2:51:44

加载包

library(ggplot2)
library(dplyr)
library(Hmisc)
library(corrplot)

加载数据

load("brfss2013.RData")

第1部分:关于数据

行为风险因素监测系统(BRFSS)是美国的年度电话调查。BRFSS旨在识别成年人口的风险因素并报告新兴趋势。例如,受访者被问及他们的饮食和每周身体活动,他们的艾滋病毒/艾滋病状况,可能的烟草使用,免疫接种,健康状况,健康日-与健康相关的生活质量,医疗保健的可及性,睡眠不足,高血压意识,胆固醇意识,慢性健康状况,饮酒,水果和蔬菜消费,关节炎负担和安全带的使用。

数据采集:

数据收集程序中进行了说明。这些数据是从美国所有50个州、哥伦比亚特区、波多黎各、关岛和美属萨摩亚、密克罗尼西亚联邦和帕劳收集的,通过进行固定电话和基于移动电话的调查。固定电话样本使用了不成比例的分层抽样(DSS),蜂窝电话受访者是随机选择的,每个受访者的选择概率相等。我们正在处理的数据集包含330个变量,2013年共有491,775个观测值。由“NA”表示的缺失值。

概 化:

样本数据应该允许我们推广到感兴趣的人群。这是对491,775名18岁或以上美国成年人的调查。它基于一个大型分层随机样本。潜在的偏见与无反应,不完整的访谈,缺失的价值观和便利偏见有关(一些潜在的受访者可能没有被包括在内,因为他们没有固定电话和手机)。

因果律:

没有因果关系可以建立,因为BRFSS是一项观察研究,只能建立变量之间的相关性/关联。

第2部分:研究问题

研究问题1:

过去30天内身心健康不好的天数分布是否因性别而异?

研究问题2:

受访者接受采访的月份与受访者自我报告的健康感知之间是否存在关联?

研究问题3:

收入和医疗保险之间有什么关联吗?

研究问题4:

吸烟、饮酒、胆固醇水平、血压、体重和中风之间有关系吗?最终,我想看看是否可以从上述变量中预测中风。

第 3 部分:探索性数据分析

研究问题1:

ggplot(aes(x=physhlth, fill=sex), data = brfss2013[!is.na(brfss2013$sex), ]) +
  geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days Physical Health not Good in the Past 30 Days')

ggplot(aes(x=menthlth, fill=sex), data=brfss2013[!is.na(brfss2013$sex), ]) +
  geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days Mental Health not Good in the Past 30 Days')

ggplot(aes(x=poorhlth, fill=sex), data=brfss2013[!is.na(brfss2013$sex), ]) +
  geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days with Poor Physical Or Mental Health in the Past 30 Days')

summary(brfss2013$sex)
##  Male  Female   NA's 
##201313 290455      7 

以上三个数字显示了过去30天内男性和女性对身体,精神和健康不良天数的反应数据分布。我们可以看到,女性受访者远远多于男性受访者。

研究问题2:

by_month <- brfss2013 %>% filter(iyear=='2013') %>% group_by(imonth, genhlth) %>% summarise(n=n())
ggplot(aes(x=imonth, y=n, fill = genhlth), data = by_month[!is.na(by_month$genhlth), ]) + geom_bar(stat = 'identity', position = position_dodge()) + ggtitle('Health Perception By Month')

by_month1 <- brfss2013 %>% filter(iyear=='2013') %>% group_by(imonth) %>% summarise(n=n())
ggplot(aes(x=imonth, y=n), data=by_month1) + geom_bar(stat = 'identity') + ggtitle('Number of Respondents by Month')

我试图找出人们在不同月份对健康状况的反应是否不同。例如,人们是否更有可能说他们在春季或夏季身体健康?似乎没有明显的模式。

研究问题3:

plot(brfss2013$income2, brfss2013$hlthpln1, xlab = 'Income Level', ylab = 'Health Care Coverage', main =
'Income Level versus Health Care Coverage')

一般来说,高收入的受访者比低收入的受访者更有可能拥有医疗保健保险。

研究问题4:

为了回答这个问题,我将使用以下变量:

  • 吸烟100:至少抽过100支香烟

  • avedrnk2: 过去30年平均每日酒精饮料

  • bphigh4:曾经被告知血压高

  • 告诉2:曾经告诉过血液胆固醇高

  • weight2:报告的磅数重量

  • cvdstrk3:曾经被诊断出患有中风

首先,将上述变量转换为数值,并查看这些数字变量之间的任何相关性。

vars <- names(brfss2013) %in% c('smoke100', 'avedrnk2', 'bphigh4', 'toldhi2', 'weight2')
selected_brfss <- brfss2013[vars]
selected_brfss$toldhi2 <- ifelse(selected_brfss$toldhi2=="Yes", 1, 0)
selected_brfss$smoke100 <- ifelse(selected_brfss$smoke100=="Yes", 1, 0)
selected_brfss$weight2 <- as.numeric(selected_brfss$weight2)
selected_brfss$bphigh4 <- as.factor(ifelse(selected_brfss$bphigh4=="Yes", "Yes", (ifelse(selected_brfss$bphigh4=="Yes, but female told only during pregnancy", "Yes", (ifelse(selected_brfss$bphigh4=="Told borderline or pre-hypertensive", "Yes", "No"))))))
selected_brfss$bphigh4 <- ifelse(selected_brfss$bphigh4=="Yes", 1, 0)
selected_brfss <- na.delete(selected_brfss)
corr.matrix <- cor(selected_brfss)
corrplot(corr.matrix, main="\n\nCorrelation Plot of Smoke, Alcohol, Blood pressure, Cholesterol, and Weight", method="number")

似乎没有两个数值变量具有很强的相关性。

用于预测行程的逻辑回归

将答案“是,但女性仅在怀孕期间被告知”和“被告知临界或高血压前期”改为“是”。

vars1 <- names(brfss2013) %in% c('smoke100', 'avedrnk2', 'bphigh4', 'toldhi2', 'weight2', 'cvdstrk3')
stroke <- brfss2013[vars1]
stroke$bphigh4 <- as.factor(ifelse(stroke$bphigh4=="Yes", "Yes", (ifelse(stroke$bphigh4=="Yes, but female told only during pregnancy", "Yes", (ifelse(stroke$bphigh4=="Told borderline or pre-hypertensive", "Yes", "No"))))))
stroke$weight2<-as.numeric(stroke$weight2)

将“NA”值替换为“否”。

stroke$bphigh4 <- replace(stroke$bphigh4, which(is.na(stroke$bphigh4)), "No")
stroke$toldhi2 <- replace(stroke$toldhi2, which(is.na(stroke$toldhi2)), "No")
stroke$cvdstrk3 <- replace(stroke$cvdstrk3, which(is.na(stroke$cvdstrk3)), "No")
stroke$smoke100 <- replace(stroke$smoke100, which(is.na(stroke$smoke100)), 'No')

将“NA”值替换为平均值。

mean(stroke$avedrnk2,na.rm = T)
##[1] 2.209905
stroke$avedrnk2 <- replace(stroke$avedrnk2, which(is.na(stroke$avedrnk2)), 2)

查看将用于建模的数据。

head(stroke)
summary(stroke)
##   bphigh4 toldhi2 cvdstrk3 weight2 smoke100 avedrnk2
##1     Yes     Yes       No     154      Yes        2
##2      No      No       No      30       No        2
##3      No      No       No      63      Yes        4
##4      No     Yes       No      31       No        2
##5     Yes      No       No     169      Yes        2
##6     Yes     Yes       No     128       No        2
##  bphigh4      toldhi2      cvdstrk3        weight2       smoke100    
## No :284107   Yes:183501   Yes: 20391   Min.   :  1.00   Yes:215201  
## Yes:207668   No :308274   No :471384   1st Qu.: 43.00   No :276574  
##                                        Median : 73.00               
##                                        Mean   : 80.22               
##                                        3rd Qu.:103.00               
##                                        Max.   :570.00               
##    avedrnk2     
## Min.   : 1.000  
## 1st Qu.: 2.000  
## Median : 2.000  
## Mean   : 2.099  
## 3rd Qu.: 2.000  
## Max.   :76.000  

隐蔽到二元结果。

stroke$cvdstrk3 <- ifelse(stroke$cvdstrk3=="Yes", 1, 0)

在整理和清理数据之后,现在我们可以拟合模型了。

逻辑回归模型拟合

train <- stroke[1:390000,]
test <- stroke[390001:491775,]
model <- glm(cvdstrk3 ~.,family=binomial(link = 'logit'),data=train)
summary(model)
##Call:
##glm(formula = cvdstrk3 ~ ., family = binomial(link = "logit"), 
##    data = train)

##Deviance Residuals: 
##    Min       1Q   Median       3Q      Max  
##-0.5057  -0.3672  -0.2109  -0.1630   3.2363  

##Coefficients:
##              Estimate Std. Error  z value Pr(>|z|)    
##(Intercept) -3.2690106  0.0268240 -121.869  < 2e-16 ***
##bphigh4Yes   1.3051850  0.0193447   67.470  < 2e-16 ***
##toldhi2No   -0.5678048  0.0171500  -33.108  < 2e-16 ***
##weight2     -0.0009628  0.0001487   -6.476 9.41e-11 ***
##smoke100No  -0.3990598  0.0163896  -24.348  < 2e-16 ***
##avedrnk2    -0.0274511  0.0065099   -4.217 2.48e-05 ***
##---
##Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##(Dispersion parameter for binomial family taken to be 1)

##    Null deviance: 136364  on 389999  degrees of freedom
##Residual deviance: 126648  on 389994  degrees of freedom
##AIC: 126660

##Number of Fisher Scoring iterations: 6

解释我的逻辑回归模型的结果:

所有变量在统计意义上都显著。

  • 所有其他变量都是平等的,被告知血压高更容易中风。

  • 预测因子的负系数 - toldhi2No表明所有其他变量相等,不被告知血液胆固醇高不太可能发生中风。

  • 对于重量的每一个单位变化,有一个行程(与无行程相比)的对数几率减少0.00096。

  • 不吸烟 至少100支香烟,不太可能中风。

  • 在过去30天内,如果平均酒精饮料每天增加一个单位,中风的对数几率将降低0.027。

anova(model, test="Chisq")
##Analysis of Deviance Table

##Model: binomial, link: logit

##Response: cvdstrk3

##Terms added sequentially (first to last)


##         Df Deviance Resid. Df Resid. Dev  Pr(>Chi)    
##NULL                    389999     136364              
##bphigh4   1   7848.6    389998     128516 < 2.2e-16 ***
##toldhi2   1   1230.1    389997     127285 < 2.2e-16 ***
##weight2   1     33.2    389996     127252 8.453e-09 ***
##smoke100  1    584.5    389995     126668 < 2.2e-16 ***
##avedrnk2  1     19.9    389994     126648 7.958e-06 ***
##---
##Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

分析偏差表,我们可以看到一次添加一个变量时偏差的下降。添加 bphigh4、2、烟雾 100 可显著降低残余偏差。其他变量 weight2 和 avedrnk2 似乎对模型的影响较小,即使它们都具有较低的 p 值。

评估模型的预测能力

 
fitted.results <- predict(model,newdata=test,type='response')
fitted.results <- ifelse(fitted.results > 0.5,1,0)

misClasificError <- mean(fitted.results != test$cvdstrk3)
print(paste('Accuracy',1-misClasificError))
##[1] "Accuracy 0.961296978629329

测试装置上的0.96精度是一个非常好的结果。

绘制 ROC 曲线并计算 AUC(曲线下的面积)。

library(ROCR)
p <- predict(model, newdata=test, type="response")
pr <- prediction(p, test$cvdstrk3)
prf <- performance(pr, measure = "tpr", x.measure = "fpr")
plot(prf)
auc <- performance(pr, measure = "auc")
auc <- auc@y.values[[1]]
auc

##[1] 0.7226642

最后一点,当我们分析健康数据时,我们必须意识到自我报告的患病率可能存在偏见,因为受访者可能不知道他们的风险状况。因此,为了获得更精确的估计,研究人员正在使用实验室测试以及自我报告的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/27683.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

docker启动出现Error response from daemon: Cannot restart container的报错

1、发现问题 突然发现启动(重启)容器的时候报这个错 Error response from daemon: Cannot restart container 容器id: driver failed programming external connectivity on endpoint 容器名 (容器id): (iptables failed: iptables --wait -t nat -A DOCKER -p tcp -d 0/0 --…

图像超分辨率:优化最近邻插值Super-Resolution by Predicting Offsets

文章目录3. Super-Resolution by Predicting Offsets3.1. 这篇论文用于处理栅格化图像的超分&#xff0c;不知道这样翻译对不对&#xff0c;3.2. 作者认为栅格图像的边缘比较规则&#xff0c;可以训练一个offset map移动栅格图像的 边缘点&#xff08;背景和前景像素 移动 和交…

能率携手梦想改造家,打造适老化住宅新典范

家装改造类节目《梦想改造家》第九季温情回归&#xff0c;日本一级建筑设计师本间贵史携手知名燃热品牌能率&#xff0c;与节目组一起关注民生&#xff0c;走进由一家五口组成的“足不出户的家”&#xff0c;共启老宅改造计划&#xff0c;倾情助力普通家庭拥抱生活与梦想&#…

(Matlab实现)蚂蚁狮子优化算法在电力系统中的应用

目录 1 知识一网打尽 2 蚂蚁狮子优化算法在电力系统经济调度中的应用 3 运行结果 4 Matlab代码实现 1 知识一网打尽 这里总结一位博主的电力系统经济调度目录 蚂蚁狮子优化算法&#xff08;完整Matlab代码实现&#xff09; 多目标蚂蚁狮子优化算法&#xff08;Matlab代码…

拒绝灵感焦虑,藏在UI设计师书签里的宝藏网站!

都在说UI设计“越来越吃香”&#xff0c;导致其他门类的设计师一心想转行。 上次和入行8年的UI大佬聊天&#xff0c;她告诉小摹3条UI设计师必备能力&#xff1a; 审美能力和眼界&#xff1a;一个界面好不好看最后都是UI来定&#xff0c;为了不背锅&#xff0c;UI一定要有国际流…

dolphinscheduler2.0.5性能手动测试

目录&#x1f42c;官方配置文件说明&#x1f42c;测试并发量&#x1f420;线程数量设置100&#x1f420;线程数量设置200&#x1f420;线程数量设置500&#x1f42c;测试结论&#x1f42c;官方配置文件说明 官方说明 master.exec.threads&#xff1a; master工作线程数量,用于…

【2013】408联考数据结构真题整理

2013年 1 题目 解析 原始&#xff1a;升序 升序 变 升序 尾插法 改编&#xff1a;升序 升序 变 降序 头插法 2 题目 答案&#xff1a;C 解析 3 题目 答案&#xff1a;B 解析 二叉排序树&#xff0c;或者是空树&#xff0c;或者是满足以下性质的二叉树&#xff1a; …

基于PHP+MySQL音乐网站的设计与实现

随着时代的发展,音乐已经逐渐成为了人们生活中必不可少的一种调剂品,人们对音乐的追求也越来越强烈,为此我通过PHP和MYSQL开发了本音乐网站 本音乐网站是一个综合性的音乐分享网站,它主要实现了娱乐新闻,上榜歌手,音乐试听,音乐下载,下载排行,音乐库,在线留言等基本的音乐共享功…

Matplotlib绘制折线图、散点图、柱状图、直方图、饼图代码

一、折线图 以折线的上升或下降来表示统计数量的增减变化的统计图 特点&#xff1a;能够显示数据的变化趋势&#xff0c;反映事物的变化情况(变化)函数&#xff1a;plt.plot(x, y) import matplotlib.pyplot as plt import randomfrom pylab import mpl mpl.rcParams["f…

day31 文件上传js验证mimeuser.ini语言特性

前言 #知识点&#xff1a; 1、文件上传-前端验证 2、文件上传-黑白名单 3、文件上传-user.ini妙用 4、文件上传-PHP语言特性 #详细点&#xff1a; 1、检测层面&#xff1a;前端&#xff0c;后端等 2、检测内容&#xff1a;文件头&#xff0c;完整性&#xff0c;二次渲染…

基于MATLABsimulink的《电路原理》课程仿真实验平台开发

目 录 摘 要 I Abstract II 第一章 绪论 1 1.1选题背景及意义 1 1.2设计内容 1 1.3设计思想 2 第二章 MATLAB简介 3 2.1 MATLAB程序设计 3 2.2 Simulink仿真 4 2.2.1 Simulink 启动 4 2.2.2 Simulink 模块库及模块操作 4 2.2.3 仿真参数设置 6 2.3图形用户界面&#xff08;GUI&…

基于STM32的温控风扇

本设计是基于STM32的温控风扇&#xff0c;主要实现以下功能&#xff1a; 温度控制风速&#xff0c;四个挡位&#xff0c;停止、低速、中速、高速 按键可切换模式&#xff0c;可手动切换挡位&#xff0c;四个挡位&#xff0c;停止、低速、中速、高速 按键设置温度值&#xff0c…

网络刷卡器开发,刷新移动物联新生活

在物联网应用需求和身份校验普及的影响下&#xff0c;沐渥自主研发生产了一款基于网络协议传输的读卡设备——网络刷卡器&#xff0c;这是一款体积小巧&#xff0c;方便携带&#xff0c;即插即用&#xff0c;无需安装驱动&#xff0c;采用USB通讯&#xff0c;即刻响应对接客户的…

Linux系统漏洞本地提权

目录 一、实验项目名称 二、实验目的 三、实验内容 四、实验环境 五、实验步骤 六、实验结果 七、实验总结 一、实验项目名称 Linux系统漏洞本地提权及跳板设置实验 二、实验目的 1.msf工具的使用&#xff1b; 2.“脏牛”漏洞CVE-2016-5195漏洞利用方法。 三、实验…

MCE | 铁死亡——调节性细胞死亡

多细胞生物中&#xff0c;调节性细胞死亡过程 (RCD) 是细胞维持组织形态和功能必不可少的稳态机制。此前研究较多的调节性细胞死亡包括三大类&#xff1a;细胞凋亡、自噬和坏死。 “铁死亡”这一概念最早在 2012 年由 Dr. Brent R Stockwell 提出&#xff0c;它是一种铁离子依赖…

ORM概念

ORM概念 ORM是Object Relational Mapping 对象关系映射。简单来说&#xff0c;就是把数据库表和实体类及实体类的属性对应起来&#xff0c;让开发者操作实体类就实现操作数据库表。 ORM(Object Relation Mapping)对象关系映射 思想&#xff1a;将关系数据库中表中的记录映射为对…

百货集团数字化转型方案

一、案例简述 后疫情时代对零售业&#xff0c;特别是百货和购物中心造成了巨大冲击&#xff0c;驱使实体零售业拥抱数字化转型。从总体上看&#xff0c;实体零售企业对于数字化转型的必要性已有充分的认知及一定的实践操作&#xff0c;但数字化仍处于起步阶段&#xff0c;线上…

”消费全返“是割韭菜,非也,广告电商引领全新“全返”模式

谈及消费全返&#xff0c;大家可能会避而不谈&#xff0c;因为有“云联惠”这个实实在在的案例发生&#xff0c;各大企业都怕进局子&#xff0c;现在都不弄消费全返了。说到“云联惠”&#xff0c;为什么它能在短时间内火得这么快&#xff0c;因为他们以“全返”为阙头&#xf…

驱动开发2

P 19 驱动设计的思想&#xff1a;面向对象/分层/分离 用结构体来表示某个对象 分离思想 将某个有很多类似操作的写在一起&#xff0c;这样我们根据参数就可以替换不同的步骤了 1、上下分层 将设计硬件的比如 初始化gpio、设置GPIO写成board.c 同用的就写在drv.c里面 2、左右分…

python数据分析与可视化

//注&#xff1a;绿色为正确答案&#xff0c;红色为错误答案&#xff0c;粉色为本人做错之后&#xff0c;系统给出的答案&#xff0c;可能有些题本人未标记&#xff0c;但是是可以区分的&#xff0c;题目中存在重复题目&#xff0c;下面有三张图的代码建议交代码块&#xff0c;…