R语言对BRFSS数据探索回归数据分析

news2025/1/12 22:50:50

执行摘要

最近我们被客户要求撰写关于BRFSS的研究报告,包括一些图形和统计输出。该项目包括探索一个现实世界的数据集-CDC的2013年  行为风险因素监视系统  -并针对三个 选择的研究问题创建报告。

选择的研究问题及其各自的结果是:

  • 被访者对其健康状况的看法是否与他们的体重指数(BMI)有关?性别之间有什么区别吗?
    • 是的,健康观念和BMI之间存在明显的关系,并且存在性别差异。
  • 身为幼儿的父母如何影响所报告的睡眠时间?这在性别上有何不同?
    • 作为幼儿的父母,据报道睡眠较少,包括性别差异。
  • 对一般健康感的回答是否与调查的时间有关?各州之间如何显示差异?
    • 在国家一级,冬季和非冬季反应之间没有显着差异,但有迹象表明各州的反应有所不同。

加载包

library(ggplot2)
library(dplyr)

载入资料

数据是从文件的本地副本加载的。

load("brfss2013.RData")
dim(brfss2013)
## [1] 491775    330

从上面可以看出,该数据集包含近500,000个观察值以及330个可能的变量。


第1部分:数据

BRFSS的背景

根据CDC 网站的说法  ,“行为风险因素监视系统(BRFSS)是美国首屈一指的健康相关电话调查系统,该系统收集有关美国居民有关健康相关风险行为,慢性健康状况以及预防措施使用情况的状态数据服务。

方法

根据疾病预防控制中心的说法,“ BRFSS是一项横断面电话调查,州卫生部门每月通过座机电话和蜂窝电话进行电话调查,并获得标准化的问卷调查以及疾病预防控制中心的技术和方法支持。

此外,考虑到BRFSS的方法,还有一些关于偏差的担忧:

  • 通过使用电话调查,可能会漏报几种类型的个人:

    • 那些无法使用座机或手机的人。

    • 那些原则上不回应电话调查的人。

    • 进行调查时无法进行调查的项目。

  • 由于访谈问题的答案尚未得到验证,因此受访者可能会以多种方式改变他们的回答:
    • 过度报告理想的行为和特质,同时低估不良行为。

    • 系统地夸大身高或收入等特征。

    • 由于要求您记住30天内或更长时间的详细信息,所以记错了关键信息。

  • 最后,参与的国家机构之间的面试做法和问题集可能存在不一致之处。

为了将来参考,如果数据集包含有关每个采访的详细信息,那么该收集是关于一天中的什么时间以及花费了多长时间的信息。


第2部分:研究问题

研究问题1:

被访者对其健康状况的看法是否与他们的体重指数(BMI)有关?性别之间有什么区别吗?

这是一个有趣的问题,因为它寻求人们对自己健康状况的看法与总体健康状况的较为客观的衡量指标之间的联系。它已得到广泛认可。性别之间的差异也很有趣,因为人们可以挑出社会中不同的观念和压力。

使用以下变量进行了分析:

  • genhlth-对应于一般健康
  • X_bmi5cat-将BMI分为4类的计算变量。BMI来自报告的身高和体重。
  • 性别-报告的性别

研究问题2:

身为幼儿的父母如何影响所报告的睡眠时间?这在性别上有何不同?

这是一个有趣的问题,可以估算作为年幼子女的父母可能会对受访者产生的影响。了解男性和女性之间的这种影响是否显着不同也很有用。

使用以下变量进行了分析:

  • sleptim1-报告的每晚睡眠时间
  • rcsrltn2-受访者与同一家庭中随机孩子的关系
  • X_impcage-估算变量,将孩子年龄分为4种可能的类别。
  • 性别-报告的性别

研究问题3:

对一般健康感的回答是否与调查的时间有关?各州之间如何显示差异?

这个问题着眼于可能的季节性因素如何影响响​​应。在这种情况下,关注的是冬季对整体健康反应的潜在影响。作为后续,它考察了美国各州的样本,以考虑可能的地区差异。

使用以下变量进行了分析:

  • genhlth-对应于一般健康
  • imonth-进行采访的月份
  • X_state-受访者的居住状态

第3部分:探索性数据分析

研究问题1:

被访者对其健康状况的看法是否与他们的体重指数(BMI)有关?性别之间有什么区别吗?

# Select appropriate variables from dataset and omit NAs
q1 <- select(brfss2013,genhlth,sex,X_bmi5cat) %>% na.omit()
dim(q1)
## [1] 463274      3
prop.table(table(q1$genhlth,q1$X_bmi5cat),2)
##            
##             Underweight Normal weight Overweight      Obese
##   Excellent  0.19990243    0.26019496 0.17373887 0.07933813
##   Very good  0.26393463    0.35069868 0.35401238 0.26824837
##   Good       0.26149530    0.24667514 0.30698451 0.37088006
##   Fair       0.15831199    0.09751640 0.11943759 0.19913468
##   Poor       0.11635565    0.04491484 0.04582665 0.08239876

初始加载数据(超过460,000次观察)后,我们可以初步查看频率,然后考虑它们的比例。

解释上表的方式是,对于每一列(“体重不足”,“正常体重”,……),表示健康状况为“优秀”,“非常好”,……的受访者比例是多少?列总和为1。

可以在下面看到更简单的图形表示:

g <- ggplot(q1) + aes(x=X_bmi5cat,fill=genhlth) + geom_bar(position = "fill") 
g <- g + xlab("BMI category") + ylab("Proportion") + scale_fill_discrete(name="Reported Health")
g

有一些有趣的趋势需要观察:

  • 从“体重不足”到“正常体重”的报告,“健康”状况良好的报告比例增加,但从“正常体重”到肥胖的报告比例显着下降。这表明可能对整体健康状况有所了解。

  • 在报告“健康”状况差的人中,“显着”下降的幅度似乎大于增长趋势。这可能表明缺乏对什么构成健康的意识/教育。

性别的影响如何?

在这种情况下,我们可以观察到以下内容:

  • 当BMI分类为“体重不足”或“正常体重”时,女性报告的“良好”健康状况比例高于男性。这可能表明健康与苗条之间的联系更加紧密,反映出更广泛的社会观点。

  • 当女性的BMI分类为“超重”或“肥胖”时,女性报告的“良好”健康状况比例低于男性。这可能表明对体重过度敏感是整体健康的一个组成部分。

总而言之,健康感知与BMI之间存在明显的关系,并且存在性别差异。

但是,在进行了分析的情况下,这些关系不能用来推断因果关系。


研究问题2:

身为幼儿的父母如何影响所报告的睡眠时间?这在性别上有何不同?

## 
##      0      1      2      3      4      5      6      7      8      9 
##      1    228   1076   3496  14261  33436 106197 142469 141102  23800 
##     10     11     12     13     14     15     16     17     18     19 
##  12102    833   3675    199    447    367    369     35    164     13 
##     20     21     22     23     24    103    450 
##     64      3     10      4     35      1      1

初始数据加载表明数据中存在编码错误。清理工作涉及删除每天超过16小时的睡眠时间。

## [1] 484056      2
## [1] 57857     5

此数据加载执行两个数据选择操作:

  • 首先,它从原始数据集中选择合适的列进入q2数据框。

  • 然后,它创建两个单独的数据框进行分析:

    • q2_pop:针对更广泛的人群,省略了错误编码的值。

    • q2_parent:利用来自BRFSS的“随机子选择”问题集,并选择那些将自己标识为“父母”的问题。此外,它还增加了一个列以识别10岁以下的儿童。

重要的是要注意,尽管总体人口约为480,000个样本,但BRFSS的“随机子选择”模块产生的样本数略少于60,000。

对于一般人群,我们有以下报告的睡眠分布(红线对应于平均值):

##        avg       sd
## 1 7.042784 1.431061

对于父母群体,分布的特征是:

##        avg       sd
## 1 6.854521 1.315791

对于小孩的父母,分布看起来像:

##        avg      sd
## 1 6.847745 1.31827

最后,看看有小孩的父母的性别差异:

## # A tibble: 2 x 3
##      sex      avg       sd
##   <fctr>    <dbl>    <dbl>
## 1   Male 6.755862 1.230122
## 2 Female 6.909699 1.371082

从分布的特征和最初的研究问题来看,似乎总的人口与作为小孩父母的儿童之间报告的睡眠小时数之间存在性别差异。期望进一步的统计技术将使我们能够量化这种差异的重要性。


研究问题3:

对一般健康感的回答是否与调查的时间有关?各州之间如何显示差异?

## [1] 489790      4
##            
##                  FALSE       TRUE
##   Excellent 0.17393076 0.17643433
##   Very good 0.32401281 0.32724673
##   Good      0.30769272 0.30641019
##   Fair      0.13705171 0.13362268
##   Poor      0.05731200 0.05628606

此问题的初始数据加载产生了大约490,000个样本。根据研究问题,提取的变量是报告的总体健康状况,访问的月份以及受访者的居住状态。

为了进行此分析,增加了一个额外的列,指示采访是否在通常与冬季相关的月份进行。

查看比例表(向下查看FALSE和TRUE列),也可以在下图中可视化:

有趣的是,当我们查看特定于州的数据时,会出现稍微不同的情况。选择了美国各州的样本进行进一步分析:

## [1] 43608     4
## Source: local data frame [10 x 3]
## Groups: X_state [?]
## 
##          X_state winter count
##           <fctr>  <lgl> <int>
## 1         Alaska  FALSE  3432
## 2         Alaska   TRUE  1129
## 3     California  FALSE 11105
## 4     California   TRUE   403
## 5  Massachusetts  FALSE 10631
## 6  Massachusetts   TRUE  4411
## 7  New Hampshire  FALSE  4525
## 8  New Hampshire   TRUE  1539
## 9        Wyoming  FALSE  5685
## 10       Wyoming   TRUE   748

在这种情况下,该图显示出表明冬季健康状况良好的受访者比例存在明显差异。这可能归因于不同的因素,例如:

  • 冬季的心情(与全国其他地方相比,气温较低或气温较高)

  • 各州数据收集的差异-以加利福尼亚州为例,冬季的病例数量很少

  • 其他因素。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/76065.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis框架(一):Redis入门和Jedis连接池

Redis入门和Jedis连接池&#xff1a;基本介绍实例Demo源码分析SpringCloud章节复习已经过去&#xff0c;新的章节Redis开始了&#xff0c;这个章节中将会回顾Redis 主要依照以下几个原则 基础实战的Demo和Coding上传到我的代码仓库在原有基础上加入一些设计模式&#xff0c;st…

c#扩展方法

1、前言: 通常,我们想要向一个类型中添加方法,可以通过以下两种方式: 修改源代码。 在派生类中定义新的方法。 但是以上方法并不是万能的,我们并不能保证拥有一个类型的源码,也并不能保证这个类型可以让我们继承(如结构,枚举,String等等)。但是C#提供了一个办法,…

教你如何写一个符合自己需求的小程序日历组件

1|0 前言 很多时候&#xff0c;我们生活中会有各种打卡的情况&#xff0c;比如 keep 的运动打卡、单词的学习打卡和各种签到打卡或者酒店的入住时间选择&#xff0c;这时候就需要我们书写一个日历组件来处理我们这种需求。 但是更多时候&#xff0c;我们都是网上找一个插件直…

【HBase】【一】windows搭建源码开发环境

目录环境配置1. Windows安装Cygwin2. 安装ProtocolBuffers3. 启动zookeeper4. 搭建Hadoop环境5. 编译Hbase源码6. 启动HRegionServer7. 启动HMaster8. 启动HShell客户端环境配置 系统&#xff1a;windows10 IDE: Eclipse hadoop: 3.3.4 hbase: 2.4.15 java: 17 1. Window…

pytest学习——pytest插件的7种用法

1.pytest-repeat 重复跑 安装包 pip install pytest-repeat第一种用法&#xff1a; 装饰器 pytest.mark.repeat(次数) 示例代码 import pytest pytest.mark.repeat(5) def test_001(): assert 12 if __name__ __main__: pytest.main([-sv,__file__])第二种用法&#xff1a…

[附源码]Python计算机毕业设计SSM基于数据挖掘的毕业生离校信息系统(程序+LW)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 Ma…

基于牛顿方法在直流微电网潮流研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️❤️&#x1f4a5;&#x1f4a5;&#x1f4a5; &#x1f389;作者研究&#xff1a;&#x1f3c5;&#x1f3c5;&#x1f3c5;本科计算机专业&#xff0c;研究生电气学硕…

拆解理想汽车Q3财报:收入增速继续下滑,年内两次更换首席技术官

12月9日&#xff0c;理想汽车&#xff08;NASDAQ:LI、HK:02015&#xff09;发布截至2022年9月30日止季度&#xff08;即2022年第三季度&#xff09;的未经审计财务业绩。财报显示&#xff0c;理想汽车2022年第三季度的收入为93.42亿元&#xff0c;同比增加20.2%&#xff0c;低于…

(九)Vue之侦听/监听/监视属性

文章目录普通实现监视属性实现Vue里配置监视属性Vue外配置监视属性配置属性immediate配置deep&#xff08;深度监视&#xff09;配置普通监视监视多级结构中某个属性的变化监视多级结构中所有属性的变化监视属性简写watch配置简写$watch配置简写监视属性vs计算属性Vue学习目录上…

2023最新SSM计算机毕业设计选题大全(附源码+LW)之java农产品推广平台98966

对于计算机专业的学生最头疼的就是临近毕业时的毕业设计,对于如何选题,技术选型等这些问题,难道了大部分人,确实,还没毕业的学生对于这些问题还比较陌生,只有学习的理论知识,没有实战经验怎么能独自完成毕业设计这一系列的流程,今天我们就聊聊如何快速应对这一难题. 比较容易的…

ITK 形态学中的开运算和闭运算 腐蚀 膨胀

一. 图像形态学处理 —— 膨胀和腐蚀 腐蚀在二值图像的基础上做“收缩”或“细化”操作; 膨胀在二值图像的基础上做“加长”或“变粗”的操作。 什么是二值图像呢&#xff1f;把一幅图片看做成一个二维的数组&#xff0c;那么二值图像是一个只有0和1的逻辑数组&#xff0c;我们…

vertical-align属性

vertical-align属性 CSS的vertical-align属性使用场景&#xff0c;经常用于设置图片或者表单(行内块元素)和文字垂直对齐 用于设置一个元素的垂直对齐方式&#xff0c;但是它只针对于行内元素或者行内块元素有效 源代码 语法&#xff1a; vertical-align { baseline | top | …

序——在linux下学习C语言

目录 在Linux下学习C语言的前提。。。 一、Linux的一些常见命令 二、Linux中VI和VIM的一些命令操作 1、在VIM中控制光标 2、vim中的插入模式 3、退出插入模式的方法 4、在VIM模式中的删除命令 5、撤销命令 6、 粘贴和拷贝命令 7、查看文件信息和寻找另一半括号 8、缩…

十万部冷知识:日本国歌为什么像哀乐?

大家在世界杯上看日本队比赛的时候&#xff0c;有没有感觉他们的国歌跟哀乐似的&#xff0c;听着就跟在办葬礼一样。其实&#xff0c;这还真不是像与不像的问题&#xff0c;而是因为它确实是一首挽歌。 这首歌叫《君之代》&#xff0c;出自于《古今和歌集》&#xff0c;是在天皇…

关于Servlet编程(1)

1.Servlet编程中常见网页错误 404错误 : 访问不存在 一般都是路径出错. 405错误 : 请求方法不允许 使用访问的方法有误 只书写了接受Get方法的代码.却使用POST方法访问. 代码中忘记注释super()方法也会返回405 因为源码是直接返回405的 这里展示的两段代码都会引发上图的40…

[附源码]计算机毕业设计健康医疗体检Springboot程序

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

powershell实现发送win10系统通知

powershell实现发送win10系统通知 一、实现方式是使用系统自带的类NotifyIcon 关于Notify类的属性和使用方法可以查阅NotifyIcon官方文档&#xff0c;这主要讲一下用到的几个变量和方法。 1. Icon Icon只支持 .ico格式的图标&#xff0c;属于自定义图标&#xff0c;只有当 Ba…

PLC、运动控制卡、运动控制器,傻傻分不清

前言 最近有不少做PLC开发的小伙伴&#xff0c;在一些咨询运动控制卡、运动控制器相关的问题&#xff0c;很多人不清楚它们之间有什么区别和联系&#xff0c;今天跟大家就PLC、运动控制卡、运动控制器区别及选型做个分享。 背景 随着工业技术的发展&#xff0c;工业机器人应…

怎么调整视频画布?这些技巧你知道吗?

小伙伴们平时在制作视频时是否有遇到过这种情况&#xff1a;从网站下载的视频素材画面过大&#xff0c;两边还带有黑边&#xff0c;插入到自己的视频后&#xff0c;显得视频整体上很突兀&#xff0c;美观度也受到影响&#xff0c;没有达到自己预期的效果。 如果你们也有这样的烦…

什么是CodeArts?

什么是CodeArts 软件开发生产线&#xff08;CodeArts&#xff09;原名“软件开发平台&#xff08;DevCloud&#xff09;”是集华为近30年研发实践、前沿研发理念、先进研发工具为一体的一站式云端DevOps平台&#xff0c;面向开发者提供的云服务&#xff0c;即开即用&#xff0…