A题 影响城市居民身体健康的因素分析
附件A1是某市卫生健康研究部门对部分居民所做的“慢性非传染性疾病及其相关影响因素流行病学”调查问卷表,附件A2是相应的调查数据结果,附件A3是中国营养学会最新修订的《中国居民膳食指南》中为平衡居民膳食提出的八条准则。
给出的数据涉及调查问卷,虽然得到的问卷结果很好。但是我认为这依旧属于问卷类比赛,所以问卷的信度效度检验,一些问卷类赛题需要做的环节,个人建议可以仿照学习一下。因此,给大家找了正大杯(问卷类比赛中国赛的地位)的优秀论文,大家可以参考着进行类似于问卷处理即可。
数据分析,给出的附件二数据可以大致根据附件一问题设置,分成大致几类一级指标。图中颜色,主要涉及不同的题目,蓝色涉及问题三、黄色绿色涉及到问题二题目。
数据预处理,包含降维、异常值、缺失值等操作。这里展示异常值问题,例如 吸烟问题 ID12342 1963年出生的人,问卷结果显示不抽烟,但是每天吸烟7根,一周吸烟7次。一定是一个不对的数据为异常值。后续,关于其他的处理还需要我进行实际操作才能给大家分享更加详细的处理。
问题1、参考附件A3,分析附件A2中居民的饮食习惯的合理性,并说明存在的主要问题。
数据处理+分析
对于问题一,分析居民的饮食习惯合理性即对给出数据进行分析,给出必要文字描述即可。这里问题一实质上出题人的想法应该是,让大家简单的对题目给出的数据以及参考资料进行分析描述,做一个初步的处理。方法类似于语文建模,对较为关键的因素指标进行单因素描述性分析即可。
我认为主要可以参考附件三中,八准则的三四五条判定饮食的合理性。
问题2 、分析居民的生活习惯和饮食习惯是否与年龄、性别、婚姻状况、文化程度、职业等因素相关。
降维处理+相关性分析
对于问题二,问题实质为分析生活习惯和饮食习惯两个变量与其他给出数据指标的相关性(可以看做是单一变量对多变量的多元分析问题,相关方法可以参考司守奎老师第十章多元分析这一章)。切记!!问题二不要分析的过于深,问题二三是一个整体是层层递进的过程,没必要在问题二全部分析完毕。
问题3 、根据附件A2中的数据,深入分析常见慢性病(如高血压、糖尿病等)与吸烟、饮酒、饮食习惯、生活习惯、工作性质、运动等因素的关系以及相关程度。
对于问题三,可以理解为问题二的深入分析,虽然不再是问题二的生活习惯和饮食习惯两个变量。而是,直接想让我们得出常见慢性病与其他各个指标相关程度,换而言之,想让我们得出确切的函数表达式(用以描述两个变量与其他指标的函数关系,类似于得出y=k1x1+k2x2+k3x3+b这样的结果。
对于问题三,直接去分析常见慢性病与其他200多个指标的相关性,一定是不可取的。因此,我认为问题二三的处理应该涉及数据降维工作,即对于有较多指标的饮食习惯进行降维处理后。再建立类似于得出y=k1x1+k2x2+k3x3+b的模型会更加合适。
问题4 、依据附件A2中居民的具体情况,对居民进行合理分类,并针对各类人群提出有利于身体健康的膳食、运动等方面的合理建议。
对于问题四,题目中提及的进行对居民进行合理分类,我们可以选择一些分类模型,得出合理的结果就可以,类似于Q型、R型聚类分析等。也可以参考正大本的论文,该问题类似于正大杯中,我们去把客户进行分类,挖掘潜在用户。可以参考一下。
文中提及资料 点击 阅读原文 获取
注记:
该思路更新至7.27 后续可能也会根据大家的评论进行必要修改。个人拙见,希望大家理解。
1、调查问卷
问卷信度和效度
参考正大杯的优秀论文(问卷类)
2、数据预处理
异常值 例如 吸烟问题 ID12342 1963年出生的人,问卷结果显示不抽烟,但是每天吸烟7根,一周吸烟7次。一定是个不对的数据为异常值。
3、问题实质
问题一、数据处理+数据分析
问题二、数据降维+相关性分析 多元分析(十课时保奖课第五六课时提及过)
问题三、数据降维+确定性函数关系
问题四、分类
4、问题四思路可以沿用正大杯论文中潜在用户挖掘这一类型的做法。
文中提及资料 点击 阅读原文 获取