CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查,旨在建设一个高质量的公共微观数据库,采集的信息涵盖社会经济状况和健康状况等多维度的信息,以满足老龄科学研究的需要。
为利用国际上最佳的数据采集方式,并确保研究结果的国际可比性CHARLS 参照包括美国的健康与退休研究(HRS)在内的系列国际老龄调查研究开展调查设计。其全国基线调查于 2011-12 年进行,于 2013 年、2015 年、2018 年和 2020 年分别开展了 4 轮常规问卷的追踪调查,并于 2014 年完成了中国中老年人生命历程调查。为确保样本的代表性,CHARLS 基线调查覆盖了全国 150 个国家/地区、450 个村庄/城市社区,涉及 10,257户家庭的 17,708 人,反映了中国中老年人群的总体情况。2019 年底到 2020 年初,新冠疫情在中国爆发,为及时记录新冠疫情对中国中老年人生活和健康的影响,在 2020 年的第 5 轮调查中增加采集了疫情相关的信息。
CHARLS 项目所采集的所有数据均保存在北京大学中国社会科学调查中心。CHARLS 项目前四轮调查数据和中国中老年人生命历程调查数据已全部在 CHARLS 网站(https://charls.pku.edu.cn)上公开发布。截至 2023 年 10 月底,有 8.8 万余名用户注册并下载了数据。基于 CHARLS 的出版物增长迅速,据不完全统计,截止 2023 年 9 月底,以CHARLS 数据为基础发表的论文有 4,587 篇,其中英文期刊论文有 2,079 篇,中文期刊
论文 1,639 篇,学位论文有 697 篇。
最近CHARLS数据库挺火的,想不关注都难,我最近也花了一点时间研究了一下,让咱们一起来学习最近CHARLS数据库挖掘。
数据的下载地址如下
https://charls.pku.edu.cn/
首先咱们要在主页面注册一个账号
填一下相关信息就行,这没什么好说的
申请账号以后进入到主页面,需要哪一年的数据都要进行申请,一般都成功,大概3个工作日通过,通过上面的内可以得知2011年是数据的基线表,后面的是随访分析,所以2011年是一定要下载的
咱们进入到2011年可以看到一些相关的内容,主要分两类
一是:与用户相关的文档,这个主要是对数据的一些介绍,
比如怎么收集都数据的,和nhanes有些相似,采用多阶段抽样的方式,先选定县区,然后再县区内随机抽取3个二级单元
因此charls数据也是提供权重的,对于权重的使用可以参看这篇文章《CHINA HEALTH AND RETIREMENT LONGITUDINAL STUDY – 2011-2012 NATIONAL BASELINE USERS’ GUIDE》,是个指导性的官方文章
目前charls数据分析属于野蛮生长阶段,分析方法各种各样,非常乱,很多教程、课程和文章都没有进行加权分析。
咱们看篇chrals介绍文章,研究团队是北京大学的,应该就是数据库的工作团队
文章地址:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3937970/
文章介绍到,加权的chrals数据基线表和人口普查非常相似
因此如果你做针对全国性的研究,你没加权的话首先基线表就不对了,不用说其他分析了。
还有一些其他的介绍如变量名的介绍,怎么收集数据,
还有家庭问卷和社区问卷,就不一一介绍了。
第二个大内容就是我们关心的数据了
Charls的数据量不大,但是变量挺多的,非常详尽,特别是一些社科类的数据,又经过多年的随访,挺适合做重复测量数据的,因为表格众多,所以涉及到数据的合并、拼接和清洗,这是一个重要的内容,下一节继续介绍。