CHARLS数据库挖掘系列教程(1)---数据库下载

news2024/11/15 16:01:23

CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查,旨在建设一个高质量的公共微观数据库,采集的信息涵盖社会经济状况和健康状况等多维度的信息,以满足老龄科学研究的需要。
为利用国际上最佳的数据采集方式,并确保研究结果的国际可比性CHARLS 参照包括美国的健康与退休研究(HRS)在内的系列国际老龄调查研究开展调查设计。其全国基线调查于 2011-12 年进行,于 2013 年、2015 年、2018 年和 2020 年分别开展了 4 轮常规问卷的追踪调查,并于 2014 年完成了中国中老年人生命历程调查。为确保样本的代表性,CHARLS 基线调查覆盖了全国 150 个国家/地区、450 个村庄/城市社区,涉及 10,257户家庭的 17,708 人,反映了中国中老年人群的总体情况。2019 年底到 2020 年初,新冠疫情在中国爆发,为及时记录新冠疫情对中国中老年人生活和健康的影响,在 2020 年的第 5 轮调查中增加采集了疫情相关的信息。

在这里插入图片描述

CHARLS 项目所采集的所有数据均保存在北京大学中国社会科学调查中心。CHARLS 项目前四轮调查数据和中国中老年人生命历程调查数据已全部在 CHARLS 网站(https://charls.pku.edu.cn)上公开发布。截至 2023 年 10 月底,有 8.8 万余名用户注册并下载了数据。基于 CHARLS 的出版物增长迅速,据不完全统计,截止 2023 年 9 月底,以CHARLS 数据为基础发表的论文有 4,587 篇,其中英文期刊论文有 2,079 篇,中文期刊
论文 1,639 篇,学位论文有 697 篇。

最近CHARLS数据库挺火的,想不关注都难,我最近也花了一点时间研究了一下,让咱们一起来学习最近CHARLS数据库挖掘。

数据的下载地址如下
https://charls.pku.edu.cn/

首先咱们要在主页面注册一个账号

在这里插入图片描述

填一下相关信息就行,这没什么好说的

在这里插入图片描述
申请账号以后进入到主页面,需要哪一年的数据都要进行申请,一般都成功,大概3个工作日通过,通过上面的内可以得知2011年是数据的基线表,后面的是随访分析,所以2011年是一定要下载的

在这里插入图片描述
咱们进入到2011年可以看到一些相关的内容,主要分两类
一是:与用户相关的文档,这个主要是对数据的一些介绍,

在这里插入图片描述

比如怎么收集都数据的,和nhanes有些相似,采用多阶段抽样的方式,先选定县区,然后再县区内随机抽取3个二级单元

在这里插入图片描述

因此charls数据也是提供权重的,对于权重的使用可以参看这篇文章《CHINA HEALTH AND RETIREMENT LONGITUDINAL STUDY – 2011-2012 NATIONAL BASELINE USERS’ GUIDE》,是个指导性的官方文章
目前charls数据分析属于野蛮生长阶段,分析方法各种各样,非常乱,很多教程、课程和文章都没有进行加权分析。

咱们看篇chrals介绍文章,研究团队是北京大学的,应该就是数据库的工作团队

在这里插入图片描述

文章地址:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3937970/

文章介绍到,加权的chrals数据基线表和人口普查非常相似

在这里插入图片描述
因此如果你做针对全国性的研究,你没加权的话首先基线表就不对了,不用说其他分析了。
还有一些其他的介绍如变量名的介绍,怎么收集数据,

在这里插入图片描述
还有家庭问卷和社区问卷,就不一一介绍了。

第二个大内容就是我们关心的数据了

在这里插入图片描述
Charls的数据量不大,但是变量挺多的,非常详尽,特别是一些社科类的数据,又经过多年的随访,挺适合做重复测量数据的,因为表格众多,所以涉及到数据的合并、拼接和清洗,这是一个重要的内容,下一节继续介绍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2081118.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YOLOv8实例分割推理流程及Python代码

1.YOLOv8_Seg推理流程 2.YOLOv8_Seg推理代码 3.全部代码 """ yolov8:目标检测推理代码 python """ import torch import cv2 import numpy as np import onnxruntime as ort import os import torch.nn.functional as F def xywh2xyxy(x):"…

【K8S 基本概念】Kubernets的架构和核心概念及集群搭建

一、Kubernets 1.作用:用于自动部署扩展以及管理容器化部署的应用程序,半开源,k8s的底层是基于谷歌go语言开发的,负责自动化运维管理多个容器化的应用的集群,容器编排框架的工具。现在使用的版本1.18-1.24&#xff0c…

开放式耳机怎么戴?佩戴舒适在线的几款开放式耳机分享

开放式耳机的佩戴方式与传统的入耳式耳机有所不同,它采用了一种挂耳式的设计,提供了一种新颖的佩戴体验,以下是开放式耳机的佩戴方式。 1. 开箱及外观:首先,从包装盒中取出耳机及其配件,包括耳机本体、充电…

java-Mybatis框架02

1.#{} 和${}区别 #{} 是占位符,是采用编译方式向sql中传值,可以防止sql注入,如果往sql中传值,使用#{}${} 是将内容直接拼接到sql语句中,一般不用于向sql中传值,一般用于向sql中动态传递列名。区别&#xff…

电控专业课程已开放

凌鸥学园旨在为电机控制爱好者提供学习交流成长平台,缓解电控行业人才缺口扩大趋势,共同打造繁荣行业生态。我们将全面整合LKS MCU相关资料,包括开发环境、应用笔记、教学视频、学习指导等,并设有专业课程。 通过凌鸥学园的专业体…

【RabbitMQ】快速上手

目 录 一. RabbitMQ 安装二. RabbitMQ 核心概念2.1 Producer 和 Consumer2.2 Connection 和 Channel2.3 Virtual host2.4 Queue2.5 Exchange2.6 RabbitMQ 工作流程 三. AMQP四. web界面操作4.1 用户相关操作4.2 虚拟主机相关操作 五. RabbitMQ 快速入门5.1 引入依赖5.2 编写生产…

简单的jar包解压class文件修改再编译成jar包

简单的jar包解压class文件修改再编译成jar包 1. 需求 我们公司有一个项目演示的环境,这个环境是我们公司其他组的项目,我们组只有这个项目的前端,jar,以及部分数据库结构表信息,现在我们已经启动服务可以正常访问&am…

Python中PDF文件的编辑与创建

目录 安装必要的库 编辑现有PDF文件 合并PDF文件 拆分PDF文件 添加水印 注意 创建新的PDF文件 使用reportlab创建PDF 使用Spire.PDF for Python创建PDF 结论 在数字化办公和学习环境中,PDF(Portable Document Format)文件因其跨平台…

【免费分享】1982-2015华北平原农田蒸散发数据集

华北平原是中国最重要的产粮基地之一,然而该地区水资源缺乏、供需矛盾突出。 在全球气候变化及用水需求日益增加的背景下, 该地区水循环过程变得愈加脆弱。 因此如何准确估算蒸散发、 掌握蒸散发的时空变化规律, 进而合理配置水资源、提高农业…

Lua收集请求日志

Kafka搭建 单机版的kafka搭建非常简单,不过我们今天采用Docker搭建kafka。Kafka使用Zookeeper存储Consumer、Broker信息,安装kafak的时候,需要先安装Zookeeper。 Zookeeper安装: docker run -d --name zookeeper -p 3181:3181 …

《网络安全自学指南》

《网络安全自学教程》 《网络安全自学》 1、网络协议安全1.1、OSI七层模型1.2、TCP/IP协议栈1.3、Wireshark使用1.4、802.1x协议1.5、ARP协议1.6、ARP欺骗1.7、IP协议1.8、ICMP协议1.9、TCP协议1.10、SYN Flood1.11、SSL协议1.12、HTTP协议1.13、DHCP协议 2、操作系统安全2.1、…

<数据集>TACO垃圾识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:6004张 标注数量(xml文件个数):6004 标注数量(txt文件个数):6004 标注类别数:18 标注类别名称:[Crankshaft, Centrifugal_body, Washer_container, Circlip_containe…

保存和加载工作区变量

目录 保存工作区变量 加载工作区变量 查看 MAT 文件的内容 在 MATLAB 会话之间并不保留工作区。退出 MATLAB 时,工作区清除。但是,您可以将当前工作区中的任何或所有变量保存到 MAT 文件(.mat)中。之后,只需加载保存的 MAT 文件&#xff0…

工业设备定位激光器在工业领域的应用

在日新月异的工业制造领域,技术的每一次飞跃都深刻影响着生产效率和产品质量的双重提升。其中,工业设备定位激光器作为现代工业自动化的核心元件之一,正以其高精度、高效率和广泛的应用范围,引领着制造业的智能化转型。接下来给大…

<PLC><算法>使用汇川eazy521系列PLC,如何使用LiteST语言对乱序数组进行排序?(冒泡法)

前言 本系列是关于PLC相关的博文,包括PLC编程、PLC与上位机通讯、PLC与下位驱动、仪器仪表等通讯、PLC指令解析等相关内容。 PLC品牌包括但不限于西门子、三菱等国外品牌,汇川、信捷等国内品牌。 除了PLC为主要内容外,PLC相关元器件如触摸屏…

NS4054H 40V 高耐压线性锂离子电池充电管理 IC

1 特性  最大输入电压: 40V  输入过压保护电压: 6V  内置输入过流保护: 1A  支持 0V 电池电压充电  充电电流可编程  4.2V 充电浮充阈值电压  电池待机电流< 1uA  内置 C/10 充满截止功能 …

数据结构-manacher算法

第一种情况: 以t为中心,他的回文串为abedeks, 同时i’的回文为ede,那么i的回文也是ede。 第二种情况:以s为中心的回文串为 tabkdedk,而以i’为中心的回文串为abkde,已不再L和R之间。此时以i为中心的回文串就为kdedk. 第三种情况: 以t为中心…

书生大模型实战营第三期基础岛第六课——OpenCompass 评测 InternLM-1.8B 实践

OpenCompass 评测 InternLM-1.8B 实践 基础作业:创建虚拟环境下载并安装opencompass安装相关依赖复制测评数据集到当前目录下并解压测评前环境变量配置使用命令行配置参数法进行评测 基础作业: 使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 ceval 数据集上的性能&#x…

强化学习,第 4 部分:蒙特卡洛控制

目录 一、介绍 1.1 强化学习 2.1 关于此文章 三、ε贪婪策略 四、蒙特卡洛控制 4.1 基本原理 4.2 举个例子 五、On-policy & off-policy 方法 六、重要性采样 6.1 赋予动机 6.2 想法 6.3 应用 七、增量实施 7.1 增量的理论 7.2 常α MC 八、结论 一、介绍 …

Livekit本地部署Egress录制服务

Livekit本地部署Egress录制服务 Egress官方推荐使用Docker方式部署。官方文档 创建Egress配置文件 新建config文件 vim config.yamlconfig.yaml文件内容 log_level: debug# api_key 参考livekit 部署 配置的 api_key: 2yJimTMFeF9h15PHEv api_secret: Mvi9ZgqGJ3LqwEAcTV…