【抽样调查】CH3 分层随机抽样

news2024/11/27 10:56:09

目录

前言

一、概述

1.相关定义

(1)层

(2)分层抽样

2.分层随机抽样的步骤

3.分层抽样优于简单随机抽样的理由

4.分层原则

5.例

(1)

(2)

6.符号

二、简单估计量及其性质

1.总体均值的估计

2.总体均值估计的性质

(1)【定理3.1】 

(2)【定理3.2】

(3)【定理3.3】

 (4)【定理3.4】

(5)【推论3.1】

3.【例3.1】

三、比率估计量及其性质

四、回归估计量及其性质

五、各层样本量的分配

六、总样本量的确定

七、分层抽样的其他方面


前言

        为什么采用分层抽样?

  • 当总体规模N和样本量n都较大时,总体单位之间差异也较大,容易使随机抽出的不具有代表性。此时进行简单随机抽样成本高,精度低
  • 如调查北京市大一学生的平均身高,由于男生一般比女生高,用简单随机抽样可能大多抽到男生或女生,出现过于偏向某一部分的不平衡情况,使样本不具有代表性,使估计结果偏高或偏低。应以性别为分层变量,采用分层抽样的方法

        解决方法?

  • 在保证估计精度的前提下,设法缩小总体规模N与需要抽取的样本数n,通过将总体划分为若干层达到该目的
  • 尽量使样本总体与目标总体结构相似,方法是将总体依照与调查研究关注的变量高度相关的指标划分成几个层,使满足层内差异小、层间差异大的分层原则。例如研究居民收入,可用年龄、性别、学历等作为分层变量

一、概述

1.相关定义

(1)层

        如果一个包含N个单位总体可以分成互不交叉(“不重不漏”)的L个子总体,即每个单元必属于且仅属于一个子总体,则称这样的子总体为层(stratum)

        设L个子总体包含的单位数分别为N_{1},N_{2},\cdots,N_{L},则有N_{1}+N_{2}+\cdots+N_{L}=N

(2)分层抽样

         在每一层独立进行简单随机抽样,所得到的样本称为分层样本。总的样本由各层样本组成,总体参数则根据各层样本参数汇总做出估计,这种抽样就成为分层抽样(stratified sampling)

        如果每层都是独立地按照简单随机抽样进行,那么这样的分层抽样称为分层随机抽样

        设总的样本量为n,从L个子总体中所抽取的样本量分别为n_{1},n_{2},\cdots,n_{L},则有n_{1}+n_{2}+\cdots+n_{L}=n

2.分层随机抽样的步骤

  • 将抽样总体划分为层
  • 在各层内独立地进行简单随机抽样估计出层的参数
  • 各层参数的估计值按各层样本量在总体中所占比例(层权)进行加权,汇总得到总体参数的估计

3.分层抽样优于简单随机抽样的理由

  • 每层都抽样,样本更具有代表性样本结构与总体结构更相似(例如调查我国人口出生性别比,如采用简单随机抽样,一些人口少的地区可能没有单元入样,分层抽样保证各地区都有样本入样
  • 抽样在各层独立进行,一则可以在各层选择合适本层的不同抽样方法,二则可以同时对各层进行参数估计(例如全国性居民收入状况调查,以各省居民为子总体进行分层抽样,不仅可以得到全国居民收入水平,而且可以同时得到各省居民收入水平)
  • 分层抽样的抽样效率较高。也就是说分层抽样的估计精度较高,是因为分层抽样估计量的方差只和层内方差成正比,和层间方差无关
  • 各层抽样方法可以不同,而且便于因地制宜组织抽样工作

4.分层原则

        分层随机抽样中,划分层的指标应与关心的调查变量有较强相关性。

  • 估计:层内单元具有相同性质,通过按调查对象的不同类型进行划分
  • 精度:尽可能使层内单元的指标值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的
  • 估计和精度:既按类型,又按层内单元指标值相近的原则进行分层,同时达到估计类值以及提高估计精度的目的
  • 实施:为抽样组织实施的方便,常按行政管理机构设置进行分层

5.例

(1)

对全国范围汽车运输的抽样调查,调查目的不仅要推算全国货运汽车完成的运量,还要推算不同经济成分(国有、集体、个体)汽车完成的运量

  • 为组织方便,首先将货运汽车总体按省分层,由各省运输管理部门负责省内的调查工作
  • 各省再将省内拥有的汽车按经济成分分层

(2)

某高校对学生在宿舍使用电脑的情况进行调查,根据经验,本科生和研究生使用电脑的状况差异较大

  • 在抽样前对学生按本科生和研究生进行分层是有必要的

6.符号

层号h=1,2,\cdots,L
第h层单元总数N_{h}
第h层样本单元数n_{h}
第h层第i个样本单元取值y_{hi}
第h层的层权W_{h}=\frac{N_{h}}{N}
第h层的抽样比f_{h}=\frac{n_{h}}{N_{h}}
第h层的总体均值\bar{Y}_{h}=\frac{1}{N_{h}}\sum_{i=1}^{N_{h}}Y_{hi}
第h层的样本均值\bar{y}_{h}=\frac{1}{n_{h}}\sum_{i=1}^{n_{h}}y_{hi}
第h层的总体方差S_{h}^2=\frac{1}{N_{h}-1}\sum_{i=1}^{N_{h}}(Y_{hi}-\bar{Y}_{h})^2
第h层的样本方差s_{h}^2=\frac{1}{n_{h}-1}\sum_{i=1}^{n_{h}}(y_{hi}-\bar{y}_{h})^2

二、简单估计量及其性质

1.总体均值的估计

【注】分层抽样中,所有总体参数的估计量都采用下标“st”以示区别

        分层简单随机样本,总体均值\bar{Y}_{st}的简单估计为

{\color{Red} \bar{y}_{st}=\sum_{h=1}^{L}W_{h}\bar{y}_{h}=\frac{1}{N}\sum_{h=1}^{L}N_{h}\bar{y}_{h}}

2.总体均值估计的性质

(1)【定理3.1】 

        对于分层随机抽样,\bar{y}_{st}\bar{Y}的无偏估计。

(2)【定理3.2】

        对于分层抽样,有V(\bar{y}_{st})=\sum_{h=1}^{L}W_{h}^2V(\bar{y}_h)

{\color{Blue} proof:}

{\color{Blue} E(\bar{y}_{h})=\bar{Y}_{h}\Rightarrow E(\bar{y}_{st})=E(\sum_{h=1}^{L}W_{h}\bar{y}_{h})=\sum_{h=1}^{L}W_{h}E(\bar{y}_{h})=\sum_{h=1}^{L}W_{h}\bar{Y}_{h}=\frac{1}{N}\sum_{h=1}^{L}N_{h}\bar{Y}_{h}=\frac{1}{N}\sum_{h=1}^{L}Y_{h}=\frac{Y}{N}=\bar{Y}}

{\color{Blue} V(\bar{y}_{st})=V(\sum_{h=1}^{L}W_{h}\bar{y}_{h})=\sum_{h=1}^{L}\sum_{k=1}^{L}Cov(W_{h}\bar{y}_h,W_{k}\bar{y}_k)=\sum_{h=1}^{L}\sum_{k=1}^{L}W_{h}W_{k}Cov(\bar{y}_h,\bar{y}_k)=\sum_{h=1}^{L}W_{h}^2V(\bar{y}_{h}){\color{Red} +2\sum_{h=1}^{L}\sum_{k>h}^{L}W_{h}W_{k}Cov(\bar{y}_h,\bar{y}_k)}=\sum_{h=1}^{L}W_{h}^2V(\bar{y}_{h})}

  • 只要对各层估计量无偏,则总体估计量也无偏
  • 由于各层独立抽取,上式中红色部分为0 

(3)【定理3.3】

        对于分层随机抽样,\bar{Y}的估计量\bar{y}_{st}具有如下性质

  • E(\bar{y}_{st})=\bar{Y}
  • V(\bar{y}_{st})=\sum_{h=1}^{L}W_{h}^2\frac{1-f_{h}}{n_{h}}S_{h}^2=\sum_{h=1}^{L}\left ( \frac{1}{n_{h}}-\frac{1}{N_{h}} \right )W_{h}^2S_{h}^2=\sum_{h=1}^{L}\frac{W_{h}^2S_{h}^2}{n_{h}}-\sum_{h=1}^{L}\frac{W_{h}^2S_{h}^2}{N_{h}}

{\color{Blue} proof:}

{\color{Blue} V(\bar{y}_{h})=\frac{1-f_{h}}{n_{h}}S_{h}^2}

 (4)【定理3.4】

        对于分层随机抽样,\bar{y}_{st}的方差V(\bar{y}_{st})的无偏估计量为

v(\bar{y}_{st})=\sum_{h=1}^{L}W_{h}^2\frac{1-f_{h}}{n_{h}}s_{h}^2=\sum_{h=1}^{L}\left ( \frac{1}{n_{h}}-\frac{1}{N_{h}} \right )W_{h}^2s_{h}^2=\sum_{h=1}^{L}\frac{W_{h}^2s_{h}^2}{n_{h}}-\sum_{h=1}^{L}\frac{W_{h}^2s_{h}^2}{N_{h}}

其中,s_{h}^2=\frac{1}{n_{h}-1}\sum_{h=1}^{L}(y_{hi}-\bar{y}_h)^2是第h层的样本方差。

{\color{Blue} proof:}

        各层内独立进行简单随机抽样,由定理2.4E(s_{h}^2)=S_{h}^2

(5)【推论3.1】

         对于分层随机抽样,\hat{Y}_{h}Y_{h}的无偏估计。总体总量Y的估计量\hat{Y}_{st}有如下性质:

  • {\color{Red} E(\hat{Y}_{st})=}E(N\bar{y}_{st})=N\sum_{h=1}^{L}W_{h}E(\bar{y}_{h})=N\sum_{h=1}^{L}W_{h}\bar{Y}_{h}=\sum_{h=1}^{L}N_{h}\bar{Y}_{h}={\color{Red} Y}
  • {\color{Red} V(\hat{Y}_{st})=}N^2V(\bar{y}_{st})=N^2\sum_{h=1}^{L}W_{h}^2V(\bar{y}_h)=N^2\sum_{h=1}^{L}W_{h}^2\frac{1-f_{h}}{n_{h}}S_{h}^2=N^2\sum_{h=1}^{L}\frac{N_{h}^2}{N^2}(1-\frac{n_{h}}{N_{h}})\frac{S_{h}^2}{n_{h}}={\color{Red} \sum_{h=1}^{L}N_{h}(N_{h}-n_{h})\frac{S_{h}^2}{n_{h}}}
  • v(\hat{Y}_{st})=\sum_{h=1}^{L}N_{h}(N_{h}-n_{h})\frac{s_{h}^2}{n_{h}}v(\hat{Y}_{st})V(\hat{Y}_{st})的一个无偏估计

3.【例3.1】

三、比率估计量及其性质

四、回归估计量及其性质

五、各层样本量的分配

六、总样本量的确定

七、分层抽样的其他方面

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/46150.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[附源码]Python计算机毕业设计Django大学生创新项目管理系统

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,…

Briefings in bioinformatics2021 | QSAR模型中,传统表征要优于molecular embedding?

论文标题:Using molecular embeddings in QSAR modeling: does it make a difference? GitHub - VirginiaSabando/MolecularEmbeddings: Official site for "Using Molecular Embeddings in QSAR modeling: Does it Make a Difference?" (Briefings in…

uniapp组件传值的方法(父传子,子传父,对象传值)案例

文章目录前言父组件给子组件传值子组件给父组件传值父组件给父组件传对象值前言 最近看到uniapp组件传值的方法,这里记录一下,学过vue的应该都觉得很简单,传值的方法基本与vue的写法差不多 父组件给子组件传值 创建子组件comp.vue&#xf…

DDT+yaml实现数据驱动接口自动化

前言 在之前的文章中我们知道了yaml文件可以进行接口自动化。除了yaml文件,Excel文档也可以用来编写自动化测试用例。 一定很想知道这两者有什么区别吧? 1、Excel使用简单,维护难,多种数据类型转换起来比较复杂 2、yaml学习稍…

AVS3中的intra string copy(ISC)

AVS3是AVS系列的最新标准,其中新增了一些SCC工具,intra string copy(ISC)就是其中之一。下图1是AVS3的编码框架,其中橙色部分是ISC,可见ISC分为两个子模式FPSP和EUSP。 图1 AVS3编码框架 ISP是AVS3中新增的技术,它作用…

科技对金融业的告白信,有百融云创的落款

“当一家龙头企业失去了创新能力,或者其科技升级到达天花板之后,便会成为巴菲特老爷子的潜在重仓股选项。”这是笔者在近日巴菲特买进价值超过41亿美元的台积电ADR新闻之下,刷到的一条评论。 没错,当摩尔定律放缓,晶圆…

Linux之 rsyslog、日志轮转

1.rsyslog 1.1rsyslog介绍 Rsyslog的全称是 rocket-fast system for log,它提供了高性能,高安全功能和模块化设计。rsyslog能够接受从各种各样的来源,将其输入,输出的结果到不同的目的地。rsyslog可以提供超过每秒一百万条消息给…

如何做项目的权限控制?

(1)项目背景和问题 现有一个后台管理系统,共存在三种类型的人员: 普通用户:拥有查看、审核和下架商品的权限 管理员:普通用户权限 修改、删除商品的权限 超级管理员:管理员权限 添加、删除用户…

基于多领导者智能体的Olfati算法matlab仿真

目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 人们通过群体行为的研究可以揭示群体智能的产生,群体智能是自组织的过程,将简单的个体通过交互作用或协作表现出来整体智能行为的特性称为“群体智能”。 “群体智能”应…

win10系统怎样分区,win10固态硬盘怎么分区

Windows10简称win10,是微软公司研发的跨平台操作系统,应用于计算机和平板电脑等设备。许多用户在购买一台新电脑后,开机后发现:电脑只有一个C盘,且C盘存储空间很大,为了更加合理地使用磁盘分区,…

Linux文件搜索命令find、which和whereis应用

记录:349 场景:在CentOS 7.9操作系统上,使用find命令在指定目录搜索文件,支持精确搜索和模糊搜索;使用which命令搜索一个命令所在的目录和别名信息。使用whereis命令搜索命令所在的目录和man帮助手册等相关的文件路径…

NR CSI(四) PMI

微信同步更新欢迎关注同名modem协议笔记 如38.214 5.1.1.1中所述,NR PDSCH 38214只有一种传输模式Transmission scheme 1,gNB将data(di)和DMRS一同预编码,之后通过无线信道,发送给UE,如下图。DMRS是用于信道估计,服务…

一键获取主图设计模板的工具平台

想设计一个好看又简介的电商商品模板?不懂如何设计排版电商商品主图?今天小编分享给你这个主图设计工具和设计教程,乔拓云不仅能快速上手设计,还有海量的主图设计素材能直接使用!只需要跟着小编下面的工具使用教程&…

C语言IO操作fread/fwrite/fflush

参考 1 2 IO操作 fread/fwrite/fflush: c语言标准规定的io流操作,建立在read/write/fsync之上;在用户层, 又增加了一层缓冲机制,用于减少内核调用次数,但是增加了一次内存拷贝; read/write/…

[附源码]SSM计算机毕业设计学生量化考核管理系统JAVA

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

mysql相关基础知识篇(五)

1.MySQL 事务的四大特性说一下? 原子性:事务作为一个整体被执行,包含在其中的对数据库的操作要么全部被执行,要么都不执行。一致性:指在事务开始之前和事务结束以后,数据不会被破坏,假如 A 账户…

maven的pom.xml文件爆红,并且刷新maven无法下载依赖的解决方案

平时使用idea时,对于新手有时候会遇到一些比较尴尬的事情——依赖无法下载 分析一下,maven依赖无法下载有以下原因 (1)maven在项目中是否安装且环境变量是否配置成功 (2)maven依赖下载慢,考虑是…

Dubbo3入门实践,SpringBoot+Dubbo+Nacos+DubboAdmin

前言 学习Dubbo的过程中发现官网文章太过简单,而且没有提供完整的项目整合,导致入门门槛比较高,初学者不知从何下手。本文将在SpringBoot的基础上整合Dubbo,注册中心使用当下流行的Nacos,还将使用Dubbo-Admin来管理服务…

RationalDMIS 2020 叶片检测 -快速定义叶片截面线方法

1.快速定义叶片截面线方法 用多平面切割叶片CAD定义曲线的方法,用来快速定义叶片截面曲线;自定义多个平面,使用这些平面切割CAD,生成多个叶片曲线(BladeCurve):再将生成的叶片曲线(BladeCurve)自动打断为两个子曲线(Curve);上述所有生成的曲线(Curve)都会添加到元…

[附源码]Python计算机毕业设计Django常见Web漏洞对应POC应用系统

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,…