R语言两种方法实现随机分层抽样

news2024/11/25 4:22:16

为了减少数据分布的不平衡,提供高样本的代表性,可将数据按特征分层一定的层次,在每个层次抽取一定量的样本,为分层抽样。分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。

在这里插入图片描述
既往咱们已经多篇文章介绍了R语言的随机抽样,今天咱们通过R语言的2种方法来介绍随机分层抽样。咱们先导入数据和R包,首先介绍的是sampling包,

library(sampling)
bc<-read.csv("E:/r/test/demo.csv",sep=',',header=TRUE)

在这里插入图片描述
这是个体检相关的数据,公众号回复:体检数据,可以获得这个数据。这个数据的变量我就不解释了,SEX:性别,我们等下就根据性别分层来随机抽样。用到的是strata函数,我们来看下函数的格式

strata(data, stratanames=NULL, size, method=c("srswor","srswr","poisson",
"systematic"), pik,description=FALSE)

其实用起来非常简单哈,data就是你的数据,strataname就是你分层的变量名字,我们这里当然是SEX性别啦,size就是你抽取的数量,method是抽取的方法,有不替换的简单随机抽样(srswr)、替换的简单随意抽样(srswr)、泊松抽样(Poisson)、系统抽样(systematic sampling);如果缺少“method”,则默认方法为“srswork”。

下面咱们就来实现一下,假设咱们想男女等比例抽取60%的样本来建模,首先咱们需要小小计算一下

n=round(3/5*nrow(bc)/2)

在这里插入图片描述
男女需要分别抽取250例

sub_train=strata(bc,stratanames=("SEX"),size=c(250,250),method="srswor")

在这里插入图片描述
这样一句话就抽取好啦,咱们来看一下,确实都是抽取了250个

table(sub_train$SEX)

在这里插入图片描述
也可以不等比例抽取,假设我想男性抽190个,女性抽100个

sub_train1=strata(bc,stratanames=("SEX"),size=c(190,100),method="srswor")
table(sub_train1$SEX)

在这里插入图片描述
如果要提取数据,需要使用ID_unit这个变量,这是数据的标识,咱们通常会把分层抽样的数据用来建模,其余的数据用来验证。

data_train=bc[sub_train$ID_unit,]
data_test=bc[-sub_train$ID_unit,]

这样数据就提取出来啊,非常简单。

接下来介绍的是dplyr包因为跑的是通道,也是非常简单

library(dplyr)

每组抽取固定数量250个

strat <- bc %>% group_by(SEX) %>% slice_sample(n = 250)

每组抽取一定比例

strat1 <- bc %>% group_by(SEX) %>% slice_sample(prop = .50)

在这里插入图片描述
Dplyr包是直接提取出了数据,不用你再提取啦。
本期结束啦,祝大家五一劳动节快乐!

参考文献:

  1. sampling包文档
  2. dplyr包文档
  3. https://blog.csdn.net/neweastsun/article/details/122395968
  4. https://blog.csdn.net/claroja/article/details/55096431

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1660426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

知识库文档系统源码部署/搭建/上线/运营/售后/更新

一款基于ThinkPHPFastAdmin开发的知识库文档系统&#xff0c;可用于企业工作流程的文档管理&#xff0c;结构化记录沉淀高价值信息&#xff0c;形成完整的知识体系&#xff0c;能够轻松提升知识的流转和传播效率&#xff0c;更好地成就组织和个人。为部门、团队或项目搭建知识库…

Hive Aggregation 聚合函数

Hive Aggregation 聚合函数 基础聚合 增强聚合

IP报文在设备间传递的封装过程

IP报文传递过程 1、PC1访问PC2报文传递过程1.1、PC1准备数据请求报文封装1.2、PC1准备ARP请求报文1.3、PC2准备ARP响应报文1.4、PC1完成数据请求报文封装 2、PC1访问PC3报文传递过程2.1、PC1准备数据请求报文封装2.2、PC1准备获取网关MAC地址的ARP请求报文2.3、网关准备ARP响应…

喜报|知从科技荣获“2023年度浦东新区创新创业奖”

4月11日&#xff0c;由上海市浦东新区人民政府举办的“2024年浦东新区经济突出贡献企业表彰活动”在上海国际会议中心隆重举行。知从科技凭借过去一年在行业内卓越的技术创新实力及对浦东新区发展作出的杰出贡献&#xff0c;入选创新创业20强企业&#xff0c;荣获“2023年度浦东…

岩点×数说故事×小红书 | 发布《中国攀岩行业分析报告》

从下班健身到下班攀岩&#xff0c;从“鸡娃”到岩馆“溜娃”&#xff0c;被奥运“正名”的攀岩运动&#xff0c;在国内熬过了萌芽阶段&#xff0c;悄然开出了花。2023年&#xff0c;各类重磅攀岩赛事重启、线下岩馆疯狂扩张&#xff0c;小众攀岩正式进入大众视野&#xff0c;风…

中国211大学全部排名一览表

211大学是指中国教育部实施的名为“211工程”的高等教育发展战略中被选为重点支持的高等院校。这个名称来源于项目的启动背景和目标&#xff1a;“211”中的“21”代表21世纪&#xff0c;意味着该项目面向21世纪的中国高等教育发展&#xff1b;“1”则意指要重点建设大约100所左…

【Unity】Unity项目转抖音小游戏(一) 项目转换

UnityWEBGL转抖音小游戏流程 业务需求&#xff0c;开始接触一下抖音小游戏相关的内容&#xff0c;开发过程中记录一下流程。 相关参考&#xff1a; 抖音文档&#xff1a;https://developer.open-douyin.com/docs/resource/zh-CN/mini-game/develop/guide/game-engine/rd-to-SC…

IOS 苹果IAP(内购)之创建沙盒账号

IOS 苹果IAP&#xff08;内购&#xff09;之创建沙盒账号 沙盒账号是什么&#xff1f;沙盒账号创建的前提条件沙盒账号创建沙盒账号使用流程沙盒账号注意事项 沙盒账号是什么&#xff1f; 如果IOS应用里面用到了苹果应用内付费&#xff08;IAP&#xff09;功能&#xff0c;那么…

分享:大数据信用报告查询比较专业的网站

随着大数据技术的发展&#xff0c;大数据信用报告已经成为个人和企业经济生活中不可或缺的一部分。为了方便用户快速、准确地查询和了解自己的信用状况&#xff0c;许多专业的信用报告网站应运而生。那么&#xff0c;在众多的大数据信用报告查询网站中&#xff0c;哪个是比较专…

C++ 函数与数组

例1 求数组各项的累加和 例2 修改数组元素大于5的为0 1 用数组名作为函数参数时还应注意以下几点&#xff1a; 1&#xff09;形参数组和实参数组的类型必须一致&#xff0c;否则将引起错误。 2&#xff09;形参数组和实参数组的长度可以不相同&#xff0c;因为在调用时&#…

c语言查找字符串中指定字符串的个数

目录 一、测试思路二、方式1三、方式2 一、测试思路 使用C语言来查找一个字符串中指定数量的子字符串&#xff0c;使用 strncmp 函数或者 memcmp 函数&#xff0c;遍历主字符串并计数子字符串出现的次数。或者使用 strstr 函数&#xff0c; strstr 函数是 C 语言标准库 <str…

CTF—AWD防御起手式

前言 AWD (Attack With Defence)&#xff0c;比赛中每个队伍维护多台服务器&#xff0c;服务器中存在多个漏洞&#xff0c;利用漏洞攻击其他队伍可以进行得分&#xff0c;修复漏洞可以避免被其他队伍攻击失分。 改SSH密码 官方在给出服务器密码时&#xff0c;很有可能是默认…

苹果公司因iPad广告争议而道歉,承认“未达标”|TodayAI

周二&#xff0c;苹果公司发布了一则新的iPad Pro广告&#xff0c;引起了广泛争议&#xff0c;该公司随后发表道歉声明&#xff0c;承认这则广告“未达标”。这则名为“压碎&#xff01;”的广告意图展示全新的M4芯片iPad Pro的创意潜力&#xff0c;但却因其表现方式而备受批评…

【python基础】python经典题目100题

文章目录 前言初阶题目1.字符串2.列表3.元组4.字典5.运算6.random 模块7.open函数8.time模块时间9.其他 进阶题目 前言 本文主要是python经典题目100题&#xff0c;适合入门的新手。仅作自己学习的记录。 初阶题目 1.字符串 题目1&#xff1a;怎么找出序列中的最⼤最⼩值&am…

C++ Builder XE EnumWindowsProc遍历所有窗口的名称

BOOL CALLBACK EnumWindowsProc(HWND hwnd, LPARAM lParam) { // 这里可以添加你的处理逻辑 // 例如&#xff0c;将句柄添加到列表中或者其他操作 // 这里我们仅仅输出到调试窗口 OutputDebugString(L"枚举窗口句柄: "); char windowHandle[10];…

智慧互联,统信UOS V20桌面专业版(1070)解锁办公新模式丨年度更新

从小屏到大屏 突破&#xff0c;就在方寸之间 从人机到智脑 融合&#xff0c;旨在新质生产力 统信UOS一直致力于将先进科技与用户场景相结合&#xff0c;不断提升用户的工作效率和生产力。在最新发布的统信UOS V20桌面专业版&#xff08;1070&#xff09;版本中&#xff0c;我们…

2024年10大AI动画工具

在当今快节奏的数字环境中&#xff0c;动画师和内容创作者不断寻求创新工具来提高他们的工作效率和创造力。随着人工智能的出现&#xff0c;动画发生了显着的转变&#xff0c;因此提供了大量的选项&#xff0c;使图像无缝地栩栩如生。 无论你是一位有抱负的动画师还是经验丰富…

海外多语言盲盒系统开发:加快盲盒企业出海

近几年&#xff0c;全球都进入到了潮玩文化发展期&#xff0c;在这种时代背景下&#xff0c;盲盒迅速发展&#xff0c;与消费者建立了深厚的情感连接&#xff0c;市场规模逐渐扩大。目前&#xff0c;我国盲盒企业纷纷布局海外市场&#xff0c;纵观海外庞大的发展空间&#xff0…

翻译《The Old New Thing》 - Restating the obvious about the WM_COMMAND message

Restating the obvious about the WM_COMMAND message - The Old New Thing (microsoft.com)https://devblogs.microsoft.com/oldnewthing/20060302-10/?p32093 Raymond Chen 2006年03月02日 关于 WM_COMMAND 消息的显而易见的知识点补充 简要 本文详细解释了 WM_COMMAND 消息…

Maven的使用

1.第一个Maven工程 1.1 创建约定目录结构 ​ Hello ​ src ​ ——main(存放主程序) ​ ————java(存放源代码文件) ​ ————resources(存放配置文件和资源文件) ​ ——test(存放测试程序) ​ ————java ​ ————resources ​ pom.xml 1.2 创建核心文件 pom.xml …