R -- 如何处理缺失数据

news2024/11/24 21:06:13

brief

在这里插入图片描述

在这里插入图片描述

识别缺失值

在这里插入图片描述

  • 当传入向量,返回的是包含逻辑向量的等长向量。
  • complete.cases()用来识别矩阵或者数据框有没有包含缺失值的行,若整行数据完整则返回TRUE,若行数据包含缺失值,不管几个缺失值则返回FALSE。

在这里插入图片描述

探索缺失值模式

列表+图形展示缺失值

library(mice)
library(VIM)

data(sleep, package="VIM")
md.pattern(sleep,rotate.names = TRUE)

在这里插入图片描述
在这里插入图片描述
如何理解输出的数据框:1代表未缺失,0代表缺失

  • 最左边的一列要和最右侧的一列一起看:
    有42个观测缺失0个变量
    有9个观测缺失2个变量
    有3个观测缺失1个变量
    有2个观测缺失1个变量
  • 最下面一行表示每个变量缺失的个数
    sleep变量缺失个4个数据
    span变量缺失了4个数据

    总共缺失了38个数据

纯图形探索缺失值

library(VIM)

data(sleep, package="VIM")
aggr(sleep, prop=FALSE, numbers=TRUE) # vim 包
aggr(sleep, prop=TRUE, numbers=TRUE) # 数字变成比例

在这里插入图片描述

  • 右边barplot表示哪些变量缺失的数值个数
  • 左边的图每一行的cell颜色区分是否有缺失值,最下面表示42个完整的观测
    NonD+Dream 变量同时缺失的有9个观测
    Geet变量缺失4次,仅仅缺失Geet变量的只有3个观测

用相关性探索缺失值

x <- as.data.frame(abs(is.na(sleep))) #生成影子矩阵,缺失值为1,未缺失值为0
y <- x[which(apply(x,2,sum)>0)]
cor(y)

在这里插入图片描述

  • 相关性系数越大,说明同时缺失的频率越高

理解数据的缺失原因和影响

在这里插入图片描述

处理缺失值的几种方法

推理法

  • 比如某几个变量之间具有线性关系,缺失的那个可以用其他几个变量推算出来
    比如,年龄缺失,可以用出生日期推算
    比如,性别缺失,用性别偏向的名字也可以推算

行删除

在这里插入图片描述
在这里插入图片描述

插补法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

其他方法

  • 成对删除
    只有用到这个观测 的变量有缺失时才会被剔除,用到这个观测其他变量时并不会删除。
cor(sleep, use="pairwise.complete.obs")

在这里插入图片描述

  • 简单插补法
    就是用均值、中位数、众数等固定值替代缺失值
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/429799.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高速存储器

由于CPU和主存储器之间的速度上的不匹配限制了计算机系统的工作速度&#xff0c;为了提高CPU和主存之间的数据传输率&#xff0c;可以采用并行技术的存储器&#xff1a; 双端口存储器多模块交叉存储器 双端口存储器 同一个存储器具有两组相互独立的读写控制线路&#xff0c;…

Direct3D 12——灯光——聚光灯光

一个与聚光灯光源&#xff08;spotlight&#xff09;相近的现实实例是手电筒。从本质上来说&#xff0c;聚光灯由位置Q向方向d 照射出范围呈圆锥体的光。 一个聚光灯以位置Q向方向d发射出半顶角为Φmax 的圆锥体范围的光 其中&#xff0c;P为被照点的位置&#xff0c;Q是聚光…

基于html+css的盒子展示8

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

一文4000字使用JavaScript+Selenium玩转Web应用自动化测试

自动化测试 在软件开发过程中, 测试是功能验收的必要过程, 这个过程往往有测试人员参与, 提前编写测试用例, 然后再手动对测试用例进行测试, 测试用例都通过之后则可以认为该功能通过验收. 但是软件中多个功能之间往往存在关联或依赖关系, 某一个功能的新增或修改可能或影响到…

手把手教你搭建ROS阿克曼转向小车之(霍尔编码器数据读取与速度计算)

上一篇文章已经介绍了如何驱动直流有刷电机转动起来&#xff0c;这篇文章讲解如何获取编码器的计数值&#xff0c;并且计算出速度信息。在实际的运行中&#xff0c;随着机器的重量不一样&#xff0c;电机受到的阻力就会不一样&#xff0c;给定同样的PWM在不同载重的情况下速度会…

Alien Skin ExposureX8最新ps中文版调色滤镜插件

Exposure是用于创意照片编辑的最佳图像编辑器。Exposure结合了专业级照片调整&#xff0c;庞大的华丽照片外观库以及高效的设计&#xff0c;使其使用起来很愉悦。新的自动调整功能可简化您的工作流程&#xff0c;并使您进入创意区。 Alien Skin Exposure 拥有超过500种预设效果…

基于线性支持向量机的词嵌入文本分类torch案例

一、前言 简介线性支持向量机,并使用线性支持向量机实现文本分类, 输入文本通过词嵌入方法转换成浮点张量,给出torch案例 线性支持向量机&#xff08;Linear Support Vector Machine&#xff0c;简称Linear SVM&#xff09;是一种常用的分类算法&#xff0c;它通过一个超平面来…

TiDB实战篇-TiDB Cluster部署

简介 部署TiDB Cluster部署&#xff0c;熟系集群的基础操作。 集群规划 机器拓扑 3pd,3tikv,1tidb_server.1tiflash,监控。 192.168.66.10192.168.66.20192.168.66.21 pd_servers tikv_servers tidb_servers tiflash_servers pd_servers tikv_servers monitoring_servers…

MySQL中使用IN()查询到底走不走索引?

MySQL中使用IN&#xff08;&#xff09;查询到底走不走索引&#xff1f; 看数据量 EXPLAIN SELECT * from users WHERE is_doctor in (0,1); 很明显没走索引&#xff0c;下面再看一个sql。 EXPLAIN SELECT * from users WHERE is_doctor in (2,1);又走索引了&#xff0c;所以…

Yolov5一些知识

1 Yolov5四种网络模型 Yolov5官方代码中&#xff0c;给出的目标检测网络中一共有4个版本&#xff0c;分别是Yolov5s、Yolov5m、Yolov5l、Yolov5x四个模型。 1.1Yolov5网络结构图 eg:Yolov5s 2.1 Yolov3&Yolov4网络结构图 2.1.1 Yolov3网络结构图 Yolov3的网络结构是…

Matlab论文插图绘制模板第86期—带置信区间的折线图

在之前的文章中&#xff0c;分享了很多Matlab折线图的绘制模板&#xff1a; 进一步&#xff0c;分享一种特殊的折线图&#xff1a;带置信区间的折线图。 先来看一下成品效果&#xff1a; 特别提示&#xff1a;本期内容『数据代码』已上传资源群中&#xff0c;加群的朋友请自行…

【C++技能树】快速文本匹配 --正则表达式介绍与C++正则表达式使用

Halo&#xff0c;这里是Ppeua。平时主要更新C语言&#xff0c;C&#xff0c;数据结构算法…感兴趣就关注我吧&#xff01;你定不会失望。 0.正则表达式存在必要性 在日常生活,或者刷题过程中我们难免需要检测一段字符是否需要是否符合规定,或在一大段字符中寻找自己想要的信息…

Mysql 数据库介绍

数据库介绍 数据库&#xff08;Database&#xff09;是按照数据结构来组织、存储和管理数据的仓库&#xff0c;每个数据库都有一个或多个不同的API接口用于创建&#xff0c;访问&#xff0c;管理&#xff0c;搜索和复制所保存的数据。 我们也可以将数据存储在文件中&#xff0…

支持m2的主板换m2硬盘无法识别的问题,主板:七彩虹H410-T

记录一下我的电脑换m2硬盘遇到无法读取的问题&#xff0c;也给有同样问题的人留个参考&#xff0c;特别是七彩虹主板 主板&#xff1a;七彩虹H410-T 遇到的问题&#xff1a; m2 硬盘插上主板后&#xff0c;开机无法识别&#xff0c;打开我的电脑没有相应的盘&#xff0c;设备…

代码随想录---142. 环形链表 II

给定一个链表的头节点 head &#xff0c;返回链表开始入环的第一个节点。 如果链表无环&#xff0c;则返回 null。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 next 指针再次到达&#xff0c;则链表中存在环。 为了表示给定链表中的环&#xff0c;评测系统内部使用整…

【C++】vector的实现

模拟实现vector类前言一、迭代器二、重载 [ ]三、构造函数相关&#xff08;重点&#xff09;&#xff08;1&#xff09;构造函数&#xff08;2&#xff09;构造并使用n个值为value的元素初始化&#xff08;3&#xff09;区间构造&#xff08;4&#xff09;拷贝构造三、析构函数…

什么是科学

人人都是价值观-思辨专家_个人渣记录仅为自己搜索用的博客-CSDN博客 相关文章 人人都是中医爱好者 科学定义 关于“科学”这个词的定义&#xff0c;历史上曾出现过多种版本&#xff0c;但是目前为止还没有一个是世人公认的定义。 历史上达尔文(Charles Robert Darwin&#xff…

利用阿里云免费部署openai的Chatgpt国内直接用

背景 国内无法直接访问ChatGPT&#xff0c;一访问就显示 code 1020。而且最近OpenAI查的比较严格&#xff0c;开始大规模对亚洲地区开始封号&#xff0c;对于经常乱跳IP的、同一个ip一堆账号的、之前淘宝机刷账号的&#xff0c;账号被封的可能性极大。 那么有没有符合openai规定…

< element-Ui表格组件:表格多选功能回显勾选时因分页问题,导致无法勾选回显的全部数据 >

文章目录&#x1f449; 前言&#x1f449; 一、解决思路&#x1f449; 二、实现代码&#xff08;仅供参考&#xff0c;具体问题具体分析&#xff09;> HTML模板> Js模板往期内容 &#x1f4a8;&#x1f449; 前言 在 Vue elementUi 开发中&#xff0c;elementUI中表格在…

Linux服务器怎么修改系统时间

Linux服务器怎么修改系统时间 linux服务器的系统时间&#xff0c;有的时候会产生误差&#xff0c;导致我们的程序出现一些延迟&#xff0c;或者其他的一些错误&#xff0c;那么怎么修改linux的系统时间呢&#xff1f; 我是艾西&#xff0c;今天又是跟linux小白分享小知识的时间…