【R统计】各式各样的插补法解决数据缺失的问题!

news2024/11/29 7:55:18
  • 💂 个人信息:酷在前行
  • 👍 版权: 博文由【酷在前行】原创、需要转载请联系博主
  • 👀 如果博文对您有帮助,欢迎点赞、关注、收藏 + 订阅专栏
  • 🔖 本文收录于【R统计】,该专栏主要介绍R语言实现统计分析的过程,如数据的描述性统计、t检验、方差分析、相关性、线性回归等等。请大家多多关注点赞和支持,共同进步~ 欢迎大家订阅!

📋 文章目录

  • 构建数据
  • 简单插补
    • 均值/中位数插补
    • 随机插补
  • 基于模型的插补方法
    • 线性回归插补
    • k-最近邻插补 (k-NN)
    • 随机森林插补
  • 多重插补 (Multiple Imputation)
  • 数据插补效果展示

   在日常科研工作中,缺失数据是一个很常见的问题。特别是在大型的数据集中,由于各种不可抗因素,数据缺失几乎是难以避免的。但这就带来一个问题:当我们面对缺失数据时,应该如何处理?直接删除含有缺失值的数据行似乎是一个简单且直接的方法,但这样会导致有效数据的损失。今天,我想为大家分享几种处理数据缺失的方法。请注意,这些方法各有利弊,最适合的方法应该基于具体的数据特点和研究目的来选择。

构建数据

首先,我们要读入一个30行、14列的生态数据集。这个数据集用于示范如何处理数据中的缺失值。通过随机抽样方法,我们在数据集的copy_SOC列中人为地产生了一些缺失值。

# 数据读入

test_data<- read.csv('H:/data/test_data.csv')

test_data$copy_SOC <- test_data$SOC

# 计算需要替换为NA的数据个数
num_na <- round(nrow(test_data) * 0.20)

# 随机选择 20%索引
random_indices <- sample(1:nrow(test_data), size=num_na)

# 替换选择的索引对应的数据为NA
test_data[random_indices,15] <- NA

colSums(is.na(test_data))
          sites             NPP            ANPP    Root.biomass             SOC 
              0               0               0               0               0 
             TN              pH            Clay            Silt            Sand 
              0               0               0               0               0 
   Bulk.density      total.PLFA    Fungal.PLFAs Bacterial.PLFAs        copy_SOC 
              0               0               0               0               6 

看到其中copy_SOC列有6个缺失值

简单插补

均值/中位数插补

这是一个非常基础且常用的方法。适用于数据缺失是随机的情况。方法是直接用变量的均值或中位数替代缺失值。

# 使用列的均值、中位数或众数来填充缺失值。这是最简单的方法。
test_data$mean_copy_SOC <- test_data$copy_SOC
test_data$mean_copy_SOC[is.na(test_data$mean_copy_SOC)] <- mean(test_data$copy_SOC, na.rm = TRUE)

test_data$median_copy_SOC <- test_data$copy_SOC
test_data$median_copy_SOC[is.na(test_data$median_copy_SOC)] <- median(test_data$copy_SOC, na.rm = TRUE)

随机插补

直接从已有的观测值中随机选择一个值来替代缺失值。这种方法适用于数据缺失是完全随机的情况。

# 从已有的观测值中随机选择值来填充缺失值。
library(Hmisc)
test_data$Hmisc_copy_SOC <- test_data$copy_SOC
test_data$Hmisc_copy_SOC <- impute(test_data$Hmisc_copy_SOC,  'random')

# 当使用impute函数时,确保你的数据是数值型的,因为这个函数主要针对数值数据设计的。
# impute 也可以使用均值,中值进行插值
# impute(test_data$Hmisc_copy_SOC,  'mean')
# impute(test_data$Hmisc_copy_SOC,  'median')

基于模型的插补方法

线性回归插补

利用其他变量对有缺失值的变量进行线性回归预测,然后用预测值来替代缺失值。

#   使用已知的其他变量作为预测变量,进行线性回归,然后使用该回归模型来预测缺失值。
test_data$lm_copy_SOC <- test_data$copy_SOC

train_data <- test_data[!is.na(test_data$lm_copy_SOC),]

# 使用train_data建立线性模型
lm_fit <- lm(lm_copy_SOC ~ NPP+ANPP+Root.biomass+TN+pH+Clay+Silt+Sand+Bulk.density+total.PLFA+   
             Fungal.PLFAs+Bacterial.PLFAs,train_data )
# 对线性模型进行逐步回归,筛选变量
lm_fit2 <- step(lm_fit)

#模型总结
summary(lm_fit2)

Call:
lm(formula = lm_copy_SOC ~ NPP + ANPP + Root.biomass + TN + Clay + 
    Sand + Bulk.density + total.PLFA + Fungal.PLFAs + Bacterial.PLFAs, 
    data = train_data)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9593 -2.0936  0.2103  1.0633  4.2886 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)     -50.34984   29.42610  -1.711   0.1308    
NPP              -0.03340    0.01210  -2.760   0.0281 *  
ANPP             -0.34054    0.27252  -1.250   0.2516    
Root.biomass      0.05054    0.04098   1.233   0.2573    
TN               15.00918    1.48659  10.096 2.01e-05 ***
Clay              1.17952    1.16784   1.010   0.3461    
Sand              0.65299    0.38771   1.684   0.1360    
Bulk.density     -9.35362    8.41716  -1.111   0.3032    
total.PLFA       -1.39401    0.90615  -1.538   0.1678    
Fungal.PLFAs      2.88526    1.91431   1.507   0.1755    
Bacterial.PLFAs   2.53241    1.72284   1.470   0.1850    
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.586 on 7 degrees of freedom
Multiple R-squared:  0.9934, Adjusted R-squared:  0.984 
F-statistic: 105.4 on 10 and 7 DF,  p-value: 1.149e-06

# 删选除用于预测的数据集
predict_data <- test_data[is.na(test_data$lm_copy_SOC),names(coefficients(lm_fit2))[-1]]

# 使用该模型预测缺失值
predicted_values <- predict(lm_fit2, newdata = predict_data)

# 将预测的值插入到数据中的缺失位置
test_data$lm_copy_SOC[is.na(test_data$lm_copy_SOC)] <- predicted_values

这种方法首先使用其他已知变量建立线性模型,然后用该模型预测缺失值。

k-最近邻插补 (k-NN)

该方法通过查找整个数据集中与缺失值最接近的k个观测值来插补数据。

#   使用DMwR包的knnImputation函数,基于k-NN方法填充缺失值。
remotes::install_github("cran/DMwR")

library(DMwR)
test_data$DMwR_copy_SOC <- test_data$copy_SOC
knnImputation_data <- knnImputation(test_data)

test_data$DMwR_copy_SOC <- knnImputation_data$DMwR_copy_SOC

随机森林插补

随机森林是一种集成学习方法,可以用来处理缺失数据问题。

#   使用missForest包,该方法基于随机森林算法对缺失值进行插补。

library(missForest)
test_data$missForest_copy_SOC <- test_data$copy_SOC

result <- missForest(as.matrix(test_data))
result$OOBerror

test_data_missForest <- as.data.frame(result$ximp)

test_data$missForest_copy_SOC <- test_data_missForest$missForest_copy_SOC

多重插补 (Multiple Imputation)

多重插补是一个更为复杂的方法,但也是目前广泛被认为是处理缺失数据的最佳方法之一。

#有多种实现途径使用mice包进行多重插补。这是一种更复杂但被广泛接受的方法,它创建了多个数据集,并在每个数据集上进行分析。

library(mice)
test_data$mice_copy_SOC <- test_data$copy_SOC


# 进行插补
imputed_test_data <- mice(test_data[c(8:14,22)], m = 5, maxit = 50, method = 'pmm', seed = 10) 
# m代表生成的数据集数量, 最大迭代50次, pmm 方法,也可以使用其他方法,具体有
# pmm                   any Predictive mean matching
# midastouch            any Weighted predictive mean matching
# sample               any Random sample from observed values
# cart                 any Classification and regression trees
# rf                   any Random forest imputations
# mean                 numeric Unconditional mean imputation
# norm                 numeric Bayesian linear regression
# norm.nob              numeric Linear regression ignoring model error
# norm.boot             numeric Linear regression using bootstrap
# norm.predict         numeric Linear regression, predicted values
# lasso.norm           numeric Lasso linear regression
# lasso.select.norm     numeric Lasso select + linear regression
# quadratic             numeric Imputation of quadratic terms
# ri                   numeric Random indicator for nonignorable data
# logreg               binary Logistic regression
# logreg.boot          binary Logistic regression with bootstrap
# lasso.logreg         binary Lasso logistic regression
# lasso.select.logreg   binary Lasso select + logistic regression
# polr                 ordered Proportional odds model
# polyreg               unordered Polytomous logistic regression
# lda                   unordered Linear discriminant analysis
# 2l.norm               numeric Level-1 normal heteroscedastic
# 2l.lmer               numeric Level-1 normal homoscedastic, lmer
# 2l.pan                numeric Level-1 normal homoscedastic, pan
# 2l.bin               binary Level-1 logistic, glmer
# 2lonly.mean          numeric Level-2 class mean
# 2lonly.norm           numeric Level-2 class normal
# 2lonly.pmm           any Level-2 class predictive mean matching


# 插补的数据
imputed_test_data$imp$mice_copy_SOC

# 选择第一个数据集
completed_test_data <- mice::complete(imputed_test_data) 

test_data$mice_copy_SOC <- completed_test_data$mice_copy_SOC

数据插补效果展示

最后,我们可以使用散点图来直观地查看各种插补方法与原始数据之间的关系。

library(ggplot2)

#设置绘图主题
the <- theme_bw()+
  theme(legend.position = "none",
        axis.ticks = element_line(color = "black"),
        axis.text = element_text(color = "black", size=13),
        axis.title= element_text(color = "black", size=13),
        axis.line = element_line(color = "black"),
        panel.grid.minor = element_blank(),
        panel.grid.major = element_blank())


test_data %>% 
  dplyr::select(SOC, "mean_copy_SOC", "median_copy_SOC", "Hmisc_copy_SOC",
               "lm_copy_SOC", "DMwR_copy_SOC", "missForest_copy_SOC",
               "mice_copy_SOC") %>% 
  pivot_longer(cols = -1, ) %>% 
  ggplot(aes(x=value,y=SOC))+
  geom_point() +
  geom_smooth(method = 'lm',se=FALSE) +
  stat_poly_eq(use_label(c( "R2",  "P"), sep = "*\"; \"*"), formula = y ~ x)+
  the+
  labs(x= 'fited', y= 'real')+
  facet_wrap(name~.,ncol=3)+                     
  geom_abline(intercept = 0, slope = 1) # 1:1线

在这里插入图片描述
数据缺失是科研中常见的问题,但幸好我们有许多方法可以处理这个问题。本文介绍的方法只是其中的一部分,实际上还有许多其他的方法等待大家去探索和实践。希望这篇文章能对大家有所帮助!如果有任何问题或建议,欢迎留言交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1159918.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

创新方案|2023如何用5种新形式重塑疫后实体门店体验

在电商盛行的当下&#xff0c;线上购物已成为新零售的重要组成部分&#xff0c;实体零售业正处于两难境地。一方面&#xff0c;实体零售是绝对有必要的&#xff1a;美国约 85% 的销售额来自实体商店。 另一方面&#xff0c;尽管增长放缓&#xff0c;但电商收入占销售总额的比例…

【蓝桥杯 第十届省赛Java B组】真题训练(A - H)H待更新

目录 A、组队 - 看图一眼出答案 B、不同子串 - 字符串模拟 set去重 C、数列求值 - 模拟取余 D、数的分解 - 三重暴力 E、迷宫 - bfs 判断路径 F、特别数的和 - 弱智模拟 G、外卖店优先级 - map 暴力&#xff08;90%通过率&#xff09; H、人物相关性分析 - A、组队 -…

Ant Design Vue Table 表格内容高度自适应+固定表头踩坑

前言 对于非专业前端开发者来使用 Ant Design UI 组件来开发企业级后台管理系统来说是非常不错的选择&#xff0c;但这并不意味着我们能够用好这个框架&#xff0c;因为 UI 交互上和有许多细节上的问题对于非专业前端来说并不容易解决&#xff0c;最近在使用 Table 组件时就遇…

实战:基于TC3XX STM模块的时间片程序开发

1. 前言 STM模块,全称为系统定时器模块,可以看作是汽车ECU中的一个计时器。STM模块能够精确地测量和跟踪时间。 在ECU软件中,STM模块通常用于创建定期任务,比如每10毫秒执行一次的任务。这就像是一个闹钟,每隔10毫秒就会响一次,提醒ECU执行某个特定的任务。 这里的10m…

分享3个适合大学生使用的白板笔记软件,学习效率蹭蹭上涨!

现如今许多大学生不在使用纸和笔进行做笔记了&#xff0c;通通改成了各种笔记软件&#xff0c;如何选择一个好用的笔记软件&#xff0c;是当代大学生较为头疼的事&#xff0c;小编今天通过这篇文章&#xff0c;为你推荐3款宝藏级笔记软件&#xff0c;大家一定要收藏好&#xff…

18.自监督视觉`transformer`模型DINO

文章目录 自监督视觉`transformer`模型DINO总体介绍DINO中使用的SSL和KD方法multicrop strategy损失函数定义`teacher`输出的中心化与锐化模型总体结构及应用reference欢迎访问个人网络日志🌹🌹知行空间🌹🌹 自监督视觉transformer模型DINO 总体介绍 论文:1.Emerging …

变融启程 视界已破——“新主流·新未来”四川广播电视台战略分享会在成都举行

2023年11月1日下午&#xff0c;2024年度“新主流新未来”四川广播电视台战略分享会在成都举行。从三年前的“变融”开启融合、转型之路&#xff0c;到两年前以“进化”应对变化探索媒体融合之路&#xff0c;再到去年塑造“新视界”全屏聚合传播矩阵&#xff0c;四川广播电视台不…

MIT6.5830 Lab1-GoDB实验记录(四)

MIT6.5830 Lab1-GoDB实验记录&#xff08;四&#xff09; – WhiteNights Site 标签&#xff1a;Golang 读写缓冲区我是一点思路都没有&#xff0c;所以得单独开篇文章记录。 实验补充 了解buffer、序列化与反序列化 这里的序列化&#xff0c;简单来说类似于把一个很长的字符…

C/C++ sizeof

介绍 sizeof 是一个关键字、操作符&#xff0c;也是一个编译时运算符 作用&#xff1a;返回一个对象或者类型所占的内存字节数 使用方法 sizeof(type_name);//sizeof(类型) sizeof(object);//sizeof(对象) 注意&#xff1a; sizeof 操作符不能用于函数类型&#xff0c;不…

爆肝将近 10 万字讲解 Node.Js 详细教程

1. Node.Js 环境概述 Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境&#xff0c;用于在服务器端运行 JavaScript。它使用了一个事件驱动、非阻塞式I/O的模型&#xff0c;使得其轻量且高效。Node.js 的包管理器 npm 是全球最大的开源库生态系统。Node.js 能够响应大…

Java架构师知识产权与标准化

目录 1 导学2 知识产权概述3 保护期限4 知识产权人的确定4 侵权判断5 标准划分想学习架构师构建流程请跳转:Java架构师系统架构设计 1 导学 2 知识产权概述 知识产权是指公民、法人、非法人单位对自己的创造性智力成果和其他科技成果依法享有的民事权。是智力成果的创造人依…

AI“走深向实”,蚂蚁蚁盾在云栖大会发布实体产业「知识交互建模引擎」

数字化起步晚、数据分散稀疏、专业壁垒高、行业知识依赖「老师傅」&#xff0c;是很多传统产业智能化发展面临的难题。2023年云栖大会上&#xff0c;蚂蚁集团安全科技品牌蚁盾发布“知识交互建模引擎”&#xff0c;将实体产业知识与AI模型有机结合&#xff0c;助力企业最快10分…

二进制基础

最近开始入坑系统安全大坑&#xff0c;调转方向开始了解pwn&#xff0c;那就要补一些那少得可怜的底层基础啦 先学几个单词&#xff1a; exploit&#xff1a;用于攻击的脚本与方案payload&#xff1a;攻击载荷&#xff0c;是目标进程被劫持控制流的数据&#xff08;精心构造的…

Python画图之HelloKitty

Python-turtle画出HelloKitty&#xff08;有趣小游戏&#xff09; 一、效果图二、安装库1.常用镜像源2.库下载 三、Python代码 一、效果图 二、安装库 1.常用镜像源 1. 豆瓣http://pypi.douban.com/simple/ 2. 清华大学&#xff1a;https://pypi.tuna.tsinghua.edu.cn/simple…

智能视频监控平台EasyCVR出现偶发通道在线,但是无法播放的情况要怎么解决?

视频云存储/安防监控EasyCVR视频汇聚平台基于云边端智能协同&#xff0c;支持海量视频的轻量化接入与汇聚、转码与处理、全网智能分发、视频集中存储等。流媒体视频平台EasyCVR拓展性强&#xff0c;视频能力丰富&#xff0c;具体可实现视频监控直播、视频轮播、视频录像、云存储…

Scrum of Scrums大规模敏捷管理流程

​​​​​​​Leangoo领歌​​​​​​​是一款永久免费的专业的敏捷开发管理工具&#xff0c;提供端到端敏捷研发管理解决方案&#xff0c;涵盖敏捷需求管理、任务协同、进展跟踪、统计度量等。 Leangoo领歌上手快、实施成本低&#xff0c;可帮助企业快速落地敏捷&#xff0c…

Linux学习之进程二

目录 进程状态 R (running)运行状态与s休眠状态&#xff1a; disk sleep&#xff08;深度睡眠状态&#xff09; T (stopped)&#xff08;暂停状态&#xff09; t----tracing stop(追踪状态) X死亡状态&#xff08;dead&#xff09; Z(zombie)-僵尸进程 孤儿进程 进程优…

Android问题

这里面要加入 ,加入前是点击待君登录直接跳回手机主界面了 加入上述代码即可 Android之Inflate() Inflate()作用就是将xml定义的一个布局找出来&#xff0c;但仅仅是找出来而且隐藏的&#xff0c;没有找到的同时并显示功能。 android上还有一个与Inflate()类似功能的…

【AI视野·今日CV 计算机视觉论文速览 第274期】Tue, 24 Oct 2023

AI视野今日CS.CV 计算机视觉论文速览 Tue, 24 Oct 2023 Totally 138 papers &#x1f449;上期速览✈更多精彩请移步主页 Interesting: &#x1f4da;Wonder3D, 基于交叉扩散模型的单图像三维形状生成。(from 香港大学) website:https://www.xxlong.site/Wonder3D/ Daily Co…

Flutter 04 按钮Button和事件处理、弹框Dialog、Toast

一、按钮组件 1、按钮类型&#xff1a; 2、按钮实现效果&#xff1a; import package:flutter/material.dart;void main() {runApp(const MyApp()); }class MyApp extends StatelessWidget {const MyApp({Key? key}) : super(key: key);overrideWidget build(BuildContext co…