临床数据科学中如何用R来进行缺失值的处理(上)

news2025/1/9 17:14:24

在临床科研中,由于失访、无应答或记录不清等各种原因,经常会遇到数据缺失的问题。本文将深入探讨医学科研中数据缺失的成因、分类、影响以及应对方法,结合R语言的实际应用,为医学研究人员提供全面的解决方案。

一、认识缺失数据

其实,很多医学的纵向研究因获取数据资料时间较长,受试对象疾病痊愈、居住地改变等原因,不可避免地出现缺失数据。缺失数据不仅会降低医学研究的把握度,还会给研究的结果带来偏倚。在数据收集过程中由于失访、拒访、录入错误等原因造成的不完整数据称为缺失数据(Missing data)。

2083ab56173e4664b84a8a36db4edc83.png

1、数据缺失的操作成因

在医学研究中,数据缺失的原因多种多样,可以归纳为以下几类:

受试者原因

失访:在纵向研究中,受试者可能由于搬迁、无法联系、去世等原因导致后续数据无法获取。失访在长期随访研究中特别常见,尤其是在研究对象涉及广泛地理区域或高风险人群时。受试者失访会导致随访数据的缺失,从而影响研究结果的有效性和可靠性。

拒访:受试者拒绝继续参与研究,拒绝提供进一步的数据。这可能是因为研究的侵入性、不适感、时间成本或对研究过程的抵触情绪。受试者的拒访率高可能反映研究设计上的问题,或者是受试者招募和管理过程中存在的缺陷。

疾病痊愈:部分受试者在疾病痊愈后,认为不再需要参与研究,从而导致数据缺失。虽然这对于受试者个人是积极的,但对于研究来说,这种数据缺失可能会影响对长期效果的评价。

研究者原因

数据录入错误:由于工作人员的疏忽或不熟练,导致数据录入时出现错误。这类错误包括数据的遗漏、误录和重复录入等。数据录入错误不仅会直接导致数据缺失,还可能导致数据的质量和可靠性问题。

记录不清:数据记录过程中不够详细或规范,导致后期数据处理困难。这可能是由于研究者未能严格遵循数据记录的标准操作程序,或者在数据记录过程中未能及时、准确地记录相关信息。

设备故障:数据采集设备出现故障,无法完整获取数据。设备故障可能是由于硬件问题、软件错误或操作不当引起的。在高度依赖仪器设备进行数据采集的研究中,设备故障造成的数据缺失可能尤为严重。

其他原因

样本丢失:生物样本在运输或存储过程中丢失或损坏。生物样本的丢失或损坏不仅会导致数据缺失,还会增加研究的成本和时间。样本丢失的原因可能包括标签错误、存储条件不当、运输过程中的意外等。

技术原因:某些数据由于技术限制无法获取或测量。技术原因导致的数据缺失可能包括检测限的限制、数据采集方法的不完善、数据处理技术的局限性等。在某些情况下,技术原因可能导致特定变量的数据无法获得,从而影响研究结果的全面性和准确性。

2、数据缺失的三种分类

完全随机缺失(MCAR, Missing Completely at Random)

数据缺失是完全随机的,与任何观测值或未观测值无关。例如,某些问卷中的问题因打印错误而未显示,导致所有受访者均未回答该问题。在这种情况下,缺失的数据与其他变量无关,因此不会引入偏倚。但完全随机缺失在实际研究中较为少见。

随机缺失(MAR, Missing at Random)

数据缺失与已观测的变量有关,但与未观测的变量无关。例如,年龄较大的受试者更有可能失访,但在同一年龄组内,失访是随机的。这种情况下,尽管数据缺失不是完全随机的,但如果对已观测变量进行适当的调整,可以得到无偏估计。

非随机缺失(MNAR, Missing Not at Random)

数据缺失与未观测的变量有关。例如,重病患者由于身体不适,更有可能拒绝接受某些检查,导致数据缺失。在这种情况下,缺失的数据与未观测的值相关,通常难以处理,因为缺失机制本身与数据有关,可能会引入偏倚。

3、数据缺失的影响

减少统计效能

统计效能是指研究检测到实际存在效应的能力。在临床试验中,每个参与者的数据都至关重要。当部分数据缺失时,等同于减少了样本量。假设我们在一项试验中原计划招募100名参与者,但由于各种原因,最终只有80名参与者提供了完整的数据。那么,我们实际用于分析的数据点只有80个,而不是最初设计的100个。

统计功效的降低:样本量减少直接影响统计功效。统计功效(Statistical Power)是指试验正确拒绝零假设的概率。当样本量不足时,即使有实际效应存在,我们也可能因为数据不足而无法检测到这种效应。统计功效降低意味着试验得出的结论可靠性下降,可能会出现更多的假阴性结果,即实际存在的效应未被检测到。

效应大小的估计偏差:数据缺失不仅影响统计功效,还会对效应大小的估计产生偏差。较小的样本量使得效应大小的估计变得不准确,可能会夸大或低估实际效应。例如,在药物试验中,如果一些患者因为副作用退出试验,这些患者的数据缺失会导致对药物副作用严重性的低估。

引入偏倚

数据缺失不仅仅是一个统计学问题,它还会引入系统性偏倚,导致研究结果偏离真实情况。

非随机缺失:如果数据缺失不是随机发生的,而是与某些特定因素相关,则会引入偏倚。例如,在一项关于重病患者的研究中,重病患者往往更有可能因病情严重而无法完成整个试验,这就导致了非随机缺失。如果我们不考虑这些缺失数据,可能会低估疾病的严重性,甚至对某些治疗的有效性产生错误的结论。

偏倚的表现:这种偏倚可以表现为结果的系统性误差。例如,在一项新药试验中,如果药物副作用严重的患者由于无法耐受而退出试验,那么剩下的数据可能会显示出药物的副作用较轻。实际上,这是因为最严重的副作用患者的数据被忽略了,导致了对药物安全性的不准确评估。

4、复杂数据分析

处理数据缺失必然会增加了数据分析的复杂性。所以,处理缺失数据需要采用特殊的方法,否则可能会得出错误的结论。

传统的数据分析方法,如完全案例分析(Complete Case Analysis)和均值插补(Mean Imputation),在处理数据缺失时有其局限性。完全案例分析只使用没有缺失值的案例进行分析,这会导致样本量的大幅减少。而均值插补则简单地用变量的平均值代替缺失值,这会低估变量的变异性,从而影响结果的准确性。

现代统计学方法提供了更有效的处理数据缺失的方法。例如,多重插补法(Multiple Imputation)是一种广泛使用的方法,它通过创建多个插补数据集,并结合这些数据集的分析结果,来处理缺失数据。此外,还有全信息最大似然法(Full Information Maximum Likelihood, FIML),它通过使用所有可用数据来估计模型参数,从而减少缺失数据的影响。

二、用R来检验缺失数据

R语言中将缺失值表示为NA(Not Available)。接着,我们将深入探讨如何在R中检测缺失值。

1、缺失值的检测

在R中,可以使用is.na()函数来检测缺失值。该函数返回一个与输入对象大小相同的逻辑向量,其中缺失值的位置为TRUE,非缺失值的位置为FALSE。让我们通过一个简单的示例来理解这一点。

data_miss <- c(1, 2, 3, NA, 33, NA, NA, 23)
is_na_result <- is.na(data_miss)
print(is_na_result)

结果可见:

[1] FALSE FALSE FALSE  TRUE FALSE  TRUE  TRUE FALSE

通过上述代码,我们可以清楚地看到哪些位置存在缺失值。

2、缺失值观察

在实际数据分析中,我们常常需要查看缺失值的具体分布情况。由于R的内置数据集iris没有缺失值,我们可以人为地生成一个含有缺失值的iris_miss数据集,并通过不同的方法来观察缺失值的情况。

示例:生成含缺失值的数据集

iris_miss <- iris
iris_miss$Sepal.Length[c(12, 22, 51, 92, 122)] <- NA
iris_miss$Sepal.Width[c(12, 96, 126)] <- NA
iris_miss$Petal.Length[c(5, 15, 35, 45)] <- NA
num_na <- length(which(is.na(iris_miss)))
print(num_na)

结果可见:

[1] 12

上面代码首先创建了一个名为iris_miss的数据框,它是iris数据集的副本。然后,该代码将iris_miss数据集中Sepal.LengthSepal.WidthPetal.Length列的特定行设置为缺失值(NA),具体位置分别是第12、22、51、92、122行的Sepal.Length,第12、96、126行的Sepal.Width,以及第5、15、35、45行的Petal.Length。接着,代码计算了iris_miss数据集中所有缺失值的总数,并将结果存储在num_na变量中,最后通过print函数打印出缺失值的总数,结果显示为12。

3、使用View()和complete.cases()函数

我们可以通过View()函数以表格形式查看数据中含有NA值的非完整数据行,并可以根据每列中数值类别和大小进行数据排序。此外,complete.cases()函数返回一个逻辑向量,表示哪些行是完整的,即没有缺失值。

View(iris_miss[!complete.cases(iris_miss),])

结果可见:

9d6489dbde294b969fa7d66f17d44c03.png

4、使用mice包观察缺失值模式

mice包提供了丰富的缺失值处理功能。通过md.pattern()函数,可以生成一个以矩阵或数据框形式展示缺失值模式的表格,并生成关于缺失值的图表。

library(mice)
md_pattern_result <- md.pattern(iris_miss)
print(md_pattern_result)

 结果可见:

    Petal.Width Species Sepal.Width Petal.Length Sepal.Length   
139           1       1           1            1            1  0
4             1       1           1            1            0  1
4             1       1           1            0            1  1
2             1       1           0            1            1  1
1             1       1           0            1            0  2
              0       0           3            4            5 12
  • 从第二列开始,每一列表示数据集中的一个变量(Petal.WidthSpeciesSepal.WidthPetal.LengthSepal.Length)。
  • 数值 1 表示该变量在该行中没有缺失值,而 0 表示有缺失值,一列和最后一列和最后一行除外。
  • 第一行第一列的 139,是说明139 行数据没有任何缺失值。
  • 第一行第二行表示有 4 行数据缺失 Sepal.Length 的值(1 表示不缺失,0 表示缺失)。
  • 末尾的一列表示每种缺失模式的行数,最后一行表示每个变量缺失值的总数。

图示:

6b7cf8f0954e4ec0a122a2b1fe6a6a69.png

MICE(Multivariate Imputation by Chained Equations)包更多是R语言中用于多重插补缺失值的强大工具包。它基于链式方程的思想,提供了一种系统化的方法来处理数据集中的缺失值。通过多重插补,可以生成多个填补缺失值后的数据集,并对这些数据集进行综合分析,以提高估计的准确性和可靠性。上面只是用到MICE的可视化功能。

5、使用VIM包进行缺失值可视化

通过图形化的方式观察缺失值,可以更直观地理解数据的缺失模式。VIM包提供了多种可视化工具,如aggr()函数和scattmatrixMiss()函数等等。

library(VIM)
names(iris_miss) <- c("SLength", "SWidth", "PLength", "PWidth", "Species")
aggr_plot <- aggr(iris_miss, prop = FALSE, numbers = TRUE)
scattmatrixMiss_plot <- scattmatrixMiss(iris_miss)
marginplot(iris_miss[c("SLength", "SWidth")])

缺失值的直方图

67dca4ea59154c94b328a732c240b9ad.png

上面左图是用条形图展示了每个变量缺失值的个数,其中 “Petal.Width(PWidth)”和“Species”变量没有缺失值,“Sepal.Length(SLength)”缺失最多为5个。右图展示了数据框中5个变量不同组合下缺失值的个数,右下角的139代表删除所有缺失值后还剩的完整数据的样本数为139个,具体分析可参考md.pattern()的结果分析。

缺失值的散点图

dc062501490d45fe8720317b7659cad9.png

上图为函数scattmatrixMiss()生成的不同变量之间的散点图情况。如果观察其中两个变量之间的缺失值信息也可以使用函数marginplot(),例如"Sepal.Length"和"Petal.Width"的。

缺失值的综合图

5ae46d8f96354c49bfed40f20c8a192c.png

VIM 包是 R 语言中专门用于可视化和处理缺失值的工具包。它具备多种实用函数,能够助力用户清晰直观地了解缺失值的分布状况,并实现有效的填补。在缺失值可视化方面,aggr()函数可以生成条形图和矩阵图,用于展示单变量以及多变量组合时缺失值的个数或者比例;scattmatrixMiss()函数能够生成涵盖缺失信息的散点图矩阵,以此呈现不同变量之间的关系;marginplot()函数则可用于对两个变量之间的缺失值信息进行观察。

53f1738b73904a138297fbc34d7cfe4f.png

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1987694.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python酷库之旅-第三方库Pandas(070)

目录 一、用法精讲 281、pandas.Series.dt.daysinmonth属性 281-1、语法 281-2、参数 281-3、功能 281-4、返回值 281-5、说明 281-6、用法 281-6-1、数据准备 281-6-2、代码示例 281-6-3、结果输出 282、pandas.Series.dt.tz属性 282-1、语法 282-2、参数 282-…

AndroidStudio 两种Debug模式

第一种&#xff1a;直接运行Debug 第二种&#xff1a;运行 attach debugger to android process 优缺点&#xff1a; 第一种是需要把整个工程运行起来&#xff0c;耗时&#xff0c; 第二种是触发式调试&#xff0c;在出错的情况下&#xff0c;经过判断在出错的地方&#xff0c;…

Leetcode75-6 反转字符串中的单词

思路 1. 先把全部字符串反转 然后按空格分割字符串 最后输出即可 有一个问题就是 多个空格的情况 需要用正则表达式 参考文章【JAVA学习之字符串分割空格】_如何将字符串用不确定的空格分开-CSDN博客 分割多个空格时可以需要用到正则表达式。。 正则表达式\s表示匹配任何空白字…

乡村振兴旅游综合体建设方案

1. 乡村振兴旅游综合体概述 乡村振兴旅游综合体建设方案旨在通过现代信息技术的应用&#xff0c;如云计算、物联网、大数据等&#xff0c;实现旅游行业的智慧化升级。该方案涵盖了游客、旅游管理部门、商家等不同角色的需求&#xff0c;以期提升旅游体验&#xff0c;推动乡村振…

OpenCV专栏介绍

在当今人工智能和计算机视觉领域&#xff0c;OpenCV作为一个功能强大的开源库&#xff0c;已经成为实现各种视觉算法的基石。本“OpenCV”专栏致力于帮助读者深入理解并掌握OpenCV的使用&#xff0c;从而在计算机视觉项目中发挥关键作用。 专栏导读 随着技术的不断进步&#…

免费代理池是什么,如何使用代理IP进行网络爬虫?

互联网是一个庞大的数据集合体&#xff0c;网络信息资源丰富且繁杂&#xff0c;想要从中找到自己需要的信息要花费较多的时间。为了解决这个问题&#xff0c;网络爬虫技术应运而生&#xff0c;它的主要作用就是在海量的互联网信息中进行爬取&#xff0c;抓取有效信息并存储。然…

【原型模式】设计模式系列:高效克隆的艺术(深入解析)

文章目录 Java设计模式之原型模式详解1. 引言2. 原型模式概述2.1 定义与基本原理2.2 原型模式与其他模式的关系2.3 使用场景分析 3. Java中的Cloneable接口3.1 Cloneable接口简介3.2 Object类中的clone方法3.3 实现Cloneable接口的步骤3.4 克隆方法的重写示例 4. 深克隆与浅克隆…

Django-Oscar开发独立站/外贸商城教程与问题记录

​特别说明&#xff1a; 本博客为个人开发Django-Oscar时的经验总结&#xff0c;方便后期维护&#xff01;&#xff08;第一次这么认真的记录这种大型项目&#xff0c;打个广告吧&#xff1a;本人可接单算法程序开发&#xff0c;包含深度学习和图像相关……等相关&#xff09;…

秒懂C++之stack、queue、堆

目录 前言 一.stack常用接口 二.stack模拟实现 三.例题 3.1 最小栈 题目解析&#xff1a; 算法解析&#xff1a; 代码&#xff1a; 3.2 栈的压入、弹出序列 题目解析: 算法解析&#xff1a; 代码&#xff1a; 3.3 逆波兰表达式求值 题目解析&#xff1a; 算法解析…

【Web】从TFCCTF-FUNNY浅析PHPCGI命令行注入漏洞利用

目录 背景 CVE-2012-1823 发散利用 法一&#xff1a;读文件 法二&#xff1a;数据外带 背景 CVE-2012-1823 PHP-CGI远程代码执行漏洞&#xff08;CVE-2012-1823&#xff09;分析 | 离别歌 省流&#xff1a; 命令行参数不光可以通过#!/usr/local/bin/php-cgi -d include…

目标检测 | yolov4 原理和介绍

1. 简介 YOLOv4是一种高效且准确的目标检测模型&#xff0c;它在YOLOv3的基础上引入了多项改进&#xff0c;这些改进主要集中在网络结构的优化和训练技巧的更新上。以下是YOLOv4中的一些关键技术或模块&#xff0c;它们对提高目标检测性能起到了重要作用&#xff1a; CSPDarkne…

MATLAB基础应用精讲-【数模应用】配对样本Wilcoxon检验(附MATLAB、R语言和python代码实现)

目录 知识储备 常用的统计假设检验的方法 算法原理 什么是Wilcoxon符号秩检验? 何时使用Wilcoxon符号秩检验 适用条件 SPSS-符号秩检验 一统计理论 二实例分析 三拓展知识 SAS --配对样本Wilcoxon符号秩检验 SPSSAU 配对样本Wilcoxon检验案例 1、背景 2、理论 …

【C++指南】函数重载:多态性的基石

&#x1f493; 博客主页&#xff1a;倔强的石头的CSDN主页 &#x1f4dd;Gitee主页&#xff1a;倔强的石头的gitee主页 ⏩ 文章专栏&#xff1a;《C指南》 期待您的关注 目录 引言 一、函数重载的概念 二、函数重载的原理 三、函数重载的应用场景 四、函数重载的规则 五…

springboot整合libreoffice(两种方式,使用本地和远程的libreoffice);docker中同时部署应用和libreoffice

一、 背景 因为项目中需要使用word转pdf功能&#xff0c;因为转换速度原因&#xff0c;最后选用了libreoffice&#xff0c;原因及部署请参考 linux ubuntu环境安装libreoffice&#xff0c;word转pdf 远程调用的话可选docker部署&#xff0c;请看2.3.1 二、springboot整合libr…

AT指令处理框架

<AT框架>做什么 <AT框架>介绍 ATFrame 流程 开启AT流程: ATCommandRegister(CSQ,EXEXCMD,NULL); 发送消息队列xQueueSend(ATcmdQueue,(void *) &RegcommandInfo,(TickType_t)100) AT主流程 ATCommandSendScheduler 等待开启xQueueReceive(ATcmdQueue, (voi…

详细分析python下载文件的两种方式(附Demo)

目录 前言1. 接口方式2. Nginx 前言 基本项目的构建推荐阅读&#xff1a;构建Flask前后端不分离项目&#xff08;附Python Demo&#xff09; 对于Java的基本知识&#xff0c;推荐阅读&#xff1a; java框架 零基础从入门到精通的学习路线 附开源项目面经等&#xff08;超全&…

Unknown input format pdf Pandoc can convert to PDF, but not from PDF.解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

【Lua运行环境安装及配置】

首先在百度搜索“Lua菜鸟教程” 网址&#xff1a;Lua 教程 | 菜鸟教程 (runoob.com) 找到环境安装 点击Github下载地址&#xff0c;GitHub可以在正规上网下进入网址&#xff08;页面更新不出来多试几次&#xff09; 点击.exe安装 下载完成后进行安装 可自定义磁盘 项目文件很…

线程局部变量(ThreadLocal)

线程局部变量&#xff08;ThreadLocal&#xff09; 1、什么是ThreadLocal&#xff1f;2、基本用法3、注意事项 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 1、什么是ThreadLocal&#xff1f; ThreadLocal 是 Java 中用于实现线程局部变…

IEC 61850标准协议解读 1.建模讲解

IEC61850协议标准和之前的101、104协议最大的区分就是在模型这里&#xff0c;模型可以说是一个变电站里面的智能设备的定义&#xff0c;里面定义了网络连接信息、数据上报方式、设备访问控制点等&#xff0c;所以说在不同系统的对接过程中&#xff0c;有了这么一个基于标准定义…