一、数据缺失的原因:
(1)AE或疗效退出;
(2)结局变量不适用(无法获得结局变量);
(3)失访;
(4)数据采集失误;
(5)获取数据代价太高。
二、数据缺失危害:
(1) 影响准确性:数据缺失破坏随机化,基线可比性被打破,影响统计推断;数据缺失与治疗措施的分配和治疗结局相关,造成估计偏倚。
(2) 降低检验效能:降本量减少。
数据缺失导致样本量减少会降低检验效能。N=n/(1-R),R为受试者脱落比例。
三、数据缺失的处理框架:
四、缺失数据记录包括:
(1) 实际缺失数据的数量与预期估计的差别的文件记录;
(2) 数据缺失的数量,时间,以及其可能对有效性和安全性造成的影响进行讨论。列出受试者脱落模式的示意图(Kaplan Meier图)。
(3) 缺失数据类型的阐述,缺失数据与相关指标是否存在非平衡性,有缺失数据和无缺失数据的患者在基线水平上是否具有不同特征。
(4) 报告脱落原因。
(5) 进行事后敏感性分析,目的不是为了弥补试验设计的缺陷甚至错误,仅仅是为了说明当出现预料之外的数据缺失类型时,该试验的结果是否依然有效。
五、缺失数据记录:
(1) 实际缺失数据的数量与预期估计的差别的文件记录;
(2) 数据缺失的数量,时间,以及其可能对有效性和安全性造成的影响进行讨论。列出受试者脱落模式的示意图(Kaplan Meier图)。
(3) 缺失数据类型的阐述,缺失数据与相关指标是否存在非平衡性,有缺失数据和无缺失数据的患者在基线水平上是否具有不同特征。
(4) 报告脱落原因。
(5) 进行事后敏感性分析,目的不是为了弥补试验设计的缺陷甚至错误,仅仅是为了说明当出现预料之外的数据缺失类型时,该试验的结果是否依然有效。
六、数据缺失的处理原则:
数据缺失所导致的统计分析结果偏离真实情况的程度与数据缺失机制相关。包括数据缺失、治疗分组、疗效指标之间的相互关系,疗效指标测量方法、疗效指标随时间变化等因素。
数据缺失的处理方法不当,其本身也会成为分析结果偏倚的来源。真实的完整数据和数据缺失的机制是不可能知道的,这种情况下,数据缺失的处理方法的合理性主要取决于针对缺失机制所建立的假设在特定的临床试验场景中是否合理。为了避免根据数据来主观选择缺失数据处理方法,在试验开始前确定统计分析处理方法。
七、数据缺失的模式:
了解缺失模式有利于认识不同变量间的关系。常见模式:单调缺失模式(monotone missingness pattern)、任意缺失模式(arbitrary missingness pattern)。
单调缺失模式:包含两种情况:
(1) 单变量缺单调缺失,只有一个变量含有缺失值。
(2)多变量单调缺失模式,重复测量设计的资料收集,第k次观测缺失,其以后各次的观测值也是缺失的。(少见)
任意缺失模式:没有规律(任性的受试者,想来就来,想走就走),最常见。
八、数据缺失机制:
缺失数据的处理建立在缺失机制的假设上,在选择具体的统计分析方法之前对数据的缺失机制进行充分而合理的论证是必要的。分为三类:完全随机缺失(missing completely at random MCAR)、随机缺失(missing at random MAR)、非随机缺失(missing not at random MNAR)。
九、数据缺失的处理方法的选择:
统计分析需要阐述:(1)方法选择的理由及合理性;(2)描述缺失数据处理方法;(3)说明是否能够对治疗效果进行客观评价。
缺失机制很难验证,数据缺失的处理方法的选择往往依赖于研究者,受主观因素的影响。收集缺失的原因和疗效有关的辅助信息,利用获取的信息判断缺失机制,从而建立合理的分析模型。“根据具体的临床试验情况采用保守的缺失数据的处理方法。”保守的意思是并不会因为点估计的偏倚或者对变异的低估而导致作出有利于试验组有利的统计推断。
十、敏感性分析:
采用不同于主要分析手段的其他策略处理缺失数据,并显示不同的数据缺失假设如何影响分析结果。
当数据缺失较多,敏感性分析应为主要分析方法提供支持。结果有两种情况:
(1)与主结果一致,效应估计接近,可以说明缺失数据以及处理方法对整体探究结果不产生重要影响。
(2)与主结果不一致,应讨论对试验结果的影响。
敏感性分析的策略:
(1) 比较FAS和PPS的分析结果;
(2) 综合考虑基于不同缺失机制假设的方法得到的结果;
(3) 比较不同模型设置对分析的影响;
(4) 将所有缺失数据视作治疗失败;
(5) 最差个例分析,将对照组缺失数据用最好的结转,试验组缺失数据用最差的可能结果结转。(缺失数据处理方法所得到的结果具有稳健性);
(6) 模式混合模型验证数据缺失机制。
(7) 多个敏感性分析结果一致,可增加结论的可靠性。
参考:临床试验统计学 2018版