介绍
生存分析的目的是分析某个时间点的“生存概率”是多少。基于这样的研究目的,需要提供生存数据,它是一种由不同的开始时间和结束时间组成的事件-时间的数据,比如在癌症研究领域,研究手术到死亡的过程、治疗到疾病进展等等。
在开展生存分析前,需要了解什么是删失(censored)。对于确定的事件,由于其他原因导致其出现无法记录、无法观察等等,这些都可以称为删失。“删失(censored)数据指在观察或试验中,由于人力或其他原因未能观察到所感兴趣的事件发生,因而得到的数据。”
knitr::include_graphics("./InputData/figures/Survival/survival_censor.png")
图表示10个参与者,在事件为发生前有7位患者出现了删失情况。忽略删失样本会导致生存概率结果出现偏差。生存分析是一种可以适当考虑被删失患者的方法。
组成
生存数据是有事件状态和对应时间组成,事件状态可以分成发生和删失。
-
事件时间: T i T_i Ti
-
删失时间: C i C_i Ci
-
事件状态:如果观察到事件则是1;否则是删失0。事件时间要小于删失时间。
通过密度分布图可以观察到事件发生和删失状态在时间上的区别,如果不考虑删失则会导致评估结果偏高。
knitr::include_graphics("./InputData/figures/Survival/survival_event.png")
某个对象在某个时间点的生存概率公式为: S ( t ) = P r ( T > t ) = 1 − F ( t ) S(t) = Pr(T > t) = 1- F(t) S(t)=Pr(T>t)=1−F(t)