Reads:高通量测序平台产生的序列。
Raw Reads:原始下机数据称为Raw Reads(Raw data)。
Clean Reads:通过生物信息的方法,去除一些质量差的reads(比如测序错误,长度小于20的reads,接头序列,读N,UMI序列等),得到Clean Reads。
测序覆盖度:测序获得的序列占整个panel 基因组 size 比例。
由于 Panel 基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。
比如一个肿瘤panel测序, panel 的 size 为 2.0M,1.98M 的区域至少覆盖1X深度, 那么覆盖度是1.98/2=99%的话,那么还有1%的序列区域是没有通过测序获得的,Gap就是1%。
测序深度:指测序得到的总碱基数/待测基因组大小,它是评价测序量的指标之一。
假设一个 panel 的 size 为 2.0M,测序深度为 500X,那么获得的总数据量为 1.0G。它的测序深度=总数据量 1.0G/panel 大小 2.0M=500X)
有效测序深度:不等同于测序深度,是指可信的去除重复序列(dup)后目标区域的平均深度。
比如 2.0M 的 Panel Size,下机数据量1.0G,有50%数据落在目标区域(on target),50%为重复序列,那么其测序深度为500X (1.0G/2.0M),有效深度仅为125X(1G*50%*50%/2.0M)
灵敏度( sensitivity) :指患者中试验阳性者所占比例。对应假阴性率。计算公式:灵敏度( Sen) = a/( a+ c) %。
特异度( specificity) :指没有患病的人中试验阴性者所占比例。对应假阳性率。计算公式:特异度( Spe) = d/ ( b+ d) % 。
更多完整的内容点击原文:5.实用干货-你可能没留意的几个生信基础之起始量、原始数据、测序深度(上)起始量、原始数据、测序深度为啥要取这么多,什么样的标准,有什么依据https://mp.weixin.qq.com/s/MKFwufC2PXtGH2hSFJQ16A