基因组坐标中的 “0-based” 和 “1-based” 是两种不同的规范,用于表示基因组上的位置。
它们在不同的上下文和文件格式中可能会有不同的使用方式。
下面我们聊聊它们间的区别和应用:
一、0-based
也叫做 zero-based half-open
示例
start=0,end=7
表示
该特征长度为 7,而不是 8,注意这里记录并不是以核苷酸编号,而是间隔编号。
为啥要设计这么反直觉的规范?
最早这种设计是 UCSC Browser 为了方便在基因组浏览器中渲染方便,以 start 为起始,以 end 作为序列长度。
也就是说这种格式给计算机看的,你可以在很多用于渲染信号值的文件中看到这种规范。
一般在基因组浏览器中,bed 文件,BigWig 文件等都是以此为规范
查询
使用基因组浏览器位点查询应该为 chr1:1-7
二、1-based
示例
start=1, end=7
表示
表示 该特征长度为 7,这个比较直观。因此,这种规范一般多用在注释中。
一般在 gff 等文件中,以此为规范。
查询
使用位点查询应该为 chr1:1-7
,查询时二者并不差别。
一起来看就是这样的区别:
三、注意
这两个只是规范,实际应用中并不会强制检测。
因此在序列比对和 SNP 检测等流程结果中,最好去基因组上看看,也许会因为规范不同导致离谱的结果。