前两天协助处理GEO数据上的一个单细胞数据,发现了一个巨坑,这里分享下,希望大家能避开。
需要下载的数据集是,GSE119562,查询SRA Run Selector,找到它对应的SRR编号。
于是,我非常熟练的用prefetch下载数据。
prefetch -O . SRR7791895
接着用fasterp-dump转换格式
fasterp-dump -3 -O . SRR7791895
但是,很奇怪,结果只有一个文件!但是单细胞测序起码要有两个文件,一个记录UMI+Barcode,另一个是转录本序列,显然哪里出现了问题。
我又看了看前面的输出信息,发现输出日志里有dependency相关的信息。这让我想起了之前SRA数据下载的问题,就是当上传为BAM文件的时候,才会出现这个情况。
也就是说,原作者上传的一共是BAM文件,而这个SRA文件显然经过了有损压缩了!那我们如何获取原来的数据呢?
我们点击SRA RUn Selector中Run列中的样本,如SRR7791895,就会跳转到https://trace.ncbi.nlm.nih.gov/Traces/index.html?run=SRR7791895。在其中的Data access中,就有一个Original format,里面存放的就是原作者上传到NCBI的数据。里面Access Type为anoymous的对应的链接就是下载链接。
然而并不是所有的原始数据都能能公开下载的,很大一部分都需要用到NCBI的Cloud Data Delivery,参考如何下载SRA存放在AWS的原始数据。