单细胞RNA测序(scRNA-seq)SRA数据下载及fastq-dumq数据拆分

news2024/10/7 19:23:17

单细胞RNA测序(scRNA-seq)入门可查看以下文章:

单细胞RNA测序(scRNA-seq)工作流程入门

单细胞RNA测序(scRNA-seq)细胞分离与扩增

1. NCBI查询scRNA-seq SRA数据

NCBI地址: https://www.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA484204&o=acc_s%3Aa

点击Accession List下载包含SRR*编号信息的文本文件 - SRR_Acc_List.txt。
NCBI SRA数据SRR_Acc_List.txt文件内容
SRR_Acc_List.txt

2. 批量下载SRA数据与 fastq-dumq拆分SRA为fastq文件

10X单细胞数据相对比较复杂,其测序文库中包括indexbarcodeUMI测序reads。因此需要对SRA文件进行拆分以获取上述文件,拆分需要使用fastq-dump软件,为sra-tool工具中的软件之一。

** fastq-dumq**使用–split-files来替代–split-3 ,就可以生成3个文件。第1个文件的所有序列都是8bp,第2个文件26bp,第3个文件91bp,判断第3个文件时包含测序reads的文件。

prefetch 软件安装可参考以下文章:
prefetch软件安装

# conda安装
conda install -c bioconda sra-tools 

######## 单个SRR数据下载与拆分(测试) ######## 
prefetch SRR7692286

# 后台下载
# nohup prefetch SRR7692286 &

# fastq-dump为-A为指定文件名, --gzip为输出.gz压缩文件
fastq-dump --gzip --split-files -A SRR7692286 SRR7692286.sra

# 拆分sra文件, fastq-dump拆分报错,可尝试使用fasterq-dump
# fasterq-dump --split-files -A SRR7692286 SRR7692286.sra

######## 批量SRR数据下载与拆分 ######## 
# 根据SRR_Acc_List.txt批量下载,nohup为后台下载
prefetch --option-file SRR_Acc_List.txt

# 后台下载
# nohup  prefetch --option-file SRR_Acc_List.txt &

# 批量拆分sra文件为fastq.gz
cat SRR_Acc_List.txt|while read srr; do (fastq-dump --gzip --split-files -A $srr ${srr}.sra); done

下载截图

4. 了解10X文库组成

R1: 26 表示10X barcode 的 16bp碱基 + 10bp UMI;
i7: 8表示 8bp 样本index序列
Read 2: 98 中星号符号表示长度不固定。

4.1 i7 sample index的作用?

i7 sample index(library barcode)是加到Illumina测序接头上的,保证多个测序文库可以在同一个flow-cell上或者同一个lane上进行混合测序(multiplexed)。不同的项目index不同,但在96孔板的每个孔中都加入了4种不同的index oligos混合,其作用就是在CellRanger mkfastq 功能(BCL转fastq)中体现出来的,它自动识别样本index名称(例如:SA-GA-A1),将具有相同4种oligo的fq文件组合在一起表示同一个样本,从而保证了一个测序lane上可以容纳多个样本。
10X文库组成示意图

4.2 10X Barcode(Cell barcode)的作用?

10X Barcode(Cell barcode)是10X数据特有的,用来区分GEMs,可对细胞做了一个标记。

4.3 UMI的作用?

在scRNA测序中需要进行PCR扩增, 一些转录本会被扩增多次,超过了其真实的表达量。当起始文库DNA量很小时,在进行多次PCR扩增中,引入的误差会随着扩增次数的增加而增加。

UMI - Unique Molecular Identifier,由4-10个随机核苷酸组成,在mRNA反转录后,进入到文库中,每一个mRNA随机连上一个UMI,根据PCR结果可以计数不同的UMI,最终统计mRNA的数量(重点)。

UMI用于PCR扩增校正mRNA数量示意图对UMI的要求:

  1. 不能是均聚物 ,如AAAAAAAAAA
  2. 不能有N碱基
  3. 不能包含碱基质量低于10的碱基

4.4 简而言之

Library Barcode (Sample Index) : 使用样本index序列进行多样本拆分
10x Barcode(Cell Barcode ): 用来区分细胞reads的来源
Unique Molecular Index (UMI) : 用来校正PCR扩增引起mRNA数量统计的偏差
Sequencing Reads : 用来识别基因的reads

5. fastq文件重命名

参考以下命名要求,对SRA拆分获得的样本fastq.gz文件进行重命名。

10X官网数据命令规范

# 批量重命名
cat SRR_Acc_List.txt| whilre read srr;do \
(mv ${srr}_1*.gz ${srr}_S1_L001_I1_001.fastq.gz; \
mv ${srr}_2*.gz ${srr}_S1_L001_R1_001.fastq.gz; \
mv ${srr}_3*.gz ${srr}_S1_L001_R2_001.fastq.gz);done

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1570626.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

继承.Java

目录 1,概述 1.1继承的含义 1.2什么时候用继承 1.3继承的好处 1.4继承的特点 2,继承的格式 3,可以继承哪些内容 4,成员方法和成员变量的访问特点 5,构造方法的访问特点 6,this,super…

windows版本-idea中下载的java版本在哪

1、点击idea的file-projectStructure 进入: 通过电脑目录进入该目录 找到bin目录,copy该目录地址 copy下来之后设置到系统环境变量中

C#项目引用解决方案中其他项目dll时,出现黄色感叹号的解决方案

问题引入 今天拿着老师傅的老项目,需要做通讯调试,说测试一下,便添加了一个项目A来编写结构体,然后在窗体程序项目B中引用A,发现B一引用A,在B项目的引用下面A就多了个黄色感叹号,一编译B项目&am…

瑞_Redis_商户查询缓存

文章目录 项目介绍1 短信登录2 商户查询缓存2.1 什么是缓存2.1.1 缓存的应用场景2.1.2 为什么要使用缓存2.1.3 Web应用中缓存的作用2.1.4 Web应用中缓存的成本 2.2 添加Redis缓存2.2.1 背景2.2.2 缓存模型和思路2.2.3 代码实现2.2.4 测试附:IDEA控制台输出自动换行设…

色域(BT2020/BT709/sRGB/DCI-P3/Rec.709/NTSC)

什么是色域 色域是对一种颜色进行编码的方法,也指一个技术系统能够产生的颜色的总和。在计算机图形处理中,色域是颜色的某个完全的子集。一般来说,高端投影仪和电视都会强调色域范围和对比度,而不是唯亮度标准论。 自然界可见光…

面试算法-139-盛最多水的容器

题目 给定一个长度为 n 的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 说明:你不能倾斜容器。…

Sybase ASE中的char(N)的坑以及与PostgreSQL的对比

1背景 昨天,一朋友向我咨询Sybase ASE中定长字符串类型的行为,说他们的客户反映,同样的char类型的数据,通过jdbc来查,Sybase库不会带空格,而PostgreSQL会带。是不是这样的?他是PostgreSQL的专业大拿,但因为他手头没有现成的Sybase ASE环境,刚好我手上有,便于一试。 …

(学习日记)2024.04.01:UCOSIII第二十九节:消息队列实验(待续)

写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…

LearnOpenGL_part1

创建窗口 - LearnOpenGL CN (learnopengl-cn.github.io) 最原始的黑框框&#xff1a; #include <glad/glad.h> #include <GLFW/glfw3.h> #include <iostream> int main() {glfwInit();//初始化GLFWglfwWindowHint(GLFW_CONTEXT_VERSION_MAJOR, 3);//配置G…

亚马逊AWS永久免费数据库

Amazon DynamoDB 是一项无服务器的 NoSQL 数据库服务&#xff0c;您可以通过它来开发任何规模的现代应用程序。作为无服务器数据库&#xff0c;您只需按使用量为其付费&#xff0c;DynamoDB 可以扩展到零&#xff0c;没有冷启动&#xff0c;没有版本升级&#xff0c;没有维护窗…

如何同时安全高效管理多个谷歌账号?

您的业务活动需要多个 Gmail 帐户吗&#xff1f;出海畅游&#xff0c;Gmail账号是少不了的工具之一&#xff0c;可以关联到Twitter、Facebook、Youtube、Chatgpt等等平台&#xff0c;可以说是海外网络的“万能锁”。但是大家都知道&#xff0c;以上这些平台注册多账号如果产生关…

Codeforces Round 930 (Div. 2) ---- E. Pokémon Arena ---- 题解

E. Pokmon Arena&#xff1a; 题目大意&#xff1a; 思路解析&#xff1a; 可以想到的是&#xff0c;可以用最短路来解决这个问题&#xff0c;但是如果简单的建图的话&#xff0c;时间复杂度将会达到 O(n*n*m)&#xff0c;我们考虑怎么减少图中边的个数。 我们考虑一个颜色&…

C语言中的字符与字符串:魔法般的函数探险

前言 在C语言的世界里&#xff0c;字符和字符串是两个不可或缺的元素&#xff0c;它们像是魔法般的存在&#xff0c;让文字与代码交织出无限可能。而在这个世界里&#xff0c;有一批特殊的函数&#xff0c;它们如同探险家&#xff0c;引领我们深入字符与字符串的秘境&#xff0…

探索GlassWire:网络安全与流量监控软件

名人说&#xff1a;东边日出西边雨&#xff0c;道是无晴却有晴。——刘禹锡 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 目录 一、软件介绍1、GlassWire&#xff08;免费版本&#xff09;2、核心特点 二、下载安装①…

想拿高薪?云计算或许是你的跳板!

随着科技的不断进步&#xff0c;云计算作为一项重要的技术趋势&#xff0c;正引领着整个行业的快速发展。越来越多的人开始关注云计算领域&#xff0c;希望通过学习和掌握这一技能来获得更高的薪资。那么&#xff0c;为什么选择云计算作为职业发展方向&#xff1f;学习云计算又…

sharding‐jdbc之分库分表(mysql主从同步的数据库安装和使用)

水平分表 创建基础工程.. 引入sharding‐jdbc的maven依赖包 注意需要数据库连接池等依赖 <dependency><groupId>org.apache.shardingsphere</groupId><artifactId>sharding-jdbc-spring-boot-starter</artifactId><version>4.0.0-RC1&l…

【pycharm】在debug循环时,如何快速debug到指定循环次数

【pycharm】在debug循环时&#xff0c;如何快速debug到指定循环次数 【先赞后看养成习惯】求关注收藏点赞&#x1f600; 在 PyCharm 中&#xff0c;可以使用条件断点来实现在特定循环次数后停止调试。这可以通过在断点处右键单击&#xff0c;然后选择 “Add Breakpoint” -&g…

ES6学习(五)-- Module 语法

文章目录 Module 语法1.1 痛点介绍(1) 异步加载(2) 私密(3) 重名(4) 依赖 1.2 解决方法(1) 解决异步加载问题(2) 解决私密问题(3) 重名解决方法(4) 解决依赖问题 1.3 模块化使用案例 Module 语法 之前js 出现的某些痛点&#xff1a; 在script 中引入的变量名不可以重复&#…

位运算-191. 位1的个数- 136. 只出现一次的数字

位1的个数 已解答 简单 相关标签 相关企业 编写一个函数&#xff0c;输入是一个无符号整数&#xff08;以二进制串的形式&#xff09;&#xff0c;返回其二进制表达式中 设置位 的个数&#xff08;也被称为汉明重量&#xff09;。 示例 1&#xff1a; 输入&#xff1a;n 11 输…

gpt4.0获取方法

今天我们想要进行的一项尝试就是—— 如何从一个不知道内容的数据文件中&#xff0c;一键生成一篇像模像样的经济学"论文”。 在开始之前&#xff0c;我们要准备好必要的AI利器&#xff1a; GPT3.5镜像站&#xff08;简单问题极快回答&#xff09;&#xff1a; https:/…