单细胞转录组 —— STARsolo 原始数据处理

news2025/1/11 12:47:11

单细胞转录组 —— STARsolo 原始数据处理实战

前言

前面我们已经介绍了几种原始数据处理工具,最后再介绍一种多平台兼容的快速定量工具 —— STARsolo

主要使用的还是 STAR 比对软件,只是增加了更多对单细胞数据的处理,不同平台数据的差异,也只是在参数设置上。

实战

软件可以直接用 conda 进行安装

conda create -n STAR -c bioconda -c conda-forge star seqtk

下载人类参考基因组

wget http://ftp.ensembl.org/pub/release-98/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
wget http://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_32/gencode.v32.primary_assembly.annotation.gtf.gz

或者小鼠参考基因组

wget ftp://ftp.ensembl.org/pub/release-98/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.primary_assembly.fa.gz
wget ftp://ftp.ensembl.org/pub/release-98/gtf/mus_musculus/Mus_musculus.GRCm38.98.gtf.gz

解压文件

gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
gunzip gencode.v32.primary_assembly.annotation.gtf.gz
gunzip Mus_musculus.GRCm38.dna.primary_assembly.fa.gz
gunzip Mus_musculus.GRCm38.98.gtf.gz

构建索引

构建人类参考基因组索引

STAR \
    --runThreadN 20 \
    --runMode genomeGenerate \
    # 索引保存路径
    --genomeDir human \
    # fa 文件路径
    --genomeFastaFiles Homo_sapiens.GRCh38.dna.primary_assembly.fa \
    # gtf文件路径
    --sjdbGTFfile gencode.v32.primary_assembly.annotation.gtf

类似地,可以构建小鼠参考基因组索引

STAR \
    --runThreadN 20 \
    --runMode genomeGenerate \
    # 索引保存路径
    --genomeDir mmu \
    # fa 文件路径
    --genomeFastaFiles Mus_musculus.GRCm38.dna.primary_assembly.fa \
    # gtf文件路径
    --sjdbGTFfile Mus_musculus.GRCm38.98.gtf

scRNA-seq

SRA 数据库中下载 PRJNA666791 项目的 10x scRNA-seq 数据进行分析

prefetch --option-file SRR_Acc_List.txt --output-directory sra

解压数据

ls sra/*/*.sra | xargs fastq-dump --split-files --gzip -O raw

10x barcode 文件可以在下载的 cellranger 软件中找到,例如

ls /path/to/cellranger-8.0.0/lib/python/cellranger/barcodes

参数配置,需要根据所使用数据的信息进行调整

```bash
# 白名单
BC=737K-august-2016.txt
# barcode 的长度
CBLEN=16
# UMI 的长度
UMILEN=10
# 文库方向
STRAND=Forward  # Forward/Reverse/Unstranded

FQDIR="$(pwd)/raw"
TAG="GSM4812353"
R1=""
R2=""
if [[ `find $FQDIR/* | grep -P "\/$TAG[\/\._]" | grep "_1\.f.*q"` != "" ]]
then 
  R1=`find $FQDIR/* | grep -P "\/$TAG[\/\._]" | grep "_1\.f.*q" | sort | tr '\n' ',' | sed "s/,$//g"`
  R2=`find $FQDIR/* | grep -P "\/$TAG[\/\._]" | grep "_2\.f.*q" | sort | tr '\n' ',' | sed "s/,$//g"`
elif [[ `find $FQDIR/* | grep -P "\/$TAG[\/\._]" | grep "R1\.f.*q"` != "" ]]
then
  R1=`find $FQDIR/* | grep -P "\/$TAG[\/\._]" | grep "R1\.f.*q" | sort | tr '\n' ',' | sed "s/,$//g"`
  R2=`find $FQDIR/* | grep -P "\/$TAG[\/\._]" | grep "R2\.f.*q" | sort | tr '\n' ',' | sed "s/,$//g"`
elif [[ `find $FQDIR/* | grep -P "\/$TAG[\/\._]" | grep "_R1_.*\.f.*q"` != "" ]]
then
  R1=`find $FQDIR/* | grep -P "\/$TAG[\/\._]" | grep "_R1_.*\.f.*q" | sort | tr '\n' ',' | sed "s/,$//g"`
  R2=`find $FQDIR/* | grep -P "\/$TAG[\/\._]" | grep "_R2_.*\.f.*q" | sort | tr '\n' ',' | sed "s/,$//g"`
else 
  >&2 echo "ERROR: No appropriate fastq files were found! Please check file formatting, and check if you have set the right FQDIR."
  exit 1
fi 

比对和定量分析,注意 指定文件夹时末尾需要带上路径分隔符(/),例如 output/

STAR --runThreadN 16 \
  --genomeDir mmu \
  --runDirPerm All_RWX \
  --readFilesCommand gunzip -c\
  --outSAMtype BAM Unsorted \  # 最好不要在这里排序
  --readFilesIn $R2 $R1 \
  --soloType CB_UMI_Simple \
  --soloCBwhitelist $BC 
  --soloBarcodeReadLength 0 \
  --soloCBlen $CBLEN \
  --soloUMIstart $((CBLEN+1)) \
  --soloUMIlen $UMILEN \
  --soloStrand $STRAND \
  --soloUMIdedup 1MM_CR --soloCBmatchWLtype 1MM_multi_Nbase_pseudocounts \
  --soloUMIfiltering MultiGeneUMI_CR \
  --soloCellFilter EmptyDrops_CR --clipAdapterType CellRanger4 \
  --outFilterScoreMin 30 \
  --soloFeatures Gene GeneFull Velocyto \
  --soloOutFileNames output/ features.tsv barcodes.tsv matrix.mtx \
  --soloMultiMappers EM --outReadsUnmapped Fastx

如果出现类似的错误

EXITING because of FATAL ERROR: number of bytes expected from the BAM bin does not agree with the actual size on disk: Expected bin size=2750819958 ; size on disk=310984704 ; bin number=48

不要设置排序选项 "outSAMtype": "BAM SortedByCoordinate",可以跑完之后,再用 samtools sort

结果文件的结果如下,包含 GeneGeneFullVelocyto 三个文件夹,它们的文件结构是一模一样的。


inDrops

如果跑过前面的流程,可以使用前面下载好的数据。

GSE111672 数据集中包含 6 例原发性胰腺癌组织的单细胞 RNA 测序和空间转录组学,

我们随便选择一个样本 GSM3036909 下载原始数据

prefetch SRR6825055

解压

fastq-dump SRR6825055/SRR6825055.sra --split-files --gzip -O SRR6825055

其中 R1 长度为 35R2 长度为 51,是 Indrop-seqV2 版,与 V1 相反,所以需要调换文件顺序

barcode 文件可以从 inDrops barcode lists 中下载。

比对和定量

STAR --runThreadN 8 \
  --genomeDir human \
  --readFilesIn SRR6825055/SRR6825055_1.fastq.gz SRR6825055/SRR6825055_2.fastq.gz \
  --readFilesCommand gunzip -c --outReadsUnmapped None \
  --outSAMattrRGline ID:indrop SM:indrop \
  --runDirPerm All_RWX --outSAMtype BAM Unsorted \
  --soloFeatures Gene GeneFull \
  --soloCBwhitelist gel_barcode1_list.txt gel_barcode2_list.txt \
  --soloAdapterSequence GAGTGATTGCTTGTGACGCCTT \
  --soloType CB_UMI_Complex --soloAdapterMismatchesNmax 3 \
  --soloCBmatchWLtype 1MM --soloCBposition 0_0_2_-1 3_1_3_8 \
  --soloUMIposition 3_9_3_14 --outTmpDir /tmp/tmplm9atu4a/STARtmp \
  --outFileNamePrefix solo/indrop/ \
  --soloOutFileNames solo/ features.tsv barcodes.tsv matrix.mtx

Drop-seq

数据集中 GSE178612 研究的是 FoxM1Rb 基因在小鼠乳腺癌中的相互作用。

我们选择其中一个样本 GSM5394388,下载其原始数据

prefetch SRR14872449
fastq-dump SRR14872449/SRR14872449.sra --split-files --gzip -O SRR14872449

比对和定量

STAR --runThreadN 8 \
  --genomeDir mmu \
  --readFilesIn SRR14872449/SRR14872449_2.fastq.gz SRR14872449/SRR14872449_1.fastq.gz \
  --readFilesCommand gunzip -c \
  --outReadsUnmapped None \
  --outSAMattrRGline ID:drop SM:drop 
  --runDirPerm All_RWX \
  --outSAMtype BAM Unsorted \
  --soloFeatures Gene GeneFull \
  --soloType CB_UMI_Simple --soloCBwhitelist None -\
  -soloCBstart 1 --soloCBlen 12 \
  --soloUMIstart 13 --soloUMIlen 8 \
  --soloBarcodeReadLength 0 --outTmpDir /tmp/tmpkyaiuqwz/STARtmp \
  --outFileNamePrefix solo/drop/ \
  --soloOutFileNames solo/ features.tsv barcodes.tsv matrix.mtx

SMART-seq2

我们从研究人类皮质球体内星形胶质细胞的成熟数据 GSE99951 中,下载 GSM2665701 样本进行分析

prefetch SRR5676730

解压

fastq-dump SRR5676730/SRR5676730.sra --split-files --gzip -O SRR5676730

可以先对数据进行去接头处理,可以选择常用的 trimmomatic 软件

conda install -c bioconda trimmomatic

去接头

trimmomatic PE -threads 8 \
  SRR5676730/SRR5676730_1.fastq.gz SRR5676730/SRR5676730_2.fastq.gz \
  SRR5676730/SRR5676730_1.paired.fastq.gz SRR5676730/SRR5676730_1.unpaired.fastq.gz \
  SRR5676730/SRR5676730_2.paired.fastq.gz SRR5676730/SRR5676730_2.unpaired.fastq.gz \
  ILLUMINACLIP:/path/to/adapters/TruSeq3-PE-2.fa:2:30:10 \
  LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

表达定量

STAR --runThreadN 8 \
  --genomeDir human \
  --readFilesIn SRR5676730/SRR5676730_1.paired.fastq.gz SRR5676730/SRR5676730_2.paired.fastq.gz \
  --readFilesCommand gunzip \
  -c --outReadsUnmapped None \
  --outSAMattrRGline ID:smart2 SM:smart2 \
  --runDirPerm All_RWX --outSAMtype BAM Unsorted \
  --soloFeatures Gene GeneFull \
  --soloType SmartSeq --soloUMIdedup Exact \
  --soloStrand Unstranded --limitOutSJcollapsed 10000000 \
  --soloCellFilter None \
  --outTmpDir /tmp/tmp8n8c3_75/STARtmp \
  --outFileNamePrefix solo/smart2/ \
  --soloOutFileNames solo/ features.tsv barcodes.tsv matrix.mtx

CEL-Seq2

使用出生后第 4 天小鼠结节神经节胶质细胞单细胞水平的基因数据集 GSE237947。

选择样本 GSM7656793,下载

prefetch SRR25386888

解压数据

fastq-dump SRR25386888/SRR25386888.sra --split-files --gzip -O SRR25386888

定量分析

STAR --runThreadN 8 \
  --genomeDir mmu \
  --readFilesIn SRR25386888/SRR25386888_2.fastq.gz SRR25386888/SRR25386888_1.fastq.gz \
  --readFilesCommand gunzip -c \
  --outReadsUnmapped None --runDirPerm All_RWX \
  --outSAMattrRGline ID:cel SM:cel \
  --soloBarcodeMate 2 \  # 指定 barcode 在哪个序列上
  --outSAMtype BAM Unsorted \
  --soloFeatures Gene GeneFull \
  --soloCBwhitelist None --soloType CB_UMI_Simple \
  --clip5pNbases 12 0 \
  --soloUMIstart 1 --soloUMIlen 6 \
  --soloCBstart 7 --soloCBlen 6 \
  --soloUMIdedup Exact \
  --outTmpDir /tmp/tmp4fqrnsfm/STARtmp \
  --outFileNamePrefix solo/cel/ \
  --soloOutFileNames solo/ features.tsv barcodes.tsv matrix.mtx

BD Rhapsody

GSE241462 收集了小鼠胚胎发育几个阶段种约 200~250 个囊胚和 50E5.5 阶段的胚胎。

选择 GSM7729310 样本进行分析

prefetch SRR25734060

解压数据

fastq-dump SRR25734060/SRR25734060.sra --split-files --gzip -O SRR25734060

定量分析

STAR --runThreadN 8 \ 
  --genomeDir mmu \
  --readFilesIn SRR25734060/SRR25734060_2.fastq.gz SRR25734060/SRR25734060_1.fastq.gz \
  --readFilesCommand gunzip \
  -c --outReadsUnmapped None \
  --outSAMattrRGline ID:bd_rhapsody SM:bd_rhapsody \
  --runDirPerm All_RWX --outSAMtype BAM Unsorted \
  --soloFeatures Gene GeneFull \
  --soloCBwhitelist bd_rhapsody_barcode1.txt bd_rhapsody_barcode2.txt bd_rhapsody_barcode3.txt \
  --soloType CB_UMI_Complex \
  --soloUMIlen 8 --soloCBmatchWLtype 1MM \
  --soloCBposition 0_0_0_8 0_21_0_29 0_43_0_51 \
  --soloUMIposition 0_52_0_59 \
  --outTmpDir /tmp/tmpsdqwfkpz/STARtmp \
  --outFileNamePrefix solo/bd_rhapsody/ \
  --soloOutFileNames solo/ features.tsv barcodes.tsv matrix.mtx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2199918.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2.5 Spring Boot整合Spring MVC框架

今天,我将向大家介绍如何在Spring Boot中整合Spring MVC框架,并展示如何创建和测试控制层(Controller)。 首先,让我们简要回顾一下Spring MVC。Spring MVC是一个基于Servlet的MVC框架,它简单、侵入性小&am…

安装Node.js环境,安装vue工具

一、安装Node.js 去官方网站自行安装自己所需求的安装包 这是下载的官方网站 下载 | Node.js 中文网 给I accept the terms in the License Agreement打上勾然后点击Next 把安装包放到自己所知道的位置,后面一直点Next即可 等待它安装好 然后winr打开命令提示符cmd 二、安装…

线稿如何快速上色?AI自动线稿上色教程分享

前言 在数字艺术的世界里,上色是一个既耗时又需要技巧的步骤。幸运的是,随着AI技术的发展,我们有了像千鹿AI这样的工具,它可以帮助艺术家和设计师自动完成线稿的上色工作。以下是使用千鹿AI进行自动线稿上色的详细教程。 准备工作…

vue 入门二

参考&#xff1a;丁丁的哔哩哔哩 11.组件基础 传递 props 1.父组件 <BlogPost title"My journey with Vue" />子组件<script setup> defineProps([title]) </script><template><h4>{{ title }}</h4> </template>2.prop…

【springboot9736】基于springboot+vue的逍遥大药房管理系统

作者主页&#xff1a;Java码库 主营内容&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 项目描述 伴随着全球信息化发展&#xff0c;行行业业都与计算机技…

10月9日

没看清x的范围

前端vue-配置请求拦截器

1.配置拦截器&#xff0c;记得20行的导出 2.响应拦截器&#xff0c;记得28行的导出 3.拦截器不止可以拦截&#xff0c;还可以添加内容

KaTeX.js渲染数学公式

什么是KaTeX.js ? KaTeX 是一个集成速度快且功能丰富的数学公式渲染库&#xff0c;专为 Web 设计。它由 Khan Academy 开发&#xff0c;提供接近印刷品质的数学公式展示&#xff0c;同时保持与浏览器的高效互动性。KaTeX 特点包括快速渲染速度、高质量的输出、独立运行、跨平…

IP-guard与Ping32功能对比:谁更适合你的企业?

在当今数字化时代&#xff0c;数据泄露已成为企业面临的一大挑战。为了保障信息安全&#xff0c;众多企业选择部署数据防泄漏&#xff08;DLP&#xff09;软件。IP-guard和Ping32作为市场上备受瞩目的两款产品&#xff0c;各自具有独特的功能和优势。那么&#xff0c;哪款软件更…

阿里云 CDN如何缓解ddos攻击

在网络安全日益重要的今天&#xff0c;DDoS攻击已成为企业面临的主要威胁之一。阿里云CDN&#xff08;内容分发网络&#xff09;以其强大的防护能力&#xff0c;成为抵御DDoS攻击的利器。九河云来和大家聊聊阿里云 CDN是如何缓解ddos攻击的吧。 首先&#xff0c;阿里云CDN通过…

CentOS7.9 下安装 Docker

第一步&#xff1a; sudo yum install -y yum-utils \ > device-mapper-persistent-data \ > lvm2 第二步&#xff1a;安装 sudo wget -O /etc/yum.repos.d/docker-ce.repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo sudo yum -y install…

旧衣回收小程序开发:开启线上旧衣回收新时代

近几年&#xff0c;旧衣回收这种新的理念在市场中兴起&#xff0c;并快速得到了发展&#xff0c;让大众闲置的衣物得到了归处&#xff0c;减少了资源浪费&#xff0c;深受大众的关注。 在科技的创新下&#xff0c;旧衣回收迎来了新的发展方式---旧衣回收小程序&#xff0c;以信…

Hugging face简要介绍

1.注册使用huggingface 2.在Datasets下可以查看数据集 3.在Models下可以查看模型&#xff0c;左侧是对模型的分类 4.官方文档查看https://huggingface.co/docs 5.主要模型&#xff1a; 自回归&#xff1a;GPT、Transformer-XL、XLNet 自编码&#xff1a;BERT、ALBERT、RoBERT…

JDK17安装教程

1.双击安装包 2.配置环境变量&#xff08;可选&#xff09;注意&#xff1a;JDK下载路径默认选择C盘 右键点击此电脑选择属性&#xff08;找到高级系统设置&#xff09; 点击环境变量 在系统变量中新建两个新的变量&#xff1a;CLASSPATH和JAVA_HOME CLASSPATH内容值为&…

10.9今日错题解析(软考)

目录 前言系统开发基础——耦合性I/O设备 前言 这是用来记录我备考软考设计师的错题的&#xff0c;今天知识点为耦合性、I/O设备&#xff0c;大部分错题摘自希赛中的题目&#xff0c;但相关解析是原创&#xff0c;有自己的思考&#xff0c;为了复习&#xff1a;&#xff09;&a…

嵌入式C语言自我修养:ARM体系结构与汇编语言

ARM体系结构 ⭐ 关联知识点&#xff1a;指令集 计算机的指令集一般可分为4种&#xff1a;复杂指令集(CISC)、精简指令集(RISC) 、显式并行指令集 (EPIC)和超长 指 令 字 指 令 集(VLIW)。嵌入式用的是RISC指令集&#xff0c;RISC指令集相对于CISC指令集&#xff0c;主要有以下…

Ubuntu 22.04 安装 KVM

首先检查是否支持 CPU 虚拟化&#xff0c;现在的 CPU 都应该支持&#xff0c;运行下面的命令&#xff0c;大于0 就是支持。 egrep -c (vmx|svm) /proc/cpuinfo安装 Libvirt apt install -y qemu-kvm virt-manager libvirt-daemon-system virtinst libvirt-clients bridge-uti…

海外企业如何在中国市场“站稳脚跟”?

嘿&#xff0c;企业主们&#xff01;你是否也对中国市场这块诱人的“大蛋糕”心生向往&#xff0c;却又因为种种挑战而犹豫不决&#xff1f;别担心&#xff0c;NetFarmer正是你寻找的那位可靠且充满智慧的探险伙伴。无论是新加坡的企业&#xff0c;还是其他国家的中小企业&…

平凯星辰亮相 2024开放原子开源生态大会,分享开源教育及社区治理经验

9 月 25-27 日&#xff0c;2024 开放原子开源生态大会在北京成功举办&#xff0c;本次大会以“开源赋能产业&#xff0c;生态共筑未来”为主题&#xff0c;由开放原子开源基金会主办&#xff0c;聚焦地方开源实践、企业开源建设思路&#xff0c;围绕开源生态建设&#xff0c;突…

数据校验的总结

业务层进行复杂检查 简单校验交给Controller校验&#xff0c;能流到业务的层的数据就是基本合法 引入依赖&#xff1a;spring-boot-starter-validation 能标注的所有注解在这两个地方看 jakarta.validation.constraints、 org.hibernate.validator.constraints 使用步骤…