哈佛大学单细胞课程|笔记汇总 (二)

news2024/9/25 3:24:10

哈佛大学单细胞课程|笔记汇总 (一)

(二)Single-cell RNA-seq data - raw data to count matrix

根据所用文库制备方法的不同,RNA序列(也被称为readstag)将从转录本((10X GenomicsCEL-seq2Drop-seqinDrops)的3'端(或5'端)或全长转录本(Smart-seq)中获得。

图片

Image credit: Papalexi E and Satija R. Single-cell RNA sequencing to explore immune cell heterogeneity, Nature Reviews Immunology 2018 (https://doi.org/10.1038/nri.2017.76)

不同测序方式的优点

3’(或5’)末端测序

  • 通过使用UMI进行更准确的定量,从而将生物学重复与扩增重复(PCR)区别开来;

  • 测序的细胞数量更多,可以更好地鉴定细胞类型群;

  • 每个细胞成本更低;

  • 大于10,000个细胞的结果最佳

全长测序

  • 检测亚型水平(isoform-level)表达差异;

  • 鉴定等位基因特异性差异表达;

  • 对较少数量的细胞进行更深的测序;

  • 最适用于细胞数少的样品。

我们将主要介绍3’端测序,重点是基于液滴的方法 (inDropsDrop-seq10X Genomics)。

3’-end reads (includes all droplet-based methods)

在3’端测序中,同一转录本的不同reads片段仅会源自转录本的3’端,相同序列的可能性很高,同时在建库过程中的PCR步骤可能导致reads的重复,因此为了区分是生物学还是技术上的重复,我们使用唯一标识符(unique molecular identifiers,UMI)进行标注。

  • 比对到相同的转录本、UMI不同的reads来源于不同的分子,为正常生物转录,每个read都被计数。

  • UMI相同的reads来自同一分子,为技术重复,计为1个read。

  • 上面两条描述是理想情况,方便理解,实际处理起来要复杂一些。

我们以下图为例,下图中分子ACTB的UMI均相同,因此只能记为1个molecule,而ARL1的UMI不同所以可以记为2个molecule

图片

Image credit: modified from Macosko EZ et al. Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets, Cell 2015 (https://doi.org/10.1016/j.cell.2015.05.002)_

在细胞水平进行正确定量都需要以下条件:

  • Sample index: 样本来源

    • Added during library preparation - needs to be documented

  • Cellular barcode: 细胞来源

    • Each library preparation method has a stock of cellular barcodes used during the library preparation

  • Unique molecular identifier (UMI): 转录本来源

    • The UMI will be used to collapse PCR duplicates

  • Sequencing read1: the Read1 sequence

  • Sequencing read2: the Read2 sequence

例如,使用inDrops v3库准备方法时,以下内容是reads的所有信息:

图片

Image credit: Sarah Boswell(https://scholar.harvard.edu/saboswell), Director of the Single Cell Sequencing Core at HMS_

  • R1 (61 bp Read 1): sequence of the read (Red top arrow)

  • R2 (8 bp Index Read 1 (i7)): cellular barcode - which cell read originated from (Purple top arrow)

  • R3 (8 bp Index Read 2 (i5)): sample/library index - which sample read originated from (Red bottom arrow)

  • R4 (14 bp Read 2): read 2 and remaining cellular barcode and UMI - which transcript read originated from (Purple bottom arrow)

对于不同的基于液滴的scRNA-seq方法,scRNA-seq的分析工作流程相似,但是UMI细胞ID样品索引的解析会有所不同。例如,以下是10X序列reads的示意图,其中indexUMIbarcode的位置不同 :

图片

Image credit: Sarah Boswell(https://scholar.harvard.edu/saboswell), Director of the Single Cell Sequencing Core at HMS_

Single-cell RNA-seq workflow

scRNA-seq方法能通过测序的reads解析barcodesUMI,它们在特定步骤里会轻微地不同,但除了方法外,大致流程都是一致的,常规工作流程如下所示:

图片

Image credit: Luecken, MD and Theis, FJ. Current best practices in single‐cell RNA‐seq analysis: a tutorial, Mol Syst Biol 2019 (doi: https://doi.org/10.15252/msb.20188746) 中文解读见:重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述)

工作流程的步骤是:

  • 生成count矩阵(method-specific steps):

    reads格式化,对样本进行多路分解(demultiplexing,即通过barcodes确定reads的来源),比对和定量。

  • 原始count的质量控制:

    过滤质量较差的细胞。

  • 细胞聚类:

    基于转录活性的相似性对细胞进行聚类(细胞类型数=簇数)?

  • marker识别:

    识别每个cluster的标记基因。

  • 可选的下游步骤。

无论进行那种分析,生物学重复都是必要的!

Generation of count matrix

图片

我们聚焦于基于液滴型的3’端测序(比如inDrops10X GenomicsDrop-seq),将原始测序数据转换为count矩阵。

测序工具将以BCLFASTQ格式输出原始测序数据,或生成count矩阵。如果reads是BCL格式,我们将需要转换为FASTQ格式。有一个有用的命令行工具bcl2fastq,可以轻松执行此转换。

NOTE: We do not demultiplex at this step in the workflow. You may have sequenced 6 samples, but the reads for all samples may be present all in the same BCL or FASTQ file.

对于许多scRNA-seq方法,从原始测序数据中生成count矩阵都将经历相似的步骤。

图片

umis(https://github.com/vals/umis)和`zUMIs`(https://github.com/vals/umis)是命令行工具,可用于估计测转录本3'端的scRNA-seq数据的表达。此过程中的步骤包括:

  1. 格式化reads并过滤嘈杂的细胞barcodes

  2. Demultiplexing the samples(通过barcodes确定reads的来源);

  3. 比对/伪比对到转录本;

  4. 折叠UMI和定量reads。

当然,如果使用10X Genomics建库方法,Cell Ranger pipeline(https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger)将负责执行以上的所有步骤 (10X单细胞测序分析软件:Cell ranger,从拆库到定量)。

格式化reads并过滤非细胞barcodes

FASTQ文件能解析得到细胞barcodes、UMIs和样本barcodes。对于基于液滴型的方法,一些细胞barcodes会对应的低的reads数(< 1000 reads) ,原因是:

  • encapsulation of free floating RNA from dying cells

  • simple cells (RBCs, etc.) expressing few genes

  • cells that failed for some reason 在比对reads之前,需要从序列数据中过滤掉多余的条形码。

    为了进行这种过滤,提取并保存每个细胞的“细胞条形码”和“分子条形码”。

    例如,如果使用“umis”工具,则信息将以以下格式添加到每条reads的标题行中 (NGS基础 - FASTQ格式解释和质量评估):

@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT
AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN
+
@@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#

建库中使用的细胞条形码应该是已知的,未知的条形码会被丢弃,同时对于已知的细胞条形码允许一定的错配。

Demultiplexing the samples

如果测序多于一个样品执行此步骤,这是一步不由“umis”工具处理,而由“zUMIs”完成的步骤,这步会解析reads以确定与每个与细胞相关的样本条形码。

比对/伪比对到转录

通过传统(STAR)或轻量型(Kallisto/RapMap)方法,将reads比对回基因。

折叠UMI和定量reads

使用KallistofeatureCounts之类的工具仅对唯一的UMI进行量化,得到

图片

Image credit: extracted from Lafzi et al. Tutorial: guidelines for the experimental design of single-cell RNA sequencing studies, Nature Protocols 2018 (https://doi.org/10.1038/s41596-018-0073-y)

矩阵中的每个值代表源自相应基因在各个细胞中的reads数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1981586.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

期权逢高空是什么意思?期权为什么要逢高空呢?

今天带你了解期权逢高空是什么意思&#xff1f;期权为什么要逢高空呢&#xff1f;期权是金融市场上常见的一种金融工具&#xff0c;它赋予持有者在未来某个特定时间以特定价格买入或卖出标的资产的权利。 期权逢高空是什么&#xff1f; 期权逢高空是一种交易策略&#xff0c;…

在Ubuntu 24.04服务器或桌面上安装XFCE

在Ubuntu 24.04 上更改当前 桌面环境或添加新桌面环境并不困难。大多数流行的Linux桌面环境&#xff08;包括 XFCE&#xff09;都可以使用默认的 Ubuntu 24.04 LTS 系统存储库进行安装。因此&#xff0c;在本教程中&#xff0c;我们将学习如何使用 Tasksel 工具在 Ubuntu Linux…

海外仓代理刚入行怎么抢占优势?找对系统就是捷径

海外仓现在就是一块正在越做越大的蛋糕&#xff0c;涌入的货代如果想从海外仓代理做起&#xff0c;并且抢占优势其实也不难。这个过程最关键的就是管理&#xff0c;包括信息、财务、仓库、人员等&#xff0c;易境通DWMS系统就把管理的问题一站式集合起来&#xff0c;一条龙搞定…

RTSP/Onvif安防视频监控云平台EasyNVR无法正常启动(系统缺库)的解决办法

视频安防监控平台EasyNVR可支持设备通过RTSP/Onvif协议接入&#xff0c;并能对接入的视频流进行处理与多端分发&#xff0c;包括RTSP、RTMP、HTTP-FLV、WS-FLV、HLS、WebRTC等多种视频流格式。平台可提供视频实时监控直播、云端录像、云存储、录像检索与回看、告警等视频能力&a…

传统ERP vs 零代码ERP:企业究竟应当选哪条路?

在大环境变幻莫测的今天&#xff0c;每个企业都像是航行在数字化浪潮中的一艘船&#xff0c;而ERP系统&#xff0c;就像是这艘船的导航系统&#xff0c;帮助企业精准定位、高效航行。 但面对传统ERP与新兴零代码ERP&#xff0c;不少企业家可能会感到迷茫&#xff1a;是该坚守传…

项目实战--订单30分钟自动关闭

订单30分钟自动关闭 一、背景二、方案分析2.1 数据库轮询2.2 JDK延迟队列2.3 时间轮算法2.4 redis缓存2.5 使用消息队列 一、背景 延时任务的需求&#xff1a; 生成订单30分钟未支付&#xff0c;则自动取消生成订单60秒后,给用户发短信 二、方案分析 2.1 数据库轮询 该方案…

前端-Vue3如何引入高德地图并展示行驶轨迹动画

预览效果&#xff1a; 一、获取高德地图API的key(相当于获取开发许可权&#xff0c;没有就用不了) 注册高德账号&#xff0c;注册成功后复制 Key 值到组件&#xff0c;就可以使用。 二、安装依赖 cnpm install amap/amap-jsapi-loade 三、页面代码 <template><di…

3D展示的前景如何?

随着人类科技的不断进步&#xff0c;对未来的趋势也肯定是向高纬度发展。3D取代2D只是一个所需时间长短而已&#xff0c;题主既然这么问&#xff0c;说明肯定是意识到了3D是未来的趋势&#xff0c;那么就应该多接触和了解未来的3D平台及应用工具、应用领域等。 之前2G\3G时代&…

精益管理学会:一个故事看透精益管理中目视化管理的重要性

一个启示性的故事 1952年7月4日清晨&#xff0c;加利福尼亚海岸笼罩在浓雾之中。在距离海岸21英里的卡塔林纳岛上&#xff0c;一个女人准备从太平洋游向加州海岸。 那天早晨&#xff0c;雾气异常浓重&#xff0c;冰冷的海水使她全身麻木&#xff0c;她几乎看不见护送她的船。…

解锁数字电路新境界:SmartEDA如何成为你的学习加速器?

在这个数字化飞速发展的时代&#xff0c;掌握数字电路知识不仅是电子工程师的必修课&#xff0c;也是众多科技爱好者探索未知世界的钥匙。然而&#xff0c;面对复杂的逻辑门、时序分析、以及繁琐的电路设计&#xff0c;许多初学者往往感到力不从心。幸运的是&#xff0c;SmartE…

乡村振兴之智慧农业建设规划

1. 建设背景与需求 《乡村振兴之智慧农业建设规划》旨在通过智慧农业技术推动农业现代化&#xff0c;响应国家乡村振兴战略。项目需求包括农业遥感应用、测土配方施肥、农产品销售分析、农资管理、物流配送监管、农业专家库、市场分析、产业链应用及金融保险服务。 2. 项目需…

一个电脑如有多个git用户时,拉取代码时候记得加上用户名

remote: The project you were looking for could not be found. 在使用Git客户端克隆和pull远程仓库的时候报错&#xff1a;提示找不到上游仓库&#xff0c;但是地址是正确的&#xff01;问题如图&#xff1a; 问题原因解析&#xff1a; 因为自己的项目不止一个 又有自动保存…

结构开发笔记(一):外壳IP防水等级与IP防水铝壳体初步选型

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/140928101 长沙红胖子Qt&#xff08;长沙创微智科&#xff09;博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV…

JavaEE-多线程编程线程池

目录 引入线程池的原因 介绍标准库中线程池的参数&#xff08;高频面试题&#xff09; 实际开发中&#xff0c;核心线程数设置为多少才合适&#xff1f; 线程池的使用 自己实现一个简单的线程池 像线程池/常量池/内存池/进程池等等&#xff0c;这些池的思想都是一样的——…

JS实现文字打印效果(完整代码附效果图)

效果图&#xff1a; 完整代码&#xff1a; <template><view class"page" touchstart"touchstart" touchend"touchend"><view v-if"showTopBlock"><view class"topBlockBg" click"showTopBlockfa…

关于k8s集群中kubectl的陈述式资源管理

1、k8s集群资源管理方式分类 &#xff08;1&#xff09;陈述式资源管理方式&#xff1a;增删查比较方便&#xff0c;但是改非常不方便 使用一条kubectl命令和参数选项来实现资源对象管理操作 &#xff08;2&#xff09;声明式资源管理方式&#xff1a;yaml文件管理 使用yam…

mac下载exe后不自动打开虚拟机

看到网上没有相关教程&#xff0c;正好解决了&#xff0c;发一下 场景&#xff1a;Mac环境下下载EXE文件&#xff0c;会导致VM虚拟机自动打开来执行文件&#xff0c;所以很烦。 解决方法&#xff1a; Mac系统-系统设置-隐私与安全-vmfusion-取消掉下载文件夹即可。 还有其他…

沃尔玛1P账号的强悍作用重要反映在那些方面?——WAYLI威利跨境助力商家

沃尔玛作为全球最大的零售商之一&#xff0c;其品牌影响力非常强大。商家通过入驻沃尔玛商超并开设1P账号&#xff0c;能够借助沃尔玛的品牌影响力来提升自身的品牌知名度和美誉度。这种品牌背书的效应&#xff0c;有助于商家吸引更多的消费者关注和购买自己的产品。 一、沃尔玛…

Android网络编程中的Http协议总结

1.Android与互联网交互的三种方式 2.初识Http协议 实际开发中我们和服务端打交道一般用得都是基于Http协议的通信&#xff0c;所以学好Http协议是非常 重要的&#xff0c;当然&#xff0c;我们不用过于考究一些细节的东西&#xff0c;有个大体的了解即可&#xff01;都是一些概…

6181P-12A2SW71DC触摸屏6181P12A2SW71DC面价

6181P-12A2SW71DC触摸屏6181P12A2SW71DC面价 6181P-12A2SW71DC触摸屏6181P12A2SW71DC面价 6181P-12A2SW71DC触摸屏6181P12A2SW71DC面价 6181P-12A2SW71DC触摸屏6181P12A2SW71DC接线图 6181P-12A2SW71DC触摸屏6181P12A2SW71DC线路图 6181P-12A2SW71DC触摸屏6181P12A2SW71D引…