单细胞跨模态分析综述

news2024/9/24 3:24:43

单细胞技术的最新进展使跨模态和组织位置的细胞高通量分子分析成为可能。单细胞转录组数据现在可以通过染色质可及性、表面蛋白表达、适应性免疫受体库分析和空间信息进行补充。跨模态单细胞数据的可用性越来越高,推动出新的计算方法,以帮助科学家获得生物学见解。随着该领域的发展,驾驭浩瀚的工具和分析步骤变得越来越困难。因此作者总结了单模态和多模态的单细胞分析基准研究,以发现通用的分析工作流程。这篇文章可作为单细胞(多)组学分析领域新手的切入点,也可以指导高级用户了解最新进展。

来自:Best practices for single-cell analysis across modalities, nature reviews genetics, 2023


转录组数据描述通过转录过程将DNA转录成RNA的结果,它反映了细胞中基因的表达水平。表观遗传组数据可以通过多种方式影响转录组的形成和变化,从而调控基因表达。两者密切相关。


目录

  • 背景概述
  • 转录组
  • 染色质可及性
    • 共可及性识别顺式调节相互作用
    • TF-motif分析
  • 表面蛋白质
  • 多模态数据整合
  • 利用空间解析单细胞数据

背景概述

单细胞RNA测序(scRNA-seq)技术以前所未有的规模和分辨率测量转录组谱,从而彻底改变了分子生物学。实验技术的进步推动了计算方法的大规模创新,导致目前有1400多个工具可用于分析scRNA-seq。计算框架和软件存储库,如Bioconductor、Seurat和Scanpy使数据分析人员能够在这个空间中快速构建管道。这种实验和计算创新的相互作用使得揭示组织细胞异质性的生物学里程碑式发现成为可能。

然而,scRNA-seq只捕获了关于细胞功能和状态信息的一层。为了补充这一点,已经做出了很大努力来测量单细胞分辨率下的其他模态,包括染色质可及性、表面蛋白、T细胞受体(TCR)和B细胞受体(BCR)库和空间信息,使得能够发现诸如2型糖尿病的regulatory signatures,内脏和适应性免疫系统对SARS-CoV-2的反应失调,并在空间分辨率上更好地理解肿瘤微环境的免疫抑制作用。测量实验的创新激发了许多用于各种单细胞模态的新计算工具,但由于算法开发人员缺乏全局的工作流程认知,改进或开发新工具依然具有挑战性。该文中,作者引导读者认识单模态和多模态单细胞数据分析的各个步骤,并分析挑战(图1)。

fig1

  • 图1:跨模态单细胞分析。细胞被不同模态描述,包括但不限于RNA转录、染色质可及性、以T细胞受体(TCRs)和B细胞受体(BCRs)在内的表面蛋白,和空间位置坐标。目前已经开发了涵盖重要分析步骤的各种框架。
  • 转录组学数据可以用Scanpy、Seurat和SingleCellExperiment进行分析;
  • 用muon、ArchR、snapATAC和Signac进行染色质可及性分析;
  • 使用Scirpy、Dandelion和scRepertoire进行TCR和BCR分析;
  • muon、Seurat和CiteFuse可以分析表面蛋白表达;
  • Squidpy、Seurat、Giotto可以分析空间数据。

转录组

scRNA-seq测量每个细胞的mRNA分子丰度。提取的生物组织样本构成了单细胞实验的输入。在单细胞解离(dissociation)过程中消化组织,然后进行单细胞分离,以分别分析每个细胞的mRNA。基于平板(plate-based)的方法将细胞分离到平板上的孔中,而基于液滴(droplet-based)的方法在微流体液滴中捕获细胞。

以液滴方法为例(因为液滴方法更流行),将获得的mRNA序列读数映射到原始数据处理管道中的基因和源细胞,该管道使用细胞条形码或唯一分子标识符(UMI)和参考基因组来产生基因细胞的计数矩阵(图2a)。我们将计数矩阵视为单模态的scRNA-seq数据分析工作流程的起点。
fig2

  • 图2:scRNA-seq分析步骤概述。

对于图2a:为了确保只捕获高质量的细胞,需要对RNA计数矩阵进行校正,并对双重细胞和低质量或濒死细胞进行过滤,可以通过去除质量控制指标方面的异常值来完成。所有计数都代表mRNA分子的成功捕获。考虑到实验噪声,当比较细胞之间的基因表达时,差异可能仅源于采样效应。我们可以通过标准化来获得细胞之间正确的相对基因丰度缓解该问题。

scRNA-seq数据集可以包含多达30000个基因的计数。然而,大多数基因并没有提供信息。因此,我们需要选择表达变化最大的基因。此外,我们需要对不同批次的数据进行集成,以获得跨样本的校正数据矩阵。为了减轻计算负担和减少噪声,通常应用降维技术。这进一步帮助我们将转录组数据的低维嵌入用于可视化。

对于图2b:我们可以将嵌入空间组织成簇,这些簇表示具有相似基因表达谱的细胞组,并由感兴趣的标签(如细胞类型)进行注释。注释可以使用先验知识手动进行,或者使用自动注释方法进行。连续过程(轨迹推断),如分化可以看作细胞身份的转换。


自动注释:可以分为基于分类器直接预测方法(有监督训练)和参考映射方法(KNN将reference标签映射到query数据集)。

手动注释:利用每个簇的基因特征来注释细胞簇。这些基因特征通常被称为标记基因,可以使用简单的差异表达测试方法(例如 t 检验或 Wilcoxon 检验)来识别。


对于图2c:根据感兴趣的问题和实验设置,揭示具体问题的机制,具体做法通常包括差异基因表达分析,基因富集分析,推断细胞-细胞通信。

对于差异基因表达(DGE)分析:可以根据DGE来鉴定标记基因或在特定条件下上调或下调的基因。目前DGE工具的一致性和稳健性较低,因此,必须对通过DGE测试获得的p值进行多次测试校正,以获得q值(q值用于控制误报率)。

对于基因富集分析:scRNAseq数据的高通量性质使其难以解释。基因集富集分析可以将大量基因总结为可解释的术语,如pathway(即现有研究已知的基因集)。常见的数据库包括MSigDB、Gene Ontology、KEGG或Reactome。常见的富集方法包括超几何测试和GSEA(Gene Set Enrichment Analysis)。富集分析对基因集的选择比对统计学方法更敏感,建议仔细选择数据库,以确保潜在的基因集被覆盖。

对于细胞-细胞通信:细胞之间不断相互作用,以促进组织发育。如果这种相互作用受损,疾病就会随之而来。细胞-细胞通信推理方法通常使用配体、受体及其相互作用的存储库来预测注释簇之间的相互作用。这些数据库偏向于特定pathway、功能类别的蛋白质。

染色质可及性

分析调控元件对于解读细胞多样性和理解细胞行为至关重要。基因表达受调控机制的控制,包括表观遗传学比如染色质可及性。为了深入了解单细胞水平上的染色质状态,转座酶可及染色质测序的单细胞分析(scATAC-seq)测量单个细胞中全基因组染色质的可及性(图3)。
fig2

  • 图3:scATAC-seq分析步骤概述。

对于图3a:scATAC-seq测量单细胞染色质可及性。数据可以用几种不同的方式表示。两种最常见的选择是cell-by-peak矩阵和cell-by-bin矩阵(具体见图3a并对比用于scATAC-seq有监督分类的Cellcano)。

对于图3b:为了确保后续分析侧重于有生物学意义的特征,而不是噪声,对特征矩阵进行质量控制。需要控制每个细胞的片段总数和相关信号的其他几个测试的数据:每个细胞具有非零计数的峰的数量、转录起始位点(TSS)富集分数。然后通过归一化来校正稀疏分布的scATAC-seq矩阵。随后的预处理和可视化工作流程紧密遵循scRNA-seq分析的步骤。


批次整合变成模态整合,由于RNA和ATAC特征不对齐,需要专业的模态整合方法。


对于图3c:如果是手动注释,scATAC-seq数据可以基于已知的 “差异可及区域-细胞类型” 关系进行注释。如果是自动注释,可以将RNA模态的细胞类型参考映射到ATAC模态的细胞上。然后,我们可以利用注释的细胞通过轨迹推断来分析连续过程。

对于图3d:根据特定问题揭示对应机制。我们可以根据共可及性(co-accessibility)确定顺式调节相互作用(cis-regulatory interaction),根据转录因子(transcription factor,TF)活性确定关键调节因子,根据motif用于确定用作TF结合位点的DNA序列模式。

共可及性识别顺式调节相互作用

对于co-accessibility:共可及性是指基因组中不同区域的开放性或可及性之间的相关性。在scATAC-seq中,共可及性指的是不同细胞中开放染色质区域的相似性或共同出现的模式。这意味着在某些细胞中,特定的基因组区域或染色质区段呈现开放状态,并且这种开放状态在其他细胞中也得到保留。GLUE中的guidance Graph,在ATAC对应特征下的子图能反映共可及性

顺式调节相互作用(cis-regulatory interaction)是指在基因组中,调控元件(调控区域)与其附近的目标基因所在区域之间的相互作用。这种相互作用发生在同一染色体上,即在顺式上。

根据共可及性确定顺式调节相互作用:

  • 共可及性峰值定义:从scATAC-seq数据中,首先需要获取co-accessibility peaks或scores。这些peak代表了在多个细胞中共同出现的开放染色质区域。
  • 基因定位:确定感兴趣的目标基因或基因集合。可以使用基因注释数据库或基因组注释信息来确定基因的位置。
  • peak与基因的关联:计算每个共可及性pair与目标基因之间的距离。可以根据基因的TSS(转录起始位点)或其他相关的区域来计算距离。
  • 统计分析:对于每个目标基因,可以计算其周围共可及性的富集程度。
  • 筛选和验证:根据统计分析的结果,可以设定一定的阈值来筛选出具有显著共可及性的顺式调节相互作用。进一步的验证可以使用其他实验技术,如用染色质构象捕获(Hi-C)来验证这些相互作用。

Hi-C是一种常用的染色质构象捕获技术,用于研究基因组中染色体间的相互作用。Hi-C数据通常以矩阵的形式表示,其中行和列代表基因组的不同区域,矩阵中的元素表示这些区域之间的相互作用频率。通过分析Hi-C数据,可以识别顺式调节相互作用,即具有较高的相互作用频率的染色体区域对。


TF-motif分析

TF(转录因子)是一类能够结合到DNA上调控基因表达的蛋白质(可以促进也可以抑制),而motif(基序)则是指在DNA序列中存在的具有特定模式的短序列,通常与TF的结合位点相关联。研究转录因子结合位点的基序可以帮助我们理解具体基因调控机制的物理过程(可以想象为建模配体-受体的相互作用)。


从scRNA-seq中获取TF:使用基因注释数据库将scRNA-seq数据中的基因与已知的转录因子基因进行比对和注释。基因注释数据库提供了基因的功能注释和分类信息,其中包括转录因子的注释。


确定关键调节因子(Key Regulators,关键的转录因子)的方法通常涉及以下步骤:

  • 转录因子活性分析:首先,需要对转录因子的活性进行评估。这些分析可以表明转录因子是否活跃。
  • 网络分析:构建基因调控网络,网络可以显示基因和转录因子之间的相互作用关系,并帮助确定关键调节因子。

对于motif发现,根据感兴趣TF找到基因调控网络中的相关基因,根据基因发现染色质区域,在该区域上进一步发现motif。

表面蛋白质

实际产生的产物,即蛋白质,承担细胞内或细胞外的任务,蛋白质的一个子集出现在细胞表面。表面蛋白表达有助于识别细胞类型,如免疫系统的造血细胞。用于结合scRNA-seq和表面蛋白分析的最广泛使用的方案是CITE-seq和REAP-seq(图4a)。

fig4

  • 图4:CITE-seq数据分析流程。
  • 图4a:抗体衍生标签(ADT,Antibody-derived tags)携带标签并处于抗体上,抗体与表面蛋白质结合,测序的ADT计数代表某类蛋白质的表达水平。
  • 图4b:ADT数据通常与RNA联合测量。因此,基因表达和ADT的配对计数矩阵经过质量控制和标准化,然后进行联合嵌入。
  • 图4c:CITE-seq数据的注释可以在转录组数据、ADT数据的水平上进行,也可以通过将聚类与标记基因和标记ADT匹配来联合进行。
  • 图4d:为了了解生物学机制,可以测试ADT数据的差异丰度,推断细胞-细胞通信,并构建RNA和ADT信息的相关网络。

ADT相比RNA,数据不会过度稀疏,在预处理时应与RNA数据单独分开进行。


细胞特性导致异质性捕获效率,从而导致偏差。只有表达靶向蛋白的细胞才会导致Tag计数的增加,这可能只是特定的细胞类型。


多模态数据整合

fig5

  • 图5:多模态数据整合。根据输入,整合方法分为三类:配对整合,不配对整合,混合整合或马赛克整合。

对于配对的测量,比如联合测量,输入表现为细胞配对,但特征不匹配。细胞维度充当整合锚点(见图5a)。

整合未配对的多组学数据(即对角整合,见图5b)的主要困难在于不同的特征空间,并且没有细胞维度的anchor信号。GLUE 将细胞状态建模为通过模态特定变分自动编码器学习的低维嵌入,这些变分自动编码器使用到基于先验知识的指导图。

尽管实验测定取得了进展,但同时从同一细胞中捕获几种模态仍然具有挑战性。另外对来自同一生物样本的不同个体细胞进行测量更为常见,这导致配对数据和未配对数据混合存在,因此称为马赛克整合或混合整合(见图5c)。

图5d为多模态场景下的参考映射。该领域的最新发展来自于多模态reference和query的出现。

利用空间解析单细胞数据

到目前为止,所有讨论的模态都是基于解离的单细胞组学技术,用于表征细胞身份和状态。然而,在多细胞生物中,细胞具有相互作用并形成空间结构的微环境,这些微环境可能因样本和条件而异。这使得能够发现新的细胞功能,并产生了新的计算挑战,需要不同的分析方法。空间组学在单细胞基因组学中添加两种额外的模态:组织学成像和空间特征测量。单个细胞的空间定位有助于了解组织微环境。细胞的空间坐标可以作为非分子特征。目前,分析空间数据需要专门针对空间模态定制的分析工具。

fig6

  • 图6:空间转录组学预处理和下游分析步骤概述。
  • 图6a:基于阵列的空间转录组学测量技术,用条形码(BC,barcode)区域量化基因表达,区域跨越 10μm 和 200μm 之间的区域。 BC 区域包含来自多个细胞的测量值,从而产生计数矩阵和空间坐标,其中每个观察值都是一个 BC 区域。细胞类型反卷积方法分解单个 BC 区域的细胞组以获得计数矩阵和空间坐标,其中每个观察值都是单个细胞。进一步的预处理可以类似于scRNA-seq数据集的分析来执行。
  • 图6b:基于图像的空间转录组学测量技术,例如荧光原位杂交(FISH)和原位测序(ISS)技术,在多轮顺序杂交中捕获转录组的各个位置。可以聚合转录物位置以获得单细胞水平的计数矩阵和空间坐标。随后的处理再次以与 scRNA-seq 类似的方式进行。
  • 图6c:空间转录组中的细胞结构可以在单个细胞或 BC 区域的分辨率下识别。
  • 图6d:空间转录组学中的机制可以通过识别跨空间变化的基因、分析细胞邻域并根据受体和配体、紧密连接或间接机制推断通信事件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/510477.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

图的遍历——深度优先搜索(DFS)与广度优先搜索(BFS)(附带C语言源码)

个人主页:【😊个人主页】 系列专栏:【❤️数据结构与算法】 学习名言:天子重英豪,文章教儿曹。万般皆下品,惟有读书高——《神童诗劝学》 系列文章目录 第一章 ❤️ 学前知识 第二章 ❤️ 单向链表 第三章…

mysql数据迁移与同步常用解决方案总结

目录 一、前言 二、数据迁移场景 2.1 整库迁移 2.2 表数据迁移 2.3 mysql版本变更 2.4 mysql数据迁移至其他存储介质 2.5 自建数据到上云环境 2.6 mysql数据到其他国产数据库 三、数据库物理迁移实施方案 3.1 数据库物理迁移概述 3.1.1 物理迁移适用场景 3.1.2 物理…

杂记 2023.5.10

目录 韦伯和斯托亚科维奇是谁? 介绍一下kali FastDFS和Sentinel是什么? Inferno 找工作的影响因素 1. 背景: 2. 学习过程: 2.1 计算机基础: 2.2 语言: 2.3 数据库等: 2.4 JVM&#…

月薪17k需要什么水平?98年测试员的面试全过程…

我的情况 大概介绍一下个人情况,男,本科,三年多测试工作经验,懂python,会写脚本,会selenium,会性能,然而到今天都没有收到一份offer!从年后就开始准备简历,年…

Linux操作系统如何查看CPU型号信息?一条命令搞定

Linux操作系统服务器如何查看CPU处理器信息?使用命令cat /proc/cpuinfo可以查看CPU详细信息,包括CPU核数、逻辑CPU、物理CPU个数、CPU是否启用超线程等,阿里云服务器网分享Linux服务器查看CPU信息命令: 目录 Linux服务器查看CPU…

Visual Studio Code 1.78 发布!

欢迎使用 Visual Studio Code 2023 年 4 月版。一些主要亮点包括: 辅助功能改进 - 更好的屏幕阅读器支持、新的音频提示。新颜色主题 - “现代”浅色和深色主题默认设置。配置文件模板 - Python、Java、数据科学等的内置模板。拖放选择器 - 选择您希望如何将项目链…

【AI】YOLOV2原理详解

1、简介 Yolov2采用了Darknet-19特征提取网络,包括19个卷积层和5个maxpooling层,网络结构如下: 也有尝试使用ResNet-50作为特征提取的模型,网络结构如下: 2、YOLOV2的改进 2.1 加入批归一化(Batch Nomalization) 对数据进行预处理(统一格式、均衡化、去噪等)…

隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC‘23和IJCAI‘23接收!

‍“USENIX ATC‍年度技术会议”(USENIX ATC,USENIX Annual Technical Conference)是计算机系统领域的顶级学术会议之一。本年度 USENIX ATC’23将于7月10日至12日在美国波士顿召开。本次会议共投稿353篇论文,接收65篇&#xff0c…

【Redis】电商项目秒杀问题之超卖问题与一人一单问题

目录 一、超卖问题 1、背景 2、产生原因以及线程安全问题 3、解决 1.悲观锁 2.乐观锁 4、新的问题 5、解决 二、一人一单 1、背景 2、产生原因以及线程安全问题 3、解决 4、新的问题----集群下的并发安全问题 5、解决 三、集群下的并发问题 1、说明 2、解决 一…

如何将ChatGPT训练成某个领域的专家!附完整示例!

背景 最近听了 八叉的一个ChatGPT讲座,讲的是如何将ChatGPT训练成领域专家,这样我们就可以用它来解决该领域的各种问题。 整个讲座中最让我印象深刻的就是训练方法,它是通过让ChatGPT向我们提问,然后由我们给出答案的方式进行训…

牛客 BM40 重建二叉树

描述 给定节点数为 n 的二叉树的前序遍历和中序遍历结果,请重建出该二叉树并返回它的头结点。 例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建出如下图所示。 提示: 1.vin.length pre.length 2.pre 和 vin 均无重复元素…

Redis未授权漏洞复现

Redis简介 Redis是C语言开发的一个开源高性能(key-value)键值对类型的内存NoSQL数据库,可以用作数据库、缓存、信息中间件(性能非常优秀,支持持久化到硬盘且高可用)。由于其自身特点,可以广泛应用在数据集群&#xff…

threeJs进阶 让模型沿着指定轨迹移动与转向

效果图: 涉及相关知识点: 欧拉对象和四元数主要用来表达对象的旋转信息。 关键词:欧拉Euler、四元数Quaternion、矩阵Matrix4 欧拉对象Euler 欧拉角描述一个旋转变换,通过指定轴顺序和其各个轴向上的指定旋转角度来旋转一个物体…

小红书达人等级有哪些,达人种草力度判断

小红书对于产品及品牌的传播作用,来自于达人自身的分享。以笔记为媒介,对产品进行情景化展示,从而吸引消费,就被称作是种草。而种草力度的强弱,则与达人等级息息相关。下面,就来跟详细为大家解读。 一、小红…

VHDL的基本语法(一)

1 VHDL基本结构 1 实体 Entity:描述所设计的系统的外部接口信号,定义电路设计中所有的输入和输出端口 2 结构体 Architecture:描述系统内部的结构和行为 3 包集合 package:存放各设模块能共享的数据类型、常数和子程序等&#xf…

一百一十、Hive时间转换——from_unixtime踩坑(不要用from_unixtime,而是用from_utc_timestamp)

1.详情 从kettle转换任务得到时间戳为13位,1683701579457。想看看这个时间戳与createTime字段的关系,于是一开始使用了from_unixtime,结果踩坑了 2.运行问题(晚8个小时) hive> select from_unixtime(cast(1683701…

产品经理怎样活着走出需求评审会?

需求评审是产品经理工作的重要环节,是团队成员间衔接需求的重要桥梁,产品经理的方案能准确落地的重要保障。 一场成功的需求评审会,是能够完整清晰传递产品目标、产品功能,能获得团队认同,并且会后团队能够配合实施的…

orin配置系统

查看linux下的opencv安装版本: pkg-config --modversion opencv查看linux下的opencv安装路径: sudo find / -iname "*opencv*"可知opencv安装在/usr/local/lib里面。 在~/.bashrc中配置如下 在刷机完成的Orin,执行如下命令以安装…

uboot下内存操作mw和md命令详解

mw简介 u-boot 中的 mw 命令是用于向内存写入数据的命令,它有4种形式: mw.b - 写入 1 个字节(8 比特)的数据mw.w - 写入 1 个字(2 字节,16 比特)的数据mw.l - 写入 1 个长字(4 字节,32 比特)的数据mw.q - 写入 1 个四字(8 字节,64 比特)的数据 它们的语法格式是: mw.b addres…

servlet的运行原理

Servlet在容器中的执行过程 1.浏览器向服务器发出GET请求 2.服务器上的Tomcat接收到该url,根据该url判断为Servlet请求,此时Tomcat将产生两个对象:请求对象(HttpServletRequest)和响应对象(HttpServletResponce) 3.Tomcat根据url找到目标Servlet,且创建…