百万级单细胞多组学数据集成

news2024/10/7 8:27:03

写在前面

这是一篇粉丝来稿,文章题目为“Multi-omics integration in the age of million single-cell data”,于2021年发表于《Nature Reviews Nephrology》上,影响因子为42.439。由于单细胞目前快速的买入了百万级、多组学的时代,近年来单细胞的大数据处理与多组学整合成为各软件、算法开发的热点。本文综述了单细胞各组学的算法与工具,感兴趣的同学可以顺藤摸瓜,把本文提到的内容展开学习一番~

做数据分析时电脑配置力不从心的同学可以参考这里:
有root权限的共享服务器,你没有体验过的全新版本!

**doi:**10.1038/s41581-021-00463-x
**链接:**https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9191639/

摘要

单细胞技术的迅猛发展揭示了以前被忽视的细胞类型和新的细胞状态与性别、疾病、发育和其他过程的关联的异质性。
从转录组分析开始,单细胞技术已经扩展到多组学方法,可以同时测量数据模式和空间细胞环境。可以获得数百万个细胞的数据,用于全基因组测量和多种模式。尽管对这种多模式数据集的分析有可能为生物过程提供新的见解,而这些见解无法用单一的分析模式来推断,但将非常庞大、复杂的多模式数据整合到生物模型和机制中是一个相当大的挑战。
● a)本文综述了多组学数据集成计算方法的研究进展;
● b)提供数据集成原则的总体概述;
● c)以更实际的数据为中心,讨论哪些方法可以应用于特定的数据集;

i.讨论在同一细胞上测量的多组数据的集成分析方法; ii.讨论在不同细胞上测量的多组数据的集成分析方法; iii.讨论可以集成不同测量模式的数据可视化方法; iv.重点关注决定不同方法的优势和挑战的原则和一般因素。

文章要点

●随着单细胞多组学技术的发展,数据集成的工具和模型的选择至关重要。
●单细胞生物学中的数据整合问题可以分为与匹配和不匹配数据的整合相关的问题。
●整合匹配数据的策略包括联合潜在空间推断,个体推理一致性和生物因果模型。
●整合不匹配数据的策略包括注释组匹配、与常见特征匹配和对齐空间。
●综合多模式单细胞数据的可视化方法仍不成熟。
●未来的挑战包括考虑与每种模态相关的特定噪声,克服对计算效率的需求,以及开发生物可解释的集成策略。

主要研究内容及结果

● Overview of single-cell data integration 单细胞数据集成概述

现有的研究表明,多模态数据集成可以得出单一分析模式无法得出的推论。目前有许多计算方法可以辅助单细胞多模态组学数据集成分析,但是每种方法都有不同的优点和缺点(图1)。

●a Quantitative causal modelling 定量因果模型

**●a.1 背景:**多模态数据集成最主要的形式是考虑产生测量的实际生物过程。

●a.2 原理:
a.2.1染色质状态、RNA水平和蛋白质水平代表了细胞单系统水平分子动力学的不同方面;表观基因组状态、RNA分子数量和蛋白质分子数量之间存在因果关系。
a.2.2细胞的精确定量系统模型,使用相关联的多模态测量来估计参数,从而得出细胞动态状态的综合推断。

**●a.3 优点:**计算方法包含细胞分子动力学的部分系统模型。
a.3.1RNA速度算法提出转录、剪接和降解动力学的微分方程模型,并使用外显子和内含子读取估计模型的参数。
a.3.2计算工具protaccel将这个动力学模型扩展到包括蛋白质的微分方程项,允许基于RNA和蛋白质数据模型的整合。

●**a.4 缺点:**基于细胞系统模型的数据集成方法是多模态数据集成的理想方法,由于缺乏可靠的模型,目前不能实现。

●b Statistical modelling 统计模型

●**b.1 背景:**在缺乏因果动力学模型的情况下,另一种集成方法是使用统计模型将不同的测量方式相互联系起来(图1b)。

b.2 原理:
b.2.1建立RNA水平和蛋白质水平之间的统计关系,或者建立基因周围染色质的位置和数量与其RNA水平之间的统计关系。
b.2.2集成不同数据模态的方法是在两个或多个模态之间创建统计模型,以便一种数据类型的值可以映射到另一种类型。

●**b.3 优点:**模型可以从参考数据集或者符合感兴趣的数据集进行校准。是一种模态的所有数据点都被转换(映射到)另一种模态,能增强数据集能力。

●**b.4 缺点:**这种翻译不能为与每种数据类型相关的生物过程提供额外的见解,因为这个过程只会将一种数据类型转换为另一种。

●c Latent space modelling 潜在空间建模

●**c.1 定义:**将一种数据类型转换为另一种数据类型,也可以看作是在一组变量和另一组变量之间构造一个函数(通常称为映射)。

c.2 背景:
c.2.1 在缺乏更机械或因果模型的情况下,潜在空间模型表示的不同类型的测量必须都代表细胞中未知分子状态的某些方面。
c.2.2 转录组、蛋白质组和染色质状态都可以被认为是细胞抽象的“潜在分子状态”的一个方面(图1c)。

c.3 缺点:
c.3.1 潜在空间通常没有物理或化学解释,这使得很难知道集成空间在细胞的实际分子状态方面意味着什么。
c.3.2 同一组细胞可能有不同的潜在空间表示,模拟不同的隐藏生物状态。因此,潜在空间作为数据整合模型的效用和多样性取决于生物推理的目标。

d Late integration 后期集成

●**d.1 定义:**不试图将测量数据彼此关联起来,而是试图使用每种数据模态来推断该数据类型特有的模型或结果,然后尝试集成输出模型或结果(图1d)。

d.2 用途:

d.2.1 可独立地从转录组和蛋白质组推断基因调控网络。
d.2.2在应用算法来协调集群之前,独立地估计每个数据模态中的细胞类型集群。
总之,不同的数据集成方法可以帮助得出的推断超过其各部分的总和。

以更实际的以数据为中心的观点来说明给定一组特定的数据可以应用什么方法(图2)。

● Integrating jointly profiled multi-omics data 整合联合分析的多组学数据
单细胞测量的最大挑战是从有限数量的材料中恢复分子分数。当试图恢复不同的分子区室时,分子恢复效率的问题会加剧。最流行的匹配多模态技术是联合snRNA- seq和snATAC- seq方案实现。此外,已经建立了测量单细胞表型和转录组数据的技术,为单细胞分析提供了重要的额外维度。

a Naive approaches 朴素法
**定义:**对数据进行转换,使所有特征(即测量属性)具有同质统计特征,通过样本之间的变化来衡量每个特征。
**模型:**BREM-SC,假设每个基因在每个细胞类型中都有多项分布,用于使用CITE- seq获得的RNA和蛋白质计数矩阵。这种类型的模型支持细胞类型的概率聚类。
**缺点:**朴素法很简单,但忽略了不同模式的生物学背景,而是试图协调不同特征的统计特征,限制了它们的实用性。

b Latent space approaches 潜在空间方法

**模型:**scAI、MOFA、MOFA+、totalVI、Seurat V4

原理:

单细胞聚集和整合(scAI):先用随机选择的相邻值的类似加权平均值替换细胞的值,以“平滑”稀疏值;再通过假设转录组和表观基因组的数据矩阵共享潜在空间的加权线性函数,从而推断出潜在的潜在空间。
多组学因子分析(MOFA)及其更新版本实施群体因子分析(MOFA+):确定多种模式的共同变化。在每个模态中观测到的数据被认为是一个潜在公共空间的线性加权函数。MOFA+增加了多个潜在空间,以解释群体效应,如不同的实验批次。虽然该模型的基本数学结构与scAI相似,但MOFA将模型与数据关联的方式不同。
TotalVI:具有与scAI和MOFA相似的结构,观察到的转录组和蛋白质测量也被认为是一个共同潜在空间的函数。TotalVI将观测数据和建模数据与机器学习模型(深度神经网络)联系起来,该模型使用编码器-解码器算法。编码器-解码器神经网络的中间层可以被解释为一个公共潜在空间,并用作集成变量集进行下游分析。TotalVI相对于scAI和MOFA方法的一个潜在优势是,神经网络架构允许公共潜在空间和测量特征之间更复杂(非线性)的关系。

Late integration approaches 后期集成方法

Seurat V4:加权最近邻分析(WNN),从形态特异性的亲和模型综合了细胞与细胞的亲和关系,可以使用RNA数据和蛋白质数据计算的细胞与细胞的关系。加权最近邻分析是通过评估每种近邻中的细胞对给定细胞的RNA或蛋白质价值的预测程度来衡量每种近邻的信息量。
CiteFuse:相似网络融合(SNF),主要基于一种更原则性的算法,即“消息传递”,综合亲和关系。在这种方法中,根据每个模态的相似性(或亲和性)矩阵为每个对象计算邻域关系,再通过将关系信息从一个矩阵的相邻对象集传递到另一个矩阵,来回迭代,直到它们收敛,将每个模态的相似性矩阵“融合”在一起。

Integrating independent multimodal data 集成独立的多模态数据

通过尝试统计特征空间映射到另一个特征空间。将这些方法分为三大类:通过带注释的细胞组匹配的方法,通过共享特征集匹配的方法,以及没有公共特征集匹配的方法(表2)。

a Matching by annotated cell groups 按带注释的细胞组进行匹配

a.1当对不同的数据集进行不同的测量时,集成这些测量的粗粒度方法是在模态之间匹配细胞组。
a.1.1如果聚类对应于已知的细胞类型,则可以手动关联每种模式中的聚类。
a.1.2如果从已建立的注释中无法获得聚类标签信息,则可以使用其他具有生物学信息的特征。
a.1.3前人研究整合scRNA和scATAC数据,通过将scATAC-seq细胞聚类的开放染色质峰与scRNA-seq细胞聚类在基因组中的表达联系起来,成功推断出准确的增强子-启动子对。

●a.2MAESTRO:结合染色质免疫沉淀和测序(ChIP–seq)数据,以辅助鉴定转录调节因子并基于scRNA和scATAC数据匹配聚类。
a.2.1目前大多数空间转录组技术要么缺乏分辨率,要么缺乏转录组复杂性,整合scRNA- seq与空间数据可以克服这两个限制。
a.2.2在带有注释的scRNA-seq聚类的高度可变基因上训练机器学习分类器支持向量机,使分类器能够从序列荧光原位杂交(seqFISH)数据中识别和绘制主要细胞类型。
a.2.3对于低细胞分辨率的空间转录组学数据,使用10X Visium和slide-seq、scRNA-seq获得的数据用于对空间平均低分辨率读数进行反卷积,并通过估计每种细胞类型的频率来提高分辨率。

b Matching with shared feature sets 与共享特性集匹配

●b.1STvEA:将CITE-seq数据与多重免疫组织化学或流式细胞术数据相匹配,使用蛋白质丰度测量作为共同因素。根据对两个数据矩阵进行相互最近邻(MNN)进行校正,从而能够用CITE-seq数据中的标签自动注释多路免疫组织化学数据。

b.2在缺乏共同的分子基础的情况下,一种模态的测量可以通过某种(生物动机的)统计模型连接到另一种模态的特征,从而实现联合分析。

b.2.1 Clonealign癌细胞中增加的DNA拷贝数将导致相应区域内的基因表达增加。许多scRNA-scATAC集成方法从ATAC数据中综合构建“基因活性矩阵”,将其视为基因表达特征集。
b.2.2Seurat V3从转录起始位点(TSS)的-2 kb开始在,整个基因体中聚合所有ATAC reads来预测表达水平。

●c Integration of unmatched data by latent models 潜在模型对不匹配数据的集成

●c.1LIGER:采用一种综合的非负矩阵分解方法,把一组用于所有矩阵的公共因子和另一组特定于每个矩阵的因子,按特征组成的细胞矩阵联合分解为按因子的细胞矩阵和按因子的基因矩阵。

●c.2MAGAN实现了一种称为双生成对抗网络(dual GAN)的神经网络,它使用一种新的架构来相互映射来自不同模式的两个数据集。

c.3MATCHER, MMD- MA和UnionCom:这些方法从数据集的降维开始。

c.3.1选择符合模型假设且适合数据结构的降维方法。
c.3.2MATCHER先假设存在一个一维结构,所有的细胞都沿着这个结构分布。然后拟合一个随机模型来推断每个数据模态的一维流形结构。随后,训练一个称为单调弯曲的函数,以最小化与预先指定的流形方向匹配两个或多个一维流形的损失函数。
c.3.3MMD- MA将每个模态特征空间内的几何关系映射到公共空间,以最小化模态空间之间的几何变形,同时保持空间内配置。
c.3.4UnionCom将每个模态嵌入到一个距离矩阵中,该距离矩阵为每个模态封装了一个低维流形。

c.4SCOT使用了最佳传输的概念,定义两组对象之间的关系,每组对象具有许多类和每个类中对象的不同频率。计算的关系既考虑了每个类中对象的频率,也考虑了对象之间距离的度量。

Visualization of multi-omics data 多组数据可视化

计算可视化工具或交互式网站允许用户友好的搜索和特征的显示,显著促进了数据共享和使用。在单细胞生物学的背景下,数据可视化有两大类:一:“无偏”可视化,包括各种试图显示所有数据点的降维方法。二:“知识驱动”可视化,即数据的某些策划方面。

a Unbiased visualization “无偏”可视化

在复杂单细胞数据的解释中,降维和无偏视是至关重要的。单个细胞数据集中的不同细胞类型和状态意味着将细胞可视化为二维或三维图像中的一个点对于评估数据质量、细胞身份、发展轨迹和批处理效应是有用的。

基于降维方法的各种可视化方法:包括tSNE、UMAP66、PHATE67和力向图。扩展经典的线性方法:主成分分析。

b Knowledge driven visualization “知识驱动”可视化

单细胞数据被用于生物学推论的过程通常被称为下游分析。这些下游分析产生了可视对象。可视化常见示例:

●b.1可视化细胞类型标记基因的小提琴图;

●b.2 可视化细胞相互作用的双显图;

●b.3 可视化细胞焦点子集的简单注释叠加。

c Future directions for data visualization 数据可视化的未来方向

需要更多的可视化工具和框架来充分理解多模态数据的复杂性(图3)。如果可视化是静态的,即使多层数据可视化也不足以充分探索多模态数据的生物结构。一个关键的考虑因素是这种交互式可视化和分析所需的计算速度,特别是对于非常大的数据集。

结论及未来发展方向

单细胞多组学数据的整合已在许多实际数据分析中得到实现,揭示了新的生物学见解。
理想情况下,生成数据集成模型和评估模型的过程本身应该阐明基因调控等生物过程的机制,通过多组学数据集成来研究跨数据形式。不管它们在生物过程建模中的效用如何,数据集成往往比单独分析单个数据集产生更多或更好的推理。综合数据分析还可以识别可能导致其他应用的未被重视的关系。
在计算工具中,落后于分析方法的是复杂多模态数据的可视化方法,这些方法在不同视图和辅助信息之间交互式连接。这些工具发展的一些障碍是计算机本身的速度和容量。
因此,整合数据的一种理想方法是在定量数据和潜在的分子过程(如细胞分化、生理和稳态)之间建立因果模型。希望多模态数据,通过提供生物生物学的多个方面的测量,可以帮助建立这样的因果模型。数百万细胞规模的多组学单细胞生物学时代才刚刚开始,数据、分析方法和推断模型将在未来几年推动生物学的发展。

如何联系我们

公众号后台消息更新不及时,超过48h便不允许回复读者消息,这里给大家留一下领取资料、免费服务(有root权限的共享服务器,你没有体验过的全新版本!)的微信号,方便各位随时交流、提建议(科研任务繁重,回复不及时请见谅)。此外呼声一直很高的交流群也建好了,欢迎大家入群讨论:永久免费的千人生信、科研交流群

大家可以阅读完这几篇之后添加
给生信入门初学者的小贴士
如何搜索公众号过往发布内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/949603.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用WebGPU实现基于物理的渲染

推荐:用 NSDT编辑器 快速搭建可编程3D场景 最近,我花了相当多的时间在 WebGPU 中使用 IBL(基于图像的照明)编写 PBR(基于物理的渲染)渲染器。 PBR 本身并没有什么新奇之处。 这是一项自 2014 年以来就存在的…

Python装饰器(decorators)

本文改编自以下文章:Decorators in Python 装饰器是一个很强大的工具,它允许我们很便捷地修改已有函数或者类的功能,我们可以用装饰器把另一个函数包装起来,扩展一些功能而不需要去修改这个函数代码。 预备知识 在Python中&…

度矩阵、邻接矩阵

度矩阵(degree matrix) 度矩阵是对角阵,对角上的元素为各个顶点的度,顶点vi的度表示和该顶点相关联的变得数量。 在无向图中,顶点vi的度d(vi)N(i)(即与顶点相连的边的数目)有向图中&#xff0…

六年北漂:一个普通程序员的成长之路

微信推送规则改了,星标一下公众号,否则可能收不到推送 收拾完东西,终于忙完一天了,坐在桌子前,梳理一下我的北漂经历。 中午刚下飞机,到了住的地方,直接开始下雨,瞬间感受到一股闷热…

揭秘:房产小程序如何助力售楼业务提升

随着移动互联网的发展,小程序已经成为各行各业进行营销推广的利器之一。对于房地产行业而言,小程序同样具有巨大的潜力。下面,我们将介绍如何使用乔拓云平台开发一款吸睛的房地产营销小程序。 第一步:注册登录乔拓云平台&#xff…

Linux基础--文件描述符

目录 一.C文件接口 1.hello.c写文件 2.hello.c读文件 3.输出信息到显示器 二、系统文件I/O 0.系统调用和库函数 1.open 2.write 3.read 4.close 三、文件描述符fd 1. 0 & 1 & 2 2.文件描述符分配规则 3.重定向 4.使用dup2系统调用 四、FILE 一.C文件接…

为了做好农业,拼多多请来顶尖农业专家当独立董事

8月29日,拼多多发布截至6月30日的2023年第二季度业绩报告。财报显示,拼多多集团今年第二季度收入为523亿元,同比增长66%,远超市场预期。 财报发布的同时,拼多多还宣布,其董事会已聘任荷兰瓦赫宁根大学终身…

【办公自动化】使用Python批量处理Excel文件并转为csv文件

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

一文了解聚合支付

第四方支付是相对于第三方支付而提出的概念,又被称为“聚合支付”是指通过聚合第三方支付平台、合作银行、等多种支付工具进行的综合支付服务。 简言而之,把支付接口聚合到一个平台上面,来给商家或者个人来提供支付服务。 第四方支付集中了各…

为什么深度网络(vgg,resnet)最后都不使用softmax(概率归一)函数,而是直接加fc层?

这个问题很简单,并不是没有使用softmax,而是没有显式使用softmax。 随着深度学习框架的发展,为了更好的性能,部分框架选择了在使用交叉熵损失函数时默认加上softmax,这样无论你的输出层是什么,只要用了nn.…

【GO】LGTM_Grafana_Tempo(2) --- 官方用例改后实操

最近在尝试用 LGTM 来实现 Go 微服务的可观测性,就顺便整理一下文档。 Tempo 会分为 4 篇文章: Tempo 的架构官网测试实操跑通gin 框架发送 trace 数据到 tempogo-zero 微服务框架使用发送数据到 tempo 根据官方文档实操跑起来 tempo,中间根…

测试理论与方法----软件测试工作流程第一个环节:提取测试需求

测试理论与方法 一、软件测试流程 1、软件测试定义 软件:程序数据文档:不仅仅包含应用程序,还应该包含和这个程序相关的数据,文档 软件测试:测试的对象:应用程序,数据,文档 软件…

java八股文面试[数据库]——慢查询优化

分析慢查询日志 直接分析慢查询日志, mysql使用explain sql语句进行模拟优化器来执行分析。 oracle使用explain plan for sql语句进行模拟优化器来执行分析。 table | type | possible_keys | key |key_len | ref | rows | Extra EXPLAIN列的解释: ta…

六、事务-3.事务四大特性

1、原子性 事务是一组操作,这组操作是不可分割的最小操作单元,这组操作要么全部执行成功,要么全部执行失败。 如:三步转账操作,当中只要有一步操作失败了,整个就失败了。 2、一致性 事务完成时&#xff…

使用vs2019+opencv4.3.0搭建开发环境笔记

使用vs2019opencv4.3.0搭建开发环境笔记 1.软件下载适配2.opencv适配三级目录 3.运行第一个demo报错 参考: 博文 1.软件下载适配 首先是需要下载安装vs2019,下载社区版免费,安装过程基本点击就可 vs2019官网 opencv下载 opencv4.3.0 2.o…

MySQL事务原理、MVCC详解

事务原理 1 事务基础 1). 事务 事务 是一组操作的集合,它是一个不可分割的工作单位,事务会把所有的操作作为一个整体一起向系 统提交或撤销操作请求,即这些操作要么同时成功,要么同时失败。 2). 特性 原子性(Atomi…

Java CompletableFuture 详细使用教程与实践

一、Java CompletableFuture 详细使用教程 Java 8引入了一种强大的异步编程工具:CompletableFuture。它提供了一种处理异步计算的方式,使得你可以在计算完成时获取结果,或者将一个或多个 CompletableFuture 的结果组合在一起。本部分将详细解…

深入了解Kubernetes(k8s):安装、使用和Java部署指南(持续更新中)

目录 Docker 和 k8s 简介1、kubernetes 组件及其联系1.1 Node1.2 Pod1.3 Service 2、安装docker3、单节点 kubernetes 和 KubeSphere 安装3.1 安装KubeKey3.2 安装 kubernetes 和 KubeSphere3.3 验证安装结果 4、集群版 kubernetes 和 KubeSphere 安装5、kubectl 常用命令6、资…

Node.js 是什么?Node.js 安装及配置环境 入门指南!

Node.js 是一个基于 Chrome V8 引擎的开源、跨平台的 JavaScript 运行时环境。它允许开发者使用 JavaScript 构建高性能、可扩展的网络应用程序,使 JavaScript 能够在服务器端运行,而不仅仅局限于浏览器端。Node.js 的包管理器 npm,是全球最大…

浅谈安防视频监控平台EasyCVR视频汇聚平台对于夏季可视化智能溺水安全告警平台的重要性

每年夏天都是溺水事故高发的时期,许多未成年人喜欢在有水源的地方嬉戏,这导致了悲剧的发生。常见的溺水事故发生地包括水库、水坑、池塘、河流、溪边和海边等场所。 为了加强溺水风险的提示和预警,完善各类安全防护设施,并及时发现…