Mowgli用于配对多组学整合

news2024/11/27 15:32:23

对同一组细胞的多个分子层进行分析逐渐流行。越来越需要能够联合分析这些数据的多视图学习方法。Mowgli是一种支持配对多组学数据的整合方法。值得注意的是,Mowgli将非负矩阵分解和最优传输相结合,同时提高了非负矩阵分解的聚类性能和可解释性。作者将Mowgli应用于10X Multiome,CITE-seq和TEA-seq分析的多个配对单细胞多组学数据。深入的基准测试表明,Mowgli的性能在细胞聚类方面与最先进的技术相竞争,并且在考虑生物可解释性时优于最先进的技术。

来自:Paired single-cell multi-omics data integration with Mowgli,Nature communications,2023

目录

  • 背景概述
  • 方法概述
  • 可解释方法
  • 结果
    • Mowgli通过在TEA-seq中提供细胞类型特异性因子,提高了生物学可解释性
    • Mowgli在TEA-seq数据中确定了相关的免疫细胞亚群

背景概述

单细胞测序技术提供了细胞异质性的定量测量,正在彻底改变我们对免疫系统、发育和复杂疾病的理解。单细胞测序技术的一个新前沿是多组学单细胞测序,允许同时分析来自同一个细胞的多个分子reads(例如转录组、染色质可及性、表面蛋白)。这些前沿测序技术的例子是CITE-seq,利用寡核苷酸偶联抗体同时测量RNA和表面蛋白的丰度,以及10x Genomics Multiome平台,通过基于液滴的单核分离来测量RNA和染色质的可及性。

多组学单细胞测序平台为我们提供了细胞的互补分子读数,称为配对多组学数据。对这些数据的联合分析提供了一个令人兴奋的机会来了解细胞的不同分子方面是如何协同决定细胞的功能、形态和状态的。因此,最近开发了几种多视图学习方法,通过考虑其共享和互补信息来联合分析配对的多组学数据。这些方法不同于非配对整合方法,它们利用了细胞之间的已知对应关系。最先进的单细胞多组学整合的多视图学习方法是基于矩阵分解,k近邻或变分自编码器。整合矩阵分解(Integrative Matrix Factorization, integrated MF)和变分自编码器进行降维,通过利用公共的细胞/观测,将高维多组学细胞图谱联合嵌入到共享的低维空间。Integrative MF由于其线性性质,定义了一个具有自然生物学解释的潜在空间,但它过于简单,无法捕捉复杂的生物过程。另一方面,非线性方法,如变分自编码器,在聚类细胞中显示出巨大的潜力,但尽管最近在这一主题上有研究,但它们本质上缺乏生物可解释性。因此,改进Integrative MF方法对于在可解释性和性能之间取得平衡至关重要。

作者在此提出了Multi-Omics Wasserstein inteGrative anaLysIs (Mowgli),一种新的Integrative NMF(Non-negative MF)方法用于多组学整合。

一方面,Mowgli采用了iNMF,这种方法在计算生物学中很流行,因为它可以直观地用parts表示,增强了可解释性。另一方面,Mowgli通过利用OT(最有传输)增强了iNMF的聚类性能,之前已经证明OT可以更好地捕捉单细胞组学图谱之间的相似性。作者对Mowgli进行了广泛的基准测试,以整合使用CITE-seq、10X Genomics Multiome和TEA-seq平台分析的多个配对多组学数据。值得注意的是,虽然作者专注于整合当前可用的组学数据,但Mowgli可以处理具有任何类型和数量的组学的配对多组学数据集,而无需对数据进行任何统计假设。

深入比较表明,Mowgli的嵌入和聚类质量在真实多组学数据中优于最先进的技术,并且在更复杂的真实多组学数据中具有竞争力。值得注意的是,后者受到大多数真实数据集上缺乏绝对基础真值注释的影响。最后,通过对TEAseq数据进行深入的生物学分析,证明Mowgli在生物学可解释性方面提高了最新水平。

方法概述

Mowgli是基于集成矩阵分解(integrative Matrix Factorization, integrated MF)。开始于 d d d组学矩阵 A ( p ) ∈ R m p × n A^{(p)}\in\mathbb{R}^{m_{p}\times n} A(p)Rmp×n,其中 p ∈ [ 1 , . . . , d ] p\in[1,...,d] p[1,...,d],具有相同的列(细胞),不同的特征(genes,peaks),Mowgli将它们分解为组学特定的字典 H ( p ) ∈ R m p × k H^{(p)}\in\mathbb{R}^{m_{p}\times k} H(p)Rmp×k和共享的embedding W ∈ R k × n W\in\mathbb{R}^{k\times n} WRk×n k k k是latent空间的维数。

根据最先进的多组学整合MF方法,细胞嵌入 W W W可用于可视化和细胞聚类(图1B)。相反,字典 H ( p ) H^{(p)} H(p)通过基因集富集分析、基序富集分析或通过识别最高权重的marker来实现生物学解释(图1C)。

Mowgli的主要创新是将非负矩阵分解(integrative Non-Negative Matrix Factorization, iNMF)与最优运输(Optimal Transport, OT)相结合,从而解决了优化问题,OT可以优化NMF的重构损失。

Mowgli是Python开发的,支持Scanpy与Muon进行预处理和下游分析,此外,Mowgli提供了一个用户友好的top基因和富集基因集的可视化,从而有助于生物解释性。

作者将Mowgli与最先进的技术进行广泛的基准测试:Seurat v4, Cobolt, Multigrate和MOFA。虽然存在几种方法,但在这里重点介绍了配对数据集成的主要方法。此外,还考虑了综合NMF基线,以比较Mowgli与标准的NMF。
fig1

  • 图1:Mowgli概述。

关于因子
在非负矩阵分解(NMF)中,因子是指分解后的矩阵中的列向量,它们代表了数据的特征或者隐藏的主题。每个因子可以看作是原始数据中的一种模式或结构,它们的组合可以近似地重构原始数据。

已知 H ( p ) H^{(p)} H(p)形状为 m p × k m_{p}\times k mp×k,列代表的就是因子,指定一种特定的模式,其中的值即为该模式的表达权重(得分)。

可解释方法

基因集合富集分析
gProfiler API是通过Scanpy来使用的。作者将每个因子的150个top基因用作gProfiler的无序输入。

Motif富集分析
Signac使用JASPAR2022 Motif数据库进行Motif富集分析。为了使峰值具有可比性,作者将矩阵 H ( a t a c ) H^{(atac)} H(atac)的行归一化为1。每个因子的前100个峰值被用作Signac的FindMotifs的输入。各因子的峰值组合构成了背景。

结果

Mowgli通过在TEA-seq中提供细胞类型特异性因子,提高了生物学可解释性

作者根据MOFA+和integrative NMF的生物学可解释性对Mowgli进行了基准测试(见图4A)。MOFA+是领先的单细胞多组学整合工具,并提供了用户友好的生物学解释。与此同时,iNMF可被视为Mowgli的基线。
fig4ab

  • 图4A和B

对于这个基准,作者考虑了人类PBMCs的TEA-seq数据集,对应于scRNA-seq、scATACseq和表面蛋白的配对分析。该数据集允许我们在两个以上的组学数据集上测试方法,从而考虑到更多互补的分子调控层。

首先,分别使用MOFA+、integrative NMF和Mowgli对构成TEA-seq数据的三个组学进行整合。由于数据集未提供细胞注释,作者将Mowgli、integrative NMF和MOFA+获得的嵌入分别聚类,并基于基因和蛋白质marker进行注释(见图4B)。作者用这种方法鉴定了粗粒度免疫细胞类型:CD4 T细胞、CD8 T细胞、B细胞、自然杀伤(NK)细胞、MAIT T细胞、单核细胞(Monocytes)和红细胞(Erythroid cells)。值得注意的是,使用Mowgli、iNMF和MOFA+获得的细胞类型注释的一致性为94%,并且与通过Azimuth获得的独立的基于RNA的注释相匹配(见补充图3)。因此,这三种方法都能够通过对其嵌入的聚类恢复预期的细胞类型。
supfig3

  • 补充图3:注释一致性。

为了测试Mowgli、iNMF和MOFA+的生物学可解释性,作者评估了它们的factors与鉴定的免疫细胞类型之间关联的特异性。在此提出的基本假设是,一种可解释的方法应该提供并非在所有细胞中广泛活跃,但选择性地与细胞类型相关的因子。事实上,描述一种由多种因子组合而成的细胞类型是一项艰巨的任务。发现细胞类型特异性因子可以使相关细胞类型的生物学特性研究变得简单明了。

为了评估这种特异性,对于每种细胞类型,作者绘制了Mowgli、integrative NMF和MOFA+因子,根据它们在细胞类型内和细胞类型外的平均权重分布(图4C)。特定于细胞类型的factors应该在细胞类型内具有较高的平均权重,而在细胞类型外具有较低的平均权重,因此落在图的左上角。由于MOFA+的因子并不一定是阳性的,它们的阳性和阴性部分可能与不同的生物信息有关,作者将每个因子分成两部分,就像MOFA+的解释工具一样。此外,用特异性评分量化了每个因子的表现,也在图4C中用粗体进行了报道,并在方法部分细节中进行了定义
fig4c

  • 图4C:绘制了细胞类型内外的平均权重,分别为Mowgli(紫色)、MOFA+(红色为阴性部分,蓝色为阳性部分)和iNMF(橙色)。

如图4C所示,虽然MOFA+和iNMF倾向于将多个因子与同一细胞类型关联起来,但Mowgli经常定义因子与细胞类型之间明确的一对一关联。此外,这些因子在Mowgli中的特异性评分高于MOFA+和iNMF。其中MOFA+和iNMF似乎都聚集了来自许多因子的信息,而Mowgli更具选择性。值得注意的是,如补充图4所示,与相同细胞类型的MOFA+相关的多个因子并不一定对应于相同细胞类型的亚群。
supfig4

  • 补充图4:MOFA+的因子表达

Mowgli在TEA-seq数据中确定了相关的免疫细胞亚群

最后,作者将重点放在Mowgli在人类PBMC TEA-seq数据上确定的因子的生物学相关性上,如前一节所述。在上一节中,只考虑了粗糙的免疫细胞类型(例如B细胞、CD4 t细胞、CD8 t细胞),Mowgli可以识别出能够将这些细胞类型划分为相关亚群的多种因子,例如,Mowgli确定了将B细胞群分成两个亚群(记忆B细胞和幼稚B细胞)的因子(图5A和B)。

以同样的方式,Mowgli检测与CD8 T细胞亚群(幼稚,中枢记忆和效应记忆),单核细胞亚群(经典和非经典),树突状细胞亚群(浆细胞样细胞和传统)和自然杀伤细胞(NK)亚群(CD56dim和CD56bright)相关的因子。这些因子与特定免疫亚群的关联是基于效应记忆CD8 T细胞、幼稚B细胞、记忆B细胞和CD56dim NK细胞中排名靠前的基因和蛋白质。图5B并排显示了UMAP图,显示了因子与其相关免疫亚群的蛋白质marker活性之间的相似性。
fig5ab

  • 图5A和B:,重点关注四个特定免疫亚群(效应记忆CD8 T细胞,记忆B细胞,CD56dim NK细胞,naive B细胞)。

由于在上一节中观察到MOFA+具有较低的生物学可解释性。因此,例如用MOFA+解释与CD56bright NK细胞相关的pathway,将需要复杂地结合从不同因子获得的pathway富集。相反,在Mowgli,同样的分析可以很容易地通过观察其第13个因子的富集pathway来实现。

最后,作者研究了Mowgli可以提供的关于已确定的免疫亚群的生物学信息。在这一部分中,重点研究了与四种免疫细胞亚群相关的因子:效应记忆CD8 t细胞(因子49)、幼稚B细胞(因子33)、记忆B细胞(因子44)和CD56dim NK细胞(因子2)。对于这四个因子,作者考虑了在 H ( r n a ) , H ( a d t ) , H ( a t a c ) H^{(rna)},H^{(adt)},H^{(atac)} H(rna),H(adt),H(atac)中的相关负载,并分析了top genes,top protein,富集基因集,富集基序。图5C为结果。
fig5c

  • 图5C:图5A中显示的4个因子的top基因、top蛋白质、基因集和转录因子(tf)。星号表示与该因子和靶向top基因的tf相关的免疫亚群相关的基因集和marker。

对于效应记忆CD8 T细胞(CD8 TEM细胞),对应于因子49,Mowgli可以提取两个top基因(CRTAM和KLRK1),已知对CD8+T细胞介导的细胞毒性至关重要,两个top蛋白(CD45RO, TCR-a/b)分别是已知的记忆T细胞标记物和T细胞受体。更有趣的是,还确定了该亚群的几个转录因子TF,其中包括EOMES和TBX21(又名T-bet),已知它们对CD8 TEM发育很重要。此外,5个候选TF调控因子(TBR1、TBX21、TBX4、TBX5和MGA)靶向同一因子的3个top基因(CCL5、CRTAM和IL21R),这表明调控程序可能对CD8 TEM细胞很重要。

还有其余细胞类型的分析,这里不再叙述。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1708573.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AIGC 010-CLIP第一个文本和图像对齐的大模型!

AIGC 010-CLIP第一个文本和图像对齐的大模型! 文章目录 0 论文工作1 论文方法2 效果 0 论文工作 不客气的说CLIP和扩散模型的成功让计算式视觉领域几乎所有工作都重新做了一遍。 CLIP(对比语言-图像预训练)论文提出了一种新的对比学习方法&a…

adb获取包名和界面名

adb获取包名和界面名 mac adb shell dumpsys window windows | grep mFocusedApp windows adb shell dumpsys window windows | findstr mFocusedApp 这个是在当前手机打开哪个界面获取的就是哪个界面的包名与界面 注意第一次连接时会有提示,需要连接两次才可以 …

Java设计模式(23种设计模式 重点介绍一些常用的)

创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式,共十一种:…

SpringBoot整合SpringSecurit,实现ajax的登录、退出、权限校验

1、本文章中SpringBoot整合SpringSecurity&#xff0c;只是基于session方式&#xff0c;并且没有使用到redis。 2、登录、登出都是通过ajax的方式进行。 项目目录&#xff1a; 1、pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xm…

Leecode热题100---二分查找---搜索插入位置

题目&#xff1a; 给定一个排序数组和一个目标值&#xff0c;在数组中找到目标值&#xff0c;并返回其索引。如果目标值不存在于数组中&#xff0c;返回它将会被按顺序插入的位置。 nums 为 无重复元素 的 升序 排列数组 常规思路&#xff1a; class Solution { public:int f…

走进全球LED显示龙头艾比森,深挖逆势增长43%的数智化逻辑

在大环境不景气的情况下&#xff0c;有一家智能制造企业在2023年营收40亿&#xff0c;同比增长高达43%&#xff0c;海外营收增长约 46%&#xff0c;并且连续12年单品牌出口额第一。 这就是全球LED显示龙头艾比森。 5月9日&#xff0c;纷享销客带领近70位企业高管走进纷享销客…

设计模式 22 访问者模式 Visitor Pattern

设计模式 22 访问者模式 Visitor Pattern 1.定义 访问者模式是一种行为型设计模式&#xff0c;它允许你在不改变已有类结构的情况下&#xff0c;为一组对象添加新的操作。它将算法与对象结构分离&#xff0c;使你能够在不修改现有类的情况下&#xff0c;为这些类添加新的操作。…

922. 按奇偶排序数组 II - 力扣

1. 题目 给定一个非负整数数组 nums&#xff0c; nums 中一半整数是 奇数 &#xff0c;一半整数是 偶数 。 对数组进行排序&#xff0c;以便当 nums[i] 为奇数时&#xff0c;i 也是 奇数 &#xff1b;当 nums[i] 为偶数时&#xff0c; i 也是 偶数 。 你可以返回 任何满足上述…

大学生简历写作指南:让你的简历脱颖而出

在求职过程中&#xff0c;简历不仅是展示自己的镜子&#xff0c;更是赢得面试机会的敲门砖。本文将从简历排版、专业简历定制、内容筛选等方面&#xff0c;提供全面的指导&#xff0c;帮助打造一份既有深度又接地气的简历。 一、简历排版 1.1 根据岗位要求调整排版 准备简历…

LeetCode215数组中第K个最大元素

题目描述 给定整数数组 nums 和整数 k&#xff0c;请返回数组中第 k 个最大的元素。请注意&#xff0c;你需要找的是数组排序后的第 k 个最大的元素&#xff0c;而不是第 k 个不同的元素。你必须设计并实现时间复杂度为 O(n) 的算法解决此问题。 解析 快速排序的思想&#xff…

【机器学习】【深度学习】批量归一化(Batch Normalization)

概念简介 归一化指的是将数据缩放到一个固定范围内&#xff0c;通常是 [0, 1]&#xff0c;而标准化是使得数据符合标准正态分布。归一化的作用是使不同特征具有相同的尺度&#xff0c;从而使模型训练更加稳定和快速&#xff0c;尤其是对于使用梯度下降法的算法。而标准化的作用…

Pytorch环境配置2.0.1+ Cuda11.7

查找cuda、cudnn、Pytorch(GPU)及cuda和NVIDIA显卡驱动对应关系 查询可支持的最高cuda版本 nvidia-smi查看支持的cuda的版本 CUDA版本对应表 我的显卡驱动是Driver Version&#xff1a;535.40.&#xff0c;那么左边对应的CUDA都可以兼容 右上角为CUDA 版本&#xff0c;可以看…

OTFS系统建模、通信性能分析、信道估计、模糊函数【附MATLAB代码】

文献来源&#xff1a;​微信公众号&#xff1a;EW Frontier OTFS简介 OTFS信道估计 % Clear command window, workspace variables, and close all figures clc; clear all; close all; ​ % Define Eb values in dB EbdB -10:2:10; ​ % Convert Eb values from dB to lin…

【计算机毕业设计】基于SSM++jsp的汽车客运站管理系统【源码+lw+部署文档】

目录 第1章 绪论 1.1 课题背景 1.2 课题意义 1.3 研究内容 第2章 开发环境与技术 2.1 MYSQL数据库 2.2 JSP技术 2.3 SSM框架 第3章 系统分析 3.1 可行性分析 3.1.1 技术可行性 3.1.2 经济可行性 3.1.3 操作可行性 3.2 系统流程 3.2.1 操作流程 3.2.2 登录流程 3.2.3 删除信息流…

【iOS】didReceiveMemoryWarning实例方法

iPhone下每个App可用的内存是被限制的&#xff0c;如果一个App使用的内存超过20M&#xff0c;则系统会向该App发送Memory Warning&#xff08;内存警告&#xff09;消息&#xff0c;收到此消息后&#xff0c;App必须正确处理&#xff0c;否则可能出错或出现内存泄漏。 目录 流程…

查询DQL

016条件查询之等量关系 条件查询语法格式 select ... from... where过滤条件;等于 select empno, ename from emp where sal3000;select job, sal from emp where enameFORD;select grade, losal, hisal from salgrade where grade 1;不等于 <> 或 ! selectempno,en…

JS逆向之企名科技

文章目录 初步分析定位js编写完整代码参考文献初步分析 目标网址:企名科技 抓包分析,发现是post请求 请求代码如下: #!/usr/bin/env python3 # -*- coding: utf-8 -*- import requestsheaders = {Connection:

MySQL 数据类型和搜索引擎

文章目录 【 1. 数据类型 】1.1 数值类型1.1.1 整型1.1.2 小数1.1.3 数值类型的选择 1.2 日期和时间YEAR 年TIME 时间DATE 日期DATETIME 日期时间TIMESTAMP 时间戳日期和时间的选择 1.3 文本字符串CHAR 固定字符串、VARCHAR 可变字符串TEXT 文本ENUM 枚举SET 集合字符串类型的选…

错误提示:“由于找不到steam_api.dll,无法继续执行代码”修复方法,缺少steam_api.dll文件原因

在尝试运行某些游戏或程序时&#xff0c;用户可能会遇到一个常见的错误提示&#xff1a;“由于找不到steam_api.dll&#xff0c;无法继续执行代码”。这个错误信息表明&#xff0c;系统在启动程序或游戏时无法定位到必要的steam_api.dll文件&#xff0c;这是一个关键的动态链接…

SwiftUI初探

SwiftUI 虽然出现了好几年(1.0好像2019年出的&#xff0c;还有SPM也是同一年)&#xff0c;现在已经到从1.0到5.0&#xff0c;但受限于对系统的要求(最低iOS13.0,有的要求17.0及以上)&#xff0c;每个版本里面差异也很大&#xff0c;语法和Flutter 的Dart 比较像。空闲之余可以先…