Mowgli用于配对多组学整合

对同一组细胞的多个分子层进行分析逐渐流行。越来越需要能够联合分析这些数据的多视图学习方法。Mowgli是一种支持配对多组学数据的整合方法。值得注意的是，Mowgli将非负矩阵分解和最优传输相结合，同时提高了非负矩阵分解的聚类性能和可解释性。作者将Mowgli应用于10X Multiome，CITE-seq和TEA-seq分析的多个配对单细胞多组学数据。深入的基准测试表明，Mowgli的性能在细胞聚类方面与最先进的技术相竞争，并且在考虑生物可解释性时优于最先进的技术。

来自：Paired single-cell multi-omics data integration with Mowgli，Nature communications，2023

背景概述

单细胞测序技术提供了细胞异质性的定量测量，正在彻底改变我们对免疫系统、发育和复杂疾病的理解。单细胞测序技术的一个新前沿是多组学单细胞测序，允许同时分析来自同一个细胞的多个分子reads(例如转录组、染色质可及性、表面蛋白)。这些前沿测序技术的例子是CITE-seq，利用寡核苷酸偶联抗体同时测量RNA和表面蛋白的丰度，以及10x Genomics Multiome平台，通过基于液滴的单核分离来测量RNA和染色质的可及性。

多组学单细胞测序平台为我们提供了细胞的互补分子读数，称为配对多组学数据。对这些数据的联合分析提供了一个令人兴奋的机会来了解细胞的不同分子方面是如何协同决定细胞的功能、形态和状态的。因此，最近开发了几种多视图学习方法，通过考虑其共享和互补信息来联合分析配对的多组学数据。这些方法不同于非配对整合方法，它们利用了细胞之间的已知对应关系。最先进的单细胞多组学整合的多视图学习方法是基于矩阵分解，k近邻或变分自编码器。整合矩阵分解(Integrative Matrix Factorization, integrated MF)和变分自编码器进行降维，通过利用公共的细胞/观测，将高维多组学细胞图谱联合嵌入到共享的低维空间。Integrative MF由于其线性性质，定义了一个具有自然生物学解释的潜在空间，但它过于简单，无法捕捉复杂的生物过程。另一方面，非线性方法，如变分自编码器，在聚类细胞中显示出巨大的潜力，但尽管最近在这一主题上有研究，但它们本质上缺乏生物可解释性。因此，改进Integrative MF方法对于在可解释性和性能之间取得平衡至关重要。

作者在此提出了Multi-Omics Wasserstein inteGrative anaLysIs (Mowgli)，一种新的Integrative NMF（Non-negative MF）方法用于多组学整合。

一方面，Mowgli采用了iNMF，这种方法在计算生物学中很流行，因为它可以直观地用parts表示，增强了可解释性。另一方面，Mowgli通过利用OT（最有传输）增强了iNMF的聚类性能，之前已经证明OT可以更好地捕捉单细胞组学图谱之间的相似性。作者对Mowgli进行了广泛的基准测试，以整合使用CITE-seq、10X Genomics Multiome和TEA-seq平台分析的多个配对多组学数据。值得注意的是，虽然作者专注于整合当前可用的组学数据，但Mowgli可以处理具有任何类型和数量的组学的配对多组学数据集，而无需对数据进行任何统计假设。

深入比较表明，Mowgli的嵌入和聚类质量在真实多组学数据中优于最先进的技术，并且在更复杂的真实多组学数据中具有竞争力。值得注意的是，后者受到大多数真实数据集上缺乏绝对基础真值注释的影响。最后，通过对TEAseq数据进行深入的生物学分析，证明Mowgli在生物学可解释性方面提高了最新水平。

方法概述

Mowgli是基于集成矩阵分解(integrative Matrix Factorization, integrated MF)。开始于 $d$ 组学矩阵 $A^{(p)}\in\mathbb{R}^{m_{p}\times n}$ ，其中 $p\in[1,...,d]$ ，具有相同的列（细胞），不同的特征（genes，peaks），Mowgli将它们分解为组学特定的字典 $H^{(p)}\in\mathbb{R}^{m_{p}\times k}$ 和共享的embedding $W\in\mathbb{R}^{k\times n}$ 。 $k$ 是latent空间的维数。

根据最先进的多组学整合MF方法，细胞嵌入 $W$ 可用于可视化和细胞聚类(图1B)。相反，字典 $H^{(p)}$ 通过基因集富集分析、基序富集分析或通过识别最高权重的marker来实现生物学解释(图1C)。

Mowgli的主要创新是将非负矩阵分解(integrative Non-Negative Matrix Factorization, iNMF)与最优运输(Optimal Transport, OT)相结合，从而解决了优化问题，OT可以优化NMF的重构损失。

Mowgli是Python开发的，支持Scanpy与Muon进行预处理和下游分析，此外，Mowgli提供了一个用户友好的top基因和富集基因集的可视化，从而有助于生物解释性。

作者将Mowgli与最先进的技术进行广泛的基准测试：Seurat v4, Cobolt, Multigrate和MOFA。虽然存在几种方法，但在这里重点介绍了配对数据集成的主要方法。此外，还考虑了综合NMF基线，以比较Mowgli与标准的NMF。
fig1

图1：Mowgli概述。

关于因子
在非负矩阵分解（NMF）中，因子是指分解后的矩阵中的列向量，它们代表了数据的特征或者隐藏的主题。每个因子可以看作是原始数据中的一种模式或结构，它们的组合可以近似地重构原始数据。

已知 $H^{(p)}$ 形状为 $m_{p}\times k$ ，列代表的就是因子，指定一种特定的模式，其中的值即为该模式的表达权重（得分）。

可解释方法

基因集合富集分析
gProfiler API是通过Scanpy来使用的。作者将每个因子的150个top基因用作gProfiler的无序输入。

Motif富集分析
Signac使用JASPAR2022 Motif数据库进行Motif富集分析。为了使峰值具有可比性，作者将矩阵 $H^{(atac)}$ 的行归一化为1。每个因子的前100个峰值被用作Signac的FindMotifs的输入。各因子的峰值组合构成了背景。

结果

Mowgli通过在TEA-seq中提供细胞类型特异性因子，提高了生物学可解释性

作者根据MOFA+和integrative NMF的生物学可解释性对Mowgli进行了基准测试(见图4A)。MOFA+是领先的单细胞多组学整合工具，并提供了用户友好的生物学解释。与此同时，iNMF可被视为Mowgli的基线。
fig4ab

图4A和B

对于这个基准，作者考虑了人类PBMCs的TEA-seq数据集，对应于scRNA-seq、scATACseq和表面蛋白的配对分析。该数据集允许我们在两个以上的组学数据集上测试方法，从而考虑到更多互补的分子调控层。

首先，分别使用MOFA+、integrative NMF和Mowgli对构成TEA-seq数据的三个组学进行整合。由于数据集未提供细胞注释，作者将Mowgli、integrative NMF和MOFA+获得的嵌入分别聚类，并基于基因和蛋白质marker进行注释(见图4B)。作者用这种方法鉴定了粗粒度免疫细胞类型：CD4 T细胞、CD8 T细胞、B细胞、自然杀伤(NK)细胞、MAIT T细胞、单核细胞（Monocytes）和红细胞（Erythroid cells）。值得注意的是，使用Mowgli、iNMF和MOFA+获得的细胞类型注释的一致性为94%，并且与通过Azimuth获得的独立的基于RNA的注释相匹配(见补充图3)。因此，这三种方法都能够通过对其嵌入的聚类恢复预期的细胞类型。
supfig3

补充图3：注释一致性。

为了测试Mowgli、iNMF和MOFA+的生物学可解释性，作者评估了它们的factors与鉴定的免疫细胞类型之间关联的特异性。在此提出的基本假设是，一种可解释的方法应该提供并非在所有细胞中广泛活跃，但选择性地与细胞类型相关的因子。事实上，描述一种由多种因子组合而成的细胞类型是一项艰巨的任务。发现细胞类型特异性因子可以使相关细胞类型的生物学特性研究变得简单明了。

为了评估这种特异性，对于每种细胞类型，作者绘制了Mowgli、integrative NMF和MOFA+因子，根据它们在细胞类型内和细胞类型外的平均权重分布（图4C）。特定于细胞类型的factors应该在细胞类型内具有较高的平均权重，而在细胞类型外具有较低的平均权重，因此落在图的左上角。由于MOFA+的因子并不一定是阳性的，它们的阳性和阴性部分可能与不同的生物信息有关，作者将每个因子分成两部分，就像MOFA+的解释工具一样。此外，用特异性评分量化了每个因子的表现，也在图4C中用粗体进行了报道，并在方法部分细节中进行了定义。
fig4c

图4C：绘制了细胞类型内外的平均权重，分别为Mowgli(紫色)、MOFA+(红色为阴性部分，蓝色为阳性部分)和iNMF(橙色)。

如图4C所示，虽然MOFA+和iNMF倾向于将多个因子与同一细胞类型关联起来，但Mowgli经常定义因子与细胞类型之间明确的一对一关联。此外，这些因子在Mowgli中的特异性评分高于MOFA+和iNMF。其中MOFA+和iNMF似乎都聚集了来自许多因子的信息，而Mowgli更具选择性。值得注意的是，如补充图4所示，与相同细胞类型的MOFA+相关的多个因子并不一定对应于相同细胞类型的亚群。
supfig4

补充图4：MOFA+的因子表达

Mowgli在TEA-seq数据中确定了相关的免疫细胞亚群

最后，作者将重点放在Mowgli在人类PBMC TEA-seq数据上确定的因子的生物学相关性上，如前一节所述。在上一节中，只考虑了粗糙的免疫细胞类型(例如B细胞、CD4 t细胞、CD8 t细胞)，Mowgli可以识别出能够将这些细胞类型划分为相关亚群的多种因子，例如，Mowgli确定了将B细胞群分成两个亚群（记忆B细胞和幼稚B细胞）的因子（图5A和B）。

以同样的方式，Mowgli检测与CD8 T细胞亚群(幼稚，中枢记忆和效应记忆)，单核细胞亚群(经典和非经典)，树突状细胞亚群(浆细胞样细胞和传统)和自然杀伤细胞(NK)亚群(CD56dim和CD56bright)相关的因子。这些因子与特定免疫亚群的关联是基于效应记忆CD8 T细胞、幼稚B细胞、记忆B细胞和CD56dim NK细胞中排名靠前的基因和蛋白质。图5B并排显示了UMAP图，显示了因子与其相关免疫亚群的蛋白质marker活性之间的相似性。
fig5ab

图5A和B：，重点关注四个特定免疫亚群(效应记忆CD8 T细胞，记忆B细胞，CD56dim NK细胞，naive B细胞)。

由于在上一节中观察到MOFA+具有较低的生物学可解释性。因此，例如用MOFA+解释与CD56bright NK细胞相关的pathway，将需要复杂地结合从不同因子获得的pathway富集。相反，在Mowgli，同样的分析可以很容易地通过观察其第13个因子的富集pathway来实现。

最后，作者研究了Mowgli可以提供的关于已确定的免疫亚群的生物学信息。在这一部分中，重点研究了与四种免疫细胞亚群相关的因子：效应记忆CD8 t细胞(因子49)、幼稚B细胞(因子33)、记忆B细胞(因子44)和CD56dim NK细胞(因子2)。对于这四个因子，作者考虑了在 $H^{(rna)},H^{(adt)},H^{(atac)}$ 中的相关负载，并分析了top genes，top protein，富集基因集，富集基序。图5C为结果。
fig5c

图5C：图5A中显示的4个因子的top基因、top蛋白质、基因集和转录因子(tf)。星号表示与该因子和靶向top基因的tf相关的免疫亚群相关的基因集和marker。

对于效应记忆CD8 T细胞(CD8 TEM细胞)，对应于因子49，Mowgli可以提取两个top基因(CRTAM和KLRK1)，已知对CD8+T细胞介导的细胞毒性至关重要，两个top蛋白(CD45RO, TCR-a/b)分别是已知的记忆T细胞标记物和T细胞受体。更有趣的是，还确定了该亚群的几个转录因子TF，其中包括EOMES和TBX21(又名T-bet)，已知它们对CD8 TEM发育很重要。此外，5个候选TF调控因子(TBR1、TBX21、TBX4、TBX5和MGA)靶向同一因子的3个top基因(CCL5、CRTAM和IL21R)，这表明调控程序可能对CD8 TEM细胞很重要。

还有其余细胞类型的分析，这里不再叙述。