摘要
Metacells是从单细胞测序数据中衍生出的细胞分组,代表了高度粒度化、独特的细胞状态。在这里,我们提出了单细胞细胞状态聚合(SEACells),这是一种用于识别Metacells的算法,它克服了单细胞数据稀疏性的问题,同时保留了传统细胞聚类所隐藏的异质性。
SEACells在识别RNA和转座酶可接近染色质(ATAC)模式下的细胞状态时,优于现有算法,能够在具有离散细胞类型和连续轨迹的数据集中识别全面、紧凑且良好分离的Metacells。
我们展示了SEACells的应用,改进了基因-峰关联、计算ATAC基因分数以及推断在分化过程中关键调节因子的活性。Metacell级别的分析适用于大型数据集,并且特别适用于患者队列,在这种情况下,每个患者的聚合提供了更稳健的单位用于数据整合。我们利用我们的Metacells揭示了造血分化过程中表达动态和染色质景观的逐渐重构,并在2019冠状病毒病(COVID-19)患者队列中唯一识别与疾病发生和严重程度相关的CD4 T细胞分化和活化状态。
介绍
目前,单细胞基因组学数据的细胞分辨率与大多数分析的聚类级别分辨率存在根本性断层。为了克服这些数据的稀疏性和噪音,通常会通过一小组聚类来总结成千上万个细胞。聚类还使得分析大规模单细胞RNA测序(scRNA-seq)数据集成为可能。随着人类细胞图谱计划和人类肿瘤图谱网络等项目扩展到数百万个细胞,即使是常规的降维和可视化任务也面临着计算复杂性的挑战。稀疏性和噪音在单细胞转座酶可接近染色质测序(scATAC-seq)数据中尤其成问题,这些数据仅在任何单个细胞的数千个开放染色质区域中捕获三态杂合状态(附图1),因此聚合变得至关重要。
然而,典型的聚类并非同质的(见图1a、b)。此外,已有研究证明单细胞数据呈现连续性。例如,在红细胞前体细胞的一个聚类中对 GATA2 的表达进行分组,显示了每个分组内细胞状态的逐渐变化。GATA2 是红细胞命运的驱动因子。GATA2 的染色质开放情况显示了其表达动态是通过逐渐开放的调控元件实现的。这样的动态在离散的聚类级别分析中丢失了。
提出了metacells的概念——代表不同细胞状态的细胞组,其中metacell内的变化主要是由技术而不是生物源引起的——作为在最大化有效数据分辨率的同时保持统计效用的一种方法。Metacells比聚类更加粒度化,并且针对细胞组内的同质性进行了优化,而不是针对聚类之间的分离。然而,现有的方法在scATAC-seq数据上失败了;它们过于激进地删除异常值(尤其是对于疾病研究,常常受到罕见细胞群体的驱动,这是特别不合适的);并且在表型空间上分布不均匀。因此,metacells在单细胞分析中并不常用,scATAC-seq数据也一直被低估使用。
在这里,我们介绍了单细胞细胞状态聚合(SEACells),这是一种基于图的算法,使用核原型分析来计算metacells。我们证明了SEACells metacells能够提供对scRNA-seq细胞状态的稳健、全面的特征描述,并且成功地描述了染色质细胞状态,其分辨率能够推断基因表达底层的调控元素。我们的metacells在信号聚合和细胞分辨率之间取得了平衡,并且捕获了表型谱中的细胞状态,包括罕见状态。我们进一步展示了我们的metacells保留了样本之间的微小生物学差异,这些差异在其他方法中被批次效应移除,因此,相比于稀疏的个体细胞,它们为数据整合提供了更好的起点。SEACells提供了从scATAC-seq数据中推断基因调控的工具包,并为整合大型队列的单细胞数据提供了有效的统计方法。
结果
SEACells识别表型多样性中的元细胞
SEACells旨在将单个细胞聚合成代表不同细胞状态的metacells,以一种不考虑数据模态的方式。使用计数矩阵作为输入,它提供了每个metacell的每个细胞的权重、每个细胞对每个metacell的硬分配以及每个metacell的聚合计数作为输出。值得注意的是,我们的方法捕获了数据中细胞状态的完整谱,包括更罕见的状态。我们的SEACells基于几个关键假设:(1)单细胞分析数据可以近似为一个低维流形(表型流形);(2)观察到的细胞间变异性很大程度上是由于不完全的采样造成的;以及(3)大多数细胞可以被分配到一个有限的细胞状态集合,每个状态都由不同的活跃基因调控程序组合来描述。
SEACells利用已被证明能够忠实和稳健地捕获单细胞基因组学数据中细胞状态景观的基于图的流形学习算法。该算法首先构建表示表型流形的最近邻图。然后,它应用原型分析14,15来迭代地细化metacells。最后,它将计数聚合到一组输出metacells中。流形构建针对每种数据模态进行了定制,之后算法可以以数据类型不可知的方式进行处理(附图2)。我们使用早期人类造血过程中的CD34+细胞来演示我们的方法(图1)。我们使用最小-最大采样4进行初始化,该方法确定了一组代表性细胞状态,这些状态在表型流形上均匀分布(图1e),并且在处理密度差异方面表现出特别优异,从而确保捕获罕见状态。这些被采样的细胞是路标(每种细胞类型多个),它们在最近邻图中定义了清晰的结构;然而,细胞状态本身仍然有些模糊(图1f)。
为了细化metacells,我们采用核原型分析(图1g,扩展数据图1a和方法)。原型分析是一种强大的矩阵分解技术,已被应用于数据矩阵,以识别细胞表型空间边界上的极端细胞状态。相反,我们将原型分析应用于细胞之间的相似性核矩阵。该核将细胞投影到一个更高维的空间中,在这个空间中,仅当两个细胞共享邻居并且到共享邻居的距离相似时,它们才相似。通过这种转换施加的更严格的相似性条件将高度相似的细胞投影到小的簇中,因此边界细胞在其簇中对每个其他细胞最相似,使核空间中的原型成为每种独特细胞状态的良好代表。核原型分析因此将细胞划分为高度相似细胞的紧密簇(图1g和扩展数据图1),在细胞之间的相似性矩阵的对角线上形成紧密的区块,代表着不同的细胞状态(图1h)。
SEACells的metacells代表准确且稳健的细胞状态
我们首先在一个公开的多组学(同时scRNA-seq和ATAC-seq)数据集上评估了SEACells的性能,该数据集来自10x Genomics的外周血单个核细胞(PBMCs),这是一个研究充分、具有不同细胞群体的系统。我们发现,SEACells的metacells在RNA和ATAC数据中都是全面的,在细胞类型中分布良好,并且在细胞类型纯度方面表现出很高的度量(图2a,b和方法)。此外,RNA和ATAC metacells的相互投影表明,不同模态的metacells高度一致(附图3a,b和方法)。
Metacells有助于克服scATAC-seq数据中的稀疏性,这在该类型数据中非常严重。我们发现,每个SEACells的metacell提供了比单个细胞更完整的分子特征描述,例如,通过揭示主要细胞类型的已知标记基因的可及性。metacells的可及性和表达,但不是大多数单个细胞,可以准确区分淋巴亚型(图2c和补充图3c,d)。因此,metacells包括纯的细胞类型;它们足够粒度,可以区分细胞类型内的状态;并且可以用传统的免疫标记物来查询。
为了在轨迹设置中测试SEACells,我们收集了一个包含6800个健康骨髓中经过CD34全HSPC标记物分选的造血干细胞和祖细胞(HSPCs)的多组学数据集(方法)。与PBMCs类似,metacells在所有细胞类型中分布良好,并且跨越了RNA和ATAC表型流形(图2d)。为了确定metacell分辨率是否足以恢复在聚类中丢失的基因表达动态,我们将Palantir轨迹算法直接应用于metacells。Palantir恢复了已知的关键造血基因的表达和可及性动态(补充图4)。作为进一步的挑战,我们将Palantir应用于在ATAC模态上计算的metacells聚合RNA上(图2e和补充图4)。捕获基因趋势的准确性进一步证实了SEACells metacells在保持具有连续状态转换的系统中克服稀疏性的同时保留动态的能力。
我们使用CD34+骨髓和PBMC数据集来评估SEACells的稳健性(方法)。SEACells将细胞高度自信地分割成不同的metacells(补充图5),这些metacells在不同的初始化(补充图6a)和SEACells数量(补充图6b)下保持一致,基于归一化互信息(NMI)分数。另一个关键性能指标是捕获罕见的细胞状态。SEACells能够准确地恢复罕见的细胞类型,如PBMC RNA和ATAC模态中的浆细胞样树突状细胞(pDCs)和B细胞前体(图2a,b)。为了进一步测试SEACells识别连续轨迹中罕见中间细胞状态的能力,我们生成了一个第二个多组学数据集,代表了完整的人类造血过程的范围,并发现SEACells可以识别代表罕见中间细胞的多样低密度区域的metacells(方法和补充图7)。作为对SEACells识别罕见细胞状态能力的额外评估,我们系统地对小鼠胚胎发育图谱进行了下采样,并恢复了metacells,这些metacells仅由组成总体人口不到0.2%的细胞类型组成,证明了SEACells的敏感性。