SEACells:元细胞分析

news2024/11/16 3:20:36

元细胞是从单细胞测序数据中衍生的细胞分组,代表高度精细的不同细胞状态。在这里,作者介绍了单细胞细胞状态聚集 (SEACells),这是一种用于识别元细胞的算法,它克服了单细胞数据的稀疏性,同时保留了传统细胞聚类所掩盖的异质性。SEACells 在识别 RNA 和ATAC模态分析中的全面、紧凑且分离良好的元细胞表现上优于现有算法,作者展示了如何使用 SEACells 来改善gene-peak关联、计算 ATAC 基因分数并推断分化过程中关键regulators的活动。元细胞级分析可扩展到大型数据集。作者利用元细胞揭示造血分化过程中染色质景观的表达动态,并唯一地识别与 2019 年冠状病毒病 (COVID-19) 患者群体中的疾病发作和严重程度相关的 CD4 T 细胞分化和活化状态。

来自:SEACells infers transcriptional and epigenomic cellular states from single-cell genomics data

目录

  • 方法概述
  • 实验
    • SEACells元细胞代表准确和稳健的细胞状态
    • SEACell促进的调控推断
  • 方法
    • SEACells
    • Toolkit for ATAC
      • Peak calling
      • Peak-gene关联和gene score
      • 推断TF活性

方法概述

SEACells 力图将单个细胞聚合成代表不同细胞状态的元细胞,这种方式与数据模态无关。使用计数矩阵作为输入,它为每个元细胞提供每个细胞的权重、每个元细胞的硬分配以及每个元细胞的聚合计数作为输出。SEACells可以捕获数据中的全部细胞状态,包括较罕见的状态。基于几个关键假设建立了 SEACells:(1) 单细胞分析数据可以用低维流形(表型流形)来近似;(2) 观察到的细胞间变异性大部分是由于采样不完整造成的;(3) 大多数细胞可以分配到一组有限的细胞状态,每个状态都以不同的活性基因调控程序组合为特征。

SEACells 利用基于图的流形学习算法,该算法已被证明能够忠实而稳健地捕捉单细胞基因组数据中的细胞状态图。该算法首先构建一个表示表型流形的最近邻图。然后,它应用原型分析迭代细化元细胞。最后,它将计数聚合到一组输出元细胞中。流形构造针对每种数据模态定制,之后算法可以以与数据类型无关的方式进行。作者使用来自早期人类造血的 CD34+ 细胞来演示方法(图 1)。使用最小-最大采样进行初始化,它识别出一组均匀分布在表型流形中的代表性细胞状态(图 1e),并且特别擅长处理密度差异,从而确保捕获稀有状态。这些采样细胞是waypoints(每种细胞类型有多个),它们在邻居图中定义清晰的结构;然而,细胞状态本身仍然有些分散(图 1f)。

为了细化元细胞,作者采用了核原型分析-kernel archetypal analysis(图 1g)。原型分析-archetypal analysis是一种稳健的矩阵分解技术,已应用于数据矩阵,以识别细胞表型空间边界处的极端细胞状态。相反,作者将原型分析应用于细胞间相似性核矩阵。该核将细胞投影到更高维空间中,其中两个细胞只有当它们共享邻居并且与共享邻居的距离相似时才相似。这种转换所施加的更严格的相似性条件将高度相似的细胞投射到微小的簇中,使得核空间中的原型成为每个独特细胞状态的良好代表。因此,核原型分析将细胞划分为高度相似的细胞的紧密簇(图 1g),沿细胞-细胞相似性矩阵的对角线赋予紧密的块,这些块代表不同的细胞状态(图 1h)。
fig1

  • 图1:a,6,800 个 CD34+ 分类的造血干细胞和祖细胞 (HSPC) 的 scRNA-seq UMAP。细胞按簇着色。b,每个簇的轮廓图突出显示密度并表明每个簇内存在多种细胞状态。插图:基因-基因协方差矩阵显示每个状态包含多个不同的基因表达程序。c,左:UMAP 表示 MEP(巨核细胞-红细胞祖细胞)簇。右:当 MEP 簇根据发育进程分为三个大小相等的箱体时(顶部,G1 到 G3),它反映了 GATA2(已知的 MEP 谱系驱动因素)的推断表达(底部)。d,覆盖图显示所有 MEP(顶部)、单个 MEP 细胞(底部)和 c 中的三个箱体中的 GATA2 可访问性。右:相应细胞中的 GATA2 表达。突出显示的峰值展示了可访问性动态如何跟踪表达动态。有关动态的信息在簇级别被掩盖,而单个细胞中的峰值识别太嘈杂。e,UMAP 与 a 中的一样,按细胞类型着色。用于元细胞识别的 SEACells 算法由waypoints(大红色圆圈)初始化,waypoints是采样以均匀覆盖表型景观的细胞子集。f,使用自适应高斯核计算的细胞间亲和力矩阵。g,核原型分析示意图。核矩阵分解为原型矩阵 B 和嵌入矩阵 A。根据矩阵 A 上的逐列最大值来识别元细胞成员资格。插图:核原型分析将细胞划分为高度相似的细胞簇,使其非常适合识别稳健的细胞状态。h,左:来自 f 的细胞-细胞亲和力矩阵,但按元细胞分配排序(到这里,体现出用于发现罕见簇的潜力)。右:覆盖来自 e 的 UMAP 的轮廓图,突出显示元细胞的分布;细胞和轮廓通过元细胞分配来着色。

实验

SEACells元细胞代表准确和稳健的细胞状态

作者首先在 10x Genomics 的外周血单核细胞 (PBMC) 公共多组学 (同时进行 scRNA-seq 和 ATAC-seq) 数据集上评估了 SEACells 的性能,这是一个经过充分研究的系统,具有不同的细胞群体。可以发现 SEACells 元细胞全面,在细胞类型中分布良好 (图 2a、b)。

元细胞有助于克服稀疏性,数据稀疏性在 scATAC-seq 中非常严重。作者发现每个 SEACells 元细胞都比单个细胞提供了更完整的分子表征——例如,通过揭示主要细胞类型已知marker基因的可及性。元细胞(但不是大多数单个细胞)的可及性和表达可以准确区分淋巴亚群(图 2c )。因此,元细胞的粒度足以区分细胞类型内的状态;并且可以使用经典免疫marker进行查询。
fig2

  • 图2:a、(i) 使用 RNA 数据得出的 10x Genomics 多组学数据集中人类 PBMCs 的 UMAP,突出显示细胞类型和 SEACells 元细胞。(ii) RNA 模态下每种细胞类型的元细胞分布。(iii) 细胞类型纯度分布(每种元细胞中最具代表性的细胞类型的频率)。高纯度代表更准确的元细胞。b、与 a 中一样,使用来自多组学数据集的 ATAC 数据得出人类 PBMCs 的 UMAP、元细胞和细胞类型纯度分布。c、CD4 和 CD8A 的元细胞可及性 (i) 和表达 (iii) 准确区分 CD8(绿色)和 CD4(橙色)T 细胞。TYROBP 和 CD8A 的元细胞可及性 (ii) 和表达 (iv) 区分 NK(棕色)和 CD8(绿色)T 细胞。插图:相应的单细胞可及性太稀疏,无法实现相同的区分。

元细胞的意义:获得一个新的细胞数据,这个数据不稀疏,并且保留了原有的异质性


SEACell促进的调控推断

可以通过识别 ATAC-seq 读取计数峰值内的假定转录因子 (TF) 结合基序来推断基因调控,这些基序代表开放或可访问的染色质区域。scATAC-seq 提供了许多观测结果(细胞),能以精细分辨率推断更复杂的基因调控模型,但数据稀疏性严重限制了其实用性。SEACells 元细胞能克服稀疏性,从而实现各种基因调控推断任务。

典型的 SEACells 元细胞包含 120 万个读数,与单个细胞中的 25,000 个读数相比有显著改善,但仍远少于典型bulk样本中的 5000 万个读数。为了提高 ATAC 峰值调用中的信噪比,作者利用了 ATAC-seq 片段长度分布(一种表示方式),其中第一和第二模式分别代表无核小体 (NFR) 片段(可能富含 TF 结合事件)和核小体。

调控推断的下一个任务是将每个基因与调控它的元素关联起来。跨细胞的可及性和表达之间的相关性已被用于预测scRNA-seq 和 scATAC-seq 中调控每个基因的峰集,但数据稀疏阻碍了单细胞水平上的稳健性。使用来自 CD34+ 骨髓 ATAC 数据中的 SEACells 元细胞,作者计算了核心造血基因集中每个基因 ±100 kb 范围内每个 NFR 峰的基因表达与可及性之间的相关性 。使用 ATAC 元细胞的最相关峰的可及性跟踪基因表达,与单细胞数据相比有了显着改善(图 3a)。例如,关键的红系谱系调节剂TAL1的峰值可及性与元细胞中表达之间的相关性为0.82,而在单细胞水平上的相关性为0.03(图3a)。

对于关键的红细胞因子 GATA2,单细胞数据仅恢复了使用元细胞检测到的 11 个关联中的2个(图 3b)。为了系统地探索预测的peak-gene关联的准确性,作者通过汇总所有显着相关峰的可访问性并将其与基因表达进行比较来计算基因得分。SEACells 基因得分的相关性明显优于使用所有相关峰的汇总得出的得分。因此,SEACells 元细胞清楚地识别了与表达显着相关并可能调节相应基因的顺式调控元件。
fig3ab

  • 图3a:ATAC 元细胞(顶部)或单细胞(底部)基因表达与 TAL1(红细胞)、MPO(髓系)和 IRF(树突状细胞)marker基因中最相关峰的可及性之间的 Spearman 相关性,基于 CD34 多组学数据计算。每个元细胞和单细胞根据细胞类型着色。注意:不同模态也可以计算Spearman 相关性(用于衡量两者的单调性)。
  • 图3b:使用 NFR(顶部)或所有 ATAC(底部)片段绘制 HSC、MEP 和红细胞 (Ery) 中的红细胞因子 GATA2 的可及性景观。将染色质可及性分析限制在 NFR 片段可提高峰值分辨率和调节元件与基因的关联。弧线由峰值-基因 Spearman 相关性着色(右侧颜色值介于 0 和 1 之间),使用 SEACells ATAC 元细胞确定。

准确推断peak-gene关联可以促进将ATAC数据转换为gene score。


方法

SEACells

SEACells 是一种从单细胞数据定义元细胞的算法。SEACells 算法假设生物系统由明确定义且有限的细胞状态集组成。观察到的单细胞数据被认为是这些细胞状态的稀疏且嘈杂的测量值(当前最先进的单细胞测量技术只能捕获 <10% 的转录本或 <5% 的开放染色质区域)。尽管噪声程度很高,但由于定义细胞状态的基因表达模式和调控机制,从相同状态中采样的细胞被认为具有密切相关的表型。SEACells 旨在将密切相关的细胞聚集到代表它们的元细胞中,从而克服单细胞数据的稀疏性。此外,由于稀疏性,scATAC-seq 数据的实用性特别有限。SEACells 元细胞还提供了一种可扩展的表示,可以有效处理大规模单细胞数据。尽管聚类被广泛用于克服稀疏性,但聚类掩盖了数据中存在的大量异质性。SEACells 元细胞实现了保留异质性同时克​​服单细胞数据稀疏性。

SEACells 的输入包括 (1) 原始计数矩阵(例如,RNA 的转录本计数、ATAC 的peak或bins计数);(2) 使用模态适当的预处理(例如 RNA 的主成分分析 PCA)得出的数据的低维表示;以及 (3) 要识别的元细胞数量。作为下游分析的输出,SEACells 生成代表元细胞的细胞分组、聚合的元细胞计数矩阵和代表高度相关细胞组的软分配。该算法可在 https://github.com/dpeerlab/SEACells 免费获取。

SEACells大致包含5个步骤:

  • 使用在低维嵌入空间中计算的细胞之间的欧几里得距离构建KNN图,以表示表型流形(phenotypic manifold)
  • 使用最近邻图导出细胞间相似性的亲和矩阵。使用自适应高斯核将graph中的距离转换为相似性,以解释表型流形中的细胞密度差异。亲和矩阵或核矩阵编码细胞之间的非线性关系
  • 使用核矩阵作为原型分析的输入(图1g)。虽然原型分析通常应用于数据矩阵,但作者将其应用于核矩阵,该核矩阵将细胞划分为高度相似的细胞簇,并能够表征整个表型流形,使其非常适合识别稳健的细胞状态。原型分析将数据分解为原型矩阵,原型矩阵包括代表表型流形上细胞状态的细胞线性组合,以及将单个细胞重构为原型线性组合的隶属度矩阵(图1g)。该方法对数据进行分区,使细胞-细胞相似性矩阵沿对角线具有紧密的块结构;每个分区是一组最能代表细胞状态并定义一个metacell的cells。元细胞的数量被指定为原型分析的输入
  • 将通过原型分析确定的分组标记为SEACells元细胞,并相应地汇总单个细胞原始计数,以导出metacell-by-feature矩阵
  • 归一化计数矩阵,可用于所有下游分析任务,如聚类、可视化、数据整合、轨迹推断和基于ATAC-seq的调控推理

Toolkit for ATAC

目前已经开发出大量强大的工具来解释来自bulk ATAC-seq 数据的开放染色质数据。然而,由于稀疏性,它们不能直接应用于单细胞数据。SEACells 元细胞是紧密相关细胞的聚集体,因此在忠实保留数据的异质性和结构的同时,稀疏性大大降低。在这里,作者描述了一个适用于 scATAC-seq 数据的强大工具包,该工具包改编自bulk数据分析工具。

Peak calling

使用ArchR执行。ArchR首先对单细胞数据进行聚类,并使用MACS2 peak caller分别识别每个簇的峰值。然后将每个峰的大小调整为500个碱基,峰顶位于中心,并合并跨不同簇的重叠峰。合并的峰值再次调整为500个碱基。

ATAC-seq数据提供了跨越TF结合区域和非抑制区域核小体的开放染色质区域的概况。ATAC-seq数据的片段大小分布包含反映该信息多样性的特征模式。因为第一种模式代表NFR,作者修改了ArchR管道,只使用NFR片段(片段长度< 147)来识别峰值,而不是使用所有片段的默认值。这种变化导致对调控元件的识别更加敏感。

Peak-gene关联和gene score

尽管NFR片段的使用提高了被称为峰的灵敏度,但并非所有被识别的峰都代表调节基因表达的TF结合事件。已有研究提出利用整合ATAC和RNA数据的峰可达性与基因表达的相关性来识别可能调控基因表达的峰。SEACells元细胞为计算这些关联提供了理想的分辨率,当使用稀疏的单细胞数据计算时,这些关联是不可靠的。作者使用ATAC模态鉴定的元细胞来构建峰基因关联。

作者采用Ma等人的程序来确定显著的峰-基因关联(Chromatin potential identified by shared single-cell profiling of RNA and chromatin)。对于每个基因,使用归一化的元细胞表达和归一化的ATAC可及性,计算基因上游100kb和下游100kb内的每个峰值的Pearson相关性。为了评估峰-基因相关性的重要性,采样了100个峰的经验背景,这些峰与GC含量和所考虑的峰的可及性相匹配。根据气相色谱含量和样品经验背景可及性,将各峰分别分成100个bins。任何名义 P < 1 × 1 0 − 1 P < 1 × 10^{−1} P<1×101的峰都被认为是显著的峰-基因关联。使用NFR片段鉴定的峰用于本分析。与基因相关的所有峰的总可达性用于确定元细胞基因评分。

推断TF活性

为了利用峰基因关联,作者提供了一种简单的基因调控网络(GRN)方法来推断TF活性,用于识别与不同细胞类型相关的关键TF。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1793583.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安防综合管理系统EasyCVR视频汇聚平台GA/T 1400协议中的关键消息交互示例

在当今的信息化时代&#xff0c;公共安全防范日益成为保障社会和谐稳定的关键。视频监控系统作为现代安全防范的重要手段&#xff0c;正不断在公安、交通、城市管理等领域发挥着越来越重要的作用。而GA/T 1400协议视图库&#xff0c;作为公安视频图像信息应用系统的标准&#x…

【前端面试3+1】18 vue2和vue3父传子通信的差别、props传递的数据在子组件是否可以修改、如何往window上添加自定义属性、【多数元素】

一、vue2和vue3父传子通信的差别 1、Vue2 父组件向子组件传递数据通常通过props属性来实现。父组件可以在子组件的标签中使用v-bind指令将数据传递给子组件的props属性。在子组件中&#xff0c;可以通过props属性来接收这些数据。这种方式是一种单向数据流的方式&#xff0c;父…

SpringBoot配置Mysql+达梦双数据源

背景&#xff1a; 因项目需求&#xff0c;需使用Mysql达梦双数据源 涉及技术栈&#xff1a; SpringBoot、Druid、Mybatis、Mysql、达梦 一、引入pom依赖&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://mave…

视频汇聚EasyCVR安防监控系统GA/T 1400协议视图库对接:技术实现与应用

随着信息技术的不断发展&#xff0c;各类协议标准在各个领域得到了广泛应用。GA/T1400协议作为公安视频监控系统中的一种重要标准&#xff0c;对于提升公安工作的信息化水平、加强社会治安防控具有重要意义。本文将重点探讨GA/T1400协议视图库对接的技术实现及应用价值。 一、…

语音深度鉴伪识别项目实战:基于深度学习的语音深度鉴伪识别算法模型(三)音频去噪算法大全+Python源码应用

前言 深度学习技术在当今技术市场上面尚有余力和开发空间的&#xff0c;主流落地领域主要有&#xff1a;视觉&#xff0c;听觉&#xff0c;AIGC这三大板块。 目前视觉板块的框架和主流技术在我上一篇基于Yolov7-LPRNet的动态车牌目标识别算法模型已有较为详细的解说。与AIGC相…

1104 天长地久(测试点1,2,3)

solution 测试点3超时&#xff1a;直接暴力搜超时。m和m1的最大公约数一定是1&#xff0c;则A的个位一定是9才有可能gcd(m, m1)大于1&#xff0c;步长变为10。测试点1&#xff0c;3&#xff1a;m和n的最大公约数是大于2的素数测试点2&#xff1a;按照n从小到大排序&#xff0c…

【spring】第一篇 IOC和DI入门案例

Spring到底是如何来实现IOC和DI的&#xff0c;那接下来就通过一些简单的入门案例&#xff0c;来演示下具体实现过程。 目录 前期准备 一、IOC入门案例 思路分析 代码实现 二、DI入门案例 思路分析 代码实现 总结 前期准备 使用IDEA创建Maven项目&#xff0c;首先需要配…

STM32 SPI驱动读取LSM6DSRTR

提示&#xff1a;通过SPI驱动读取传感器数据 文章目录 前言一、LSM6DSRTR二、配置步骤1.配置SPI2.引入 LSM驱动库3.结果 总结 前言 制作一个倾角传感器&#xff0c;通过SPI读取LSM6DSRTR的加速度数据转换为角度&#xff0c;不用IIC的原因是考虑IIC通讯的协议过于繁琐&#xff…

软件测试报告实际案例模板(项目测试文档doc原件)

软件测试报告在软件开发过程中起着至关重要的作用&#xff0c;主要有以下几个主要原因&#xff1a; 1、确保软件质量 2、提供决策支持 3、记录测试过程和结果 4、促进沟通和协作 5、符合标准和法规要求 6、改进测试流程和策略 7、降低风险 软件开发全套资料获取进主页或者本文末…

vue3使用vue3-print-nb打印

打印效果 1.下载插件 Vue2.0版本安装方法 npm install vue-print-nb --saveVue3.0版本安装方法&#xff1a; npm install vue3-print-nb --save2.main.js引入 vue2引入 import Print from vue-print-nb Vue.use(Print)vue3引入 import print from vue3-print-nb // 打印…

如何组织基于Sqlalchemy的项目

在使用 SQLAlchemy 构建项目时&#xff0c;可以遵循一些常用的组织结构和最佳实践&#xff0c;以确保项目清晰、易于维护。下面就是我在构建项目时遇到的一些问题&#xff0c;并做了详细的记录&#xff0c;为了方便大家学习少走一些弯路。 1、问题背景 在基于Sqlalchemy的项目…

超过600万用户的专业且强悍的数据恢复软件

一、简介 1、是一款由苏州开心盒子软件有限公司研发的专业数据恢复软件&#xff0c;旨在帮助用户解决各种数据丢失问题。它支持多种数据恢复场景&#xff0c;包括但不限于误删除文件恢复、回收站清空文件恢复、U盘、硬盘、SD卡等各类存储设备数据恢复。 二、下载 1、下载地址&a…

【漏洞复现】SpringBlade tenant/list SQL 注入漏洞

0x01 产品简介 SpringBlade ,是一个由商业级项目升级优化而来的 SpringCloud 分布式微服务架构、SpingBoot 单体式微服务架构并存的综合型项目。 0x02 漏洞概述 SpringBlade 后台框架 /api/blade-system/tenantist路径存在SQL注入漏洞&#xff0c;攻击者除了可以利用 SQL 注…

【计算机毕业设计】353微信小程序零食批发交易管理系统

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

如何通过防中毒U盘,实现网络隔离下高密文件传输的安全性?

随着网络安全和数据安全的重视程度增加&#xff0c;越来越多的企业在网络建设时进行了网络隔离&#xff0c;通过网闸、防火墙、VLAN隔离等方式&#xff0c;隔离成内外网&#xff0c;甚至更多细分的网络。但原有的文件和数据传输需求&#xff0c;并不会因为网络的隔离而消失&…

Java大厂面试题第2季

一、本课程前提要求和说明 面试题1&#xff1a; 面试题2&#xff1a; 面试题3&#xff1a; 面试题4&#xff1a; 面试题5&#xff1a; 高频最多的常见笔试面试题目 ArrayList HashMap 底层是什么东东 JVM/GC 多线程与高并发 java集合类

1808java教材交易管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java教材交易管理系统 是一套完善的web设计系统&#xff0c;对理解JSP java编程开发语言有帮助采用了java设计&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统采用web模式&#xff0c;系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发&…

买卖股票的各种最佳时机问题

买卖股票的最佳时机 分析 根据题意可知&#xff0c;我们只需要找出来一个最小价格的股票和一个最大价格的股票&#xff0c;并且最小价格的股票出现在最大价格的股票之前。 如果尝试使用暴力解法&#xff0c;时间复杂度为O(N^2)&#xff0c;对于题目中给的长度&#xff0c;显然…

[数据集][目标检测]电力工地场景下的人头检测数据集VOC+YOLO格式7035张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;7035 标注数量(xml文件个数)&#xff1a;7035 标注数量(txt文件个数)&#xff1a;7035 标注…

(打印表格)编写程序,显示以下表格:

public class HelloWorld {public static void main(String []args) {System.out.println("a a^2 a^3");int i;for(i0;i<4;i){int j1;System.out.println(j j*j j*j*j);j;}} } 运行结果&#xff1a;