《Nature Methods》提出scPerturb资源平台,整合44个单细胞扰动数据集(涵盖转录组、表观组、蛋白组读值),并通过能量统计量(E-statistics)量化扰动效应,旨在解决单细胞扰动数据的互操作性差、缺乏统一分析方法的问题,推动计算工具开发和实验设计优化。
引言
单细胞扰动实验通过靶向基因或蛋白的干预,解析细胞调控网络,但因数据规模化和技术差异,存在以下问题:
1. 数据异构性:不同研究的数据格式、技术(CRISPR、小分子药物等)和测序深度差异显著,跨数据集分析困难。
2. 分析方法瓶颈:
-
伪批量分析(pseudo-bulk)忽略单细胞间的异质性。
-
缺乏统计工具比较扰动效果的差异(如基因敲除与药物扰动的对比)。
3. 实验设计优化需求:现有研究对细胞数量、测序深度等参数缺乏标准化指导,导致结果可比性低。
本文目标:
-
建立scPerturb数据库,统一质控流程和注释。
-
引入E-statistics,量化扰动强度与相似性,支持跨数据集的标准化分析。
方法概述
scPerturb构建与E-statistics流程:
1. 数据整合:
-
收集44个公共数据集,涵盖CRISPR基因编辑(knockout/i/a)、药物扰动、细胞因子刺激等多技术平台。
-
统一预处理:标准化质控(过滤低质量细胞/基因)、注释扰动靶点及分子读值。
2. E-statistics分析:
-
E-距离计算:基于PCA降维后的单细胞表达谱,计算扰动组与对照组之间的分布差异。公式核心:组间距离均值 vs 组内距离均值(公式详见原文)。
-
E-test显著性检验:通过蒙特卡洛置换检验评估扰动效果的统计显著性。
3. 工具开发:提供Python(scperturb)和R(scperturbR)包,支持用户自定义分析。
数据集覆盖多样性及质量控制
本文整合的44个数据集涵盖单细胞转录组(32个)、表观(3个)、蛋白(2个)及多模态数据(9个),CRISPR技术占比72%(基因敲除/激活/干扰),药物扰动占比21%。
UMI中位数在1,000-20,000间波动,基因检出数中位为2,500-5,000。
部分数据集(如NormanWeissman2019)因双靶点CRISPRa设计,扰动信号更强。
E-距离量化扰动强度异质性
不同数据集E-距离差异显著,如NormanWeissman2019(CRISPRa双靶点)的平均E-距离最高。
其中:
-
强扰动组(如CEBPA+KLF1共敲除):UMAP中与未扰动细胞明显分离
-
弱扰动组(如TGFBR2敲除):E-距离低(<10),细胞群与对照组重叠
-
E-test验证60%扰动在P<0.05水平显著
基于E-距离的扰动功能聚类
干扰素γ信号通路案例:
在Papalexi*Satija2021数据集中,敲除IFNGR1/2、JAK2、STAT1的E-距离矩阵聚类显示高度相似性,反映其在IRF1上游的级联调控。
下游基因(如SMAD4)扰动则形成独立聚类,佐证功能模块差异
实验参数对分析结果的影响
细胞数阈值
当单扰动组细胞数<200时,E-test假阴性率显著上升;>500细胞/扰动组可稳定检测80%显著效应。
测序深度
UMI数>1,000/细胞时,E-test敏感性饱和;低深度下虽E-距离降低,但统计显著性仍保留。
参考资料
Peidli, S., Green, T.D., Shen, C. et al. scPerturb: harmonized single-cell perturbation data. Nat Methods 21, 531–540 (2024).
代码链接: https://github.com/sanderlab/scPerturb/