单细胞代谢组学数据分析利器---SCMeTA

news2026/2/14 11:56:33

今天继续进行新的分享，为了支持单细胞代谢研究的严谨性和可重复性 ，今天分享基于时间序列的单细胞代谢数据分析处理工作流程，名为 SCMeTA。它保留了可扩展的接口和插件系统，以适应来自各种仪器的数据。对从 QE-Orbitrap MS 获取的单细胞数据进行分析，同时通过应用程序编程接口 （API） 和插件保留可扩展性，以适应其他仪器的数据。SCMeTA 文库包含用于数据导入、预处理、单细胞数据筛选、代谢物筛选和可视化的模块，每个模块都专门针对单细胞代谢数据进行了优化。SCMeTA 在改进单细胞代谢分析的应用方面具有重要的实用价值，也为未来更大规模的单细胞代谢组学研究奠定了基础。
SCMeTA提供了一种高度相互依赖的数据管理方法。它使用面向对象的编程语言 Python 开发，在各种功能中进行优化封装，实现模块化和可扩展的软件开发。该库能够处理不同质谱制造商在各种平台 （Linux/macOS/Windows）上生成的单细胞数据，并能够直接导入 Thermo RAW、Waters WIFF 以及其他格式。基于 numpy 和 pandas 库构建的 SCMeTA 处理方法显著提高了数据处理速度。与基于 MATLAB 的方法相比，SCMeTA 的处理速度提高了 20 倍。同时，SCMeTA 也可以在 MATLAB、Docker 容器中调用，或直接在网页的 Jupyter Notebook 中调用。处理完成后，SCMeTA 还提供一系列下游分析工具，可以导出单细胞代谢的常见可分析基质数据。

在这里插入图片描述

数据分析流程

1.数据
SCMeTA 通过提供各种数据导入策略来适应单细胞代谢检测方法和供应商数据格式的多样性，包括用于分布在多个文件中的数据的聚类方法和在单个文件中存储大量细胞的集中方法。通过使用 Python 到 .NET 集成库，SCMeTA 支持跨不同操作系统（Windows/macOS/Linux）和多个仪器制造商（包括 Thermo、Waters 和其他格式）快速导入数据。Cells 数据存储在名为 SCData 的特殊设计数据容器内的综合 DataFrame 中。SCData 用于将单细胞代谢数据和原始数据存储在 SCMeTA 中。SCData 包含原始数据和以多列 DataFrame 形式存储的预处理数据，包括解析的细胞保留时间（扫描位置）和单细胞代谢矩阵：其中行代表代谢特征，列代表细胞。SCData 还包括一系列预处理方法，包括质谱数据偏移校正、数据分割等。

数据前处理
从单细胞样本中收集的数据往往非常珍贵。为了提高单细胞数据的利用率，为导入的原始数据提供了一系列预处理技术，包括数据切片（“割裂”）和光谱漂移（“偏移”）作为纠正措施。这些程序能够在指定的时间范围内有效提取细胞数据，并调整光谱质量轴偏差。在质谱分析中，分辨率是评估分析仪器性能的关键参数，影响我们能否准确确定代谢物的组成。为了保持可靠的质谱检测分辨率，必须实施称为“过滤器出现次数”的数据处理功能。此功能通过在可靠分析分离度的阈值内合并相邻峰来整合质荷比（m/z）。该过程涉及根据预定义的质量间隔聚合所有 m/z 值及其相应的离子强度，从而有效简化分散数据点，并最大限度地减少由重叠峰引起的信号冗余。我们通常使用 0.01 的分辨率来匹配高分辨率质谱仪，例如 Orbitrap QE，并过滤掉出现 <10 次的信号峰。因此，通过这种整合得到的整合数据集更清楚地反映了样品的真实代谢物谱，并与仪器固有的高分辨率功能。

3.降噪
由于小分子代谢物在生物活性中的持续波动，在测量单细胞代谢物数据时，不同的方法可能导致测量结果噪声出现偏差，这通常会对细胞检测结果产生不利影响。传统的噪声减法可能会显著扭曲单个单元的精度。因此，我们开发了一种专门针对单细胞数据的独特噪声提取算法，该算法清楚地分析每个细胞周围的噪声，而不是使用总噪声作为细胞的匹配噪声，以更好地恢复单细胞的代谢物信息。首先，通过三倍信噪比法提取细胞中有效检测信息的列表，然后对数据中的每个细胞进行特定的噪声扣除。

4.代谢物过滤
基于质谱测量的代谢组学的典型读数是一个大矩阵，其中包含检测到的质荷比（m/z）特征及其丰度。然而，在解析质荷比的质谱时，大量数据经常被不显著的峰淹没。为了有效地识别和解释单一的细胞特征代谢物，我们构思了一种基于代谢物出现在所有细胞中的频率的代谢物过滤功能。此功能根据细胞数量和质谱信号的出现频率，对大量（超过10000个）质荷比信号进行过滤，因此产生更准确反映所检查细胞状态的可靠代谢物。在我们的函数中，将阈值设置为 10%–20% 可以更有效地过滤掉背景信号和噪声峰值。

5.规范化和标准化
归一化的主要目的是最大程度地减少样品之间的测量变化，以实现离散 SCM 数据之间的一致性和可比性。关于批量测量单细胞数据的倾向，需要缓和批次效应破坏以保持数据的连贯性和可靠性。因此，我们提供了一系列常见的规范化方法，可在规范化过程中调用。选择合适的归一化方法可有效缓解穿插批次效应，为后续数据分析的可靠性奠定坚实的基础。

6.下游统计分析
SCMeTA 中包含基于 Matplotlib 的可视化模块，用于 SCM 分析。这种视觉呈现，尤其是在降维方面，在交流和解释结果方面非常有效，尤其是在处理复杂的生物数据时。SCMeTA 集成了单元数据的降维可视化，包括 Kernel-PCA、t-SNE、UMAP 等方法，这些方法对非线性数据显示出出色的降维结果。可视化模块还包括一套用于单细胞内部变异性代谢物分析的模块，如热图、火山图和箱形图。这些图形功能有助于快速有效地识别实验组内的特征代谢数据。SCM 数据的峰鉴定是单细胞代谢组学的关键步骤，构成了代谢组学研究的基础。峰鉴定的准确性直接影响后续数据分析的质量。SCMeTA 具有内置的本地 HMDB 代谢物鉴定系统，可快速有效地确定与初级质谱的代谢物信息相对应的准确质量数。

代码实现


####Python安装scmeta
pip install scmeta
from SCMeTA import Process
sc = Process()
# Load data
sc.load("data/example.RAW")
# Data process
sc.pre_process()
sc.process()
sc.post_process()