单细胞代谢组学数据分析利器---SCMeTA

news2024/9/20 3:23:39
今天继续进行新的分享,为了支持单细胞代谢研究的严谨性和可重复性 ,今天分享基于时间序列的单细胞代谢数据分析处理工作流程,名为 SCMeTA。它保留了可扩展的接口和插件系统,以适应来自各种仪器的数据。对从 QE-Orbitrap MS 获取的单细胞数据进行分析,同时通过应用程序编程接口 (API) 和插件保留可扩展性,以适应其他仪器的数据。SCMeTA 文库包含用于数据导入、预处理、单细胞数据筛选、代谢物筛选和可视化的模块,每个模块都专门针对单细胞代谢数据进行了优化。SCMeTA 在改进单细胞代谢分析的应用方面具有重要的实用价值,也为未来更大规模的单细胞代谢组学研究奠定了基础。
SCMeTA提供了一种高度相互依赖的数据管理方法。它使用面向对象的编程语言 Python 开发,在各种功能中进行优化封装,实现模块化和可扩展的软件开发。该库能够处理不同质谱制造商在各种平台 (Linux/macOS/Windows)上生成的单细胞数据,并能够直接导入 Thermo RAW、Waters WIFF 以及其他格式。基于 numpy 和 pandas 库构建的 SCMeTA 处理方法显著提高了数据处理速度。与基于 MATLAB 的方法相比,SCMeTA 的处理速度提高了 20 倍。同时,SCMeTA 也可以在 MATLAB、Docker 容器中调用,或直接在网页的 Jupyter Notebook 中调用。处理完成后,SCMeTA 还提供一系列下游分析工具,可以导出单细胞代谢的常见可分析基质数据。

在这里插入图片描述

数据分析流程

1.数据
SCMeTA 通过提供各种数据导入策略来适应单细胞代谢检测方法和供应商数据格式的多样性,包括用于分布在多个文件中的数据的聚类方法和在单个文件中存储大量细胞的集中方法。通过使用 Python 到 .NET 集成库,SCMeTA 支持跨不同操作系统 (Windows/macOS/Linux) 和多个仪器制造商(包括 Thermo、Waters 和其他格式)快速导入数据。Cells 数据存储在名为 SCData 的特殊设计数据容器内的综合 DataFrame 中。SCData 用于将单细胞代谢数据和原始数据存储在 SCMeTA 中。SCData 包含原始数据和以多列 DataFrame 形式存储的预处理数据,包括解析的细胞保留时间(扫描位置)和单细胞代谢矩阵:其中行代表代谢特征,列代表细胞。SCData 还包括一系列预处理方法,包括质谱数据偏移校正、数据分割等。

  1. 数据前处理
    从单细胞样本中收集的数据往往非常珍贵。为了提高单细胞数据的利用率,为导入的原始数据提供了一系列预处理技术,包括数据切片(“割裂”)和光谱漂移(“偏移”)作为纠正措施。这些程序能够在指定的时间范围内有效提取细胞数据,并调整光谱质量轴偏差。在质谱分析中,分辨率是评估分析仪器性能的关键参数,影响我们能否准确确定代谢物的组成。为了保持可靠的质谱检测分辨率,必须实施称为“过滤器出现次数”的数据处理功能。此功能通过在可靠分析分离度的阈值内合并相邻峰来整合质荷比 (m/z)。该过程涉及根据预定义的质量间隔聚合所有 m/z 值及其相应的离子强度,从而有效简化分散数据点,并最大限度地减少由重叠峰引起的信号冗余。我们通常使用 0.01 的分辨率来匹配高分辨率质谱仪,例如 Orbitrap QE,并过滤掉出现 <10 次的信号峰。因此,通过这种整合得到的整合数据集更清楚地反映了样品的真实代谢物谱,并与仪器固有的高分辨率功能。

3.降噪
由于小分子代谢物在生物活性中的持续波动,在测量单细胞代谢物数据时,不同的方法可能导致测量结果噪声出现偏差,这通常会对细胞检测结果产生不利影响。传统的噪声减法可能会显著扭曲单个单元的精度。因此,我们开发了一种专门针对单细胞数据的独特噪声提取算法,该算法清楚地分析每个细胞周围的噪声,而不是使用总噪声作为细胞的匹配噪声,以更好地恢复单细胞的代谢物信息。首先,通过三倍信噪比法提取细胞中有效检测信息的列表,然后对数据中的每个细胞进行特定的噪声扣除。

4.代谢物过滤
基于质谱测量的代谢组学的典型读数是一个大矩阵,其中包含检测到的质荷比 (m/z) 特征及其丰度。然而,在解析质荷比的质谱时,大量数据经常被不显著的峰淹没。为了有效地识别和解释单一的细胞特征代谢物,我们构思了一种基于代谢物出现在所有细胞中的频率的代谢物过滤功能。此功能根据细胞数量和质谱信号的出现频率,对大量(超过10000个)质荷比信号进行过滤,因此产生更准确反映所检查细胞状态的可靠代谢物。在我们的函数中,将阈值设置为 10%–20% 可以更有效地过滤掉背景信号和噪声峰值。

5.规范化和标准化
归一化的主要目的是最大程度地减少样品之间的测量变化,以实现离散 SCM 数据之间的一致性和可比性。关于批量测量单细胞数据的倾向,需要缓和批次效应破坏以保持数据的连贯性和可靠性。因此,我们提供了一系列常见的规范化方法,可在规范化过程中调用。选择合适的归一化方法可有效缓解穿插批次效应,为后续数据分析的可靠性奠定坚实的基础。

6.下游统计分析
SCMeTA 中包含基于 Matplotlib 的可视化模块,用于 SCM 分析。这种视觉呈现,尤其是在降维方面,在交流和解释结果方面非常有效,尤其是在处理复杂的生物数据时。SCMeTA 集成了单元数据的降维可视化,包括 Kernel-PCA、t-SNE、UMAP 等方法,这些方法对非线性数据显示出出色的降维结果。可视化模块还包括一套用于单细胞内部变异性代谢物分析的模块,如热图、火山图和箱形图。这些图形功能有助于快速有效地识别实验组内的特征代谢数据。SCM 数据的峰鉴定是单细胞代谢组学的关键步骤,构成了代谢组学研究的基础。峰鉴定的准确性直接影响后续数据分析的质量。SCMeTA 具有内置的本地 HMDB 代谢物鉴定系统,可快速有效地确定与初级质谱的代谢物信息相对应的准确质量数。

代码实现


####Python安装scmeta
pip install scmeta
from SCMeTA import Process
sc = Process()
# Load data
sc.load("data/example.RAW")
# Data process
sc.pre_process()
sc.process()
sc.post_process()

欢迎大家留言讨论,如果对结果或者方法实现有疑问的可以联系管理员进行解决:kriswcyYQ。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2147733.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024最新的软件测试面试八股文(答案+文档)

一、软件测试基础面试题 1、阐述软件生命周期都有哪些阶段? 常见的软件生命周期模型有哪些? 软件生命周期是指一个计算机软件从功能确定设计&#xff0c;到开发成功投入使用&#xff0c;并在使用中不断地修改、增补和完善&#xff0c;直到停止该软件的使用的全过程(从酝酿到…

黑马头条APP手工测试项目

1.app有关概念 APP测试范围&#xff1a; 业务功能测试 专项测试&#xff1a;兼容性测试 、安装/卸载/升级测试、交叉事件测试 、push消息推送测试、性能测试、其他测试&#xff08;用户体验、权限/边界、权限&#xff09; 功能测试测试对象&#xff1a; 功能点&#xff08;单…

Linux系统通过libgpiod读写GPIO

本文介绍Linux系统通过libgpiod读写GPIO。 从Linux 4.8后&#xff0c;官方不再推荐使用sysfs操作GPIO&#xff0c;目前&#xff0c;libgpiod是操作GPIO的首选方法。本文以Raspberry Pi 4开发板为例简要介绍通过libgpiod读写GPIO。 1.libgpiod简介 libgpiod是用于Linux环境下…

虚拟机:3、(待更)WSL2安装Ubuntu系统+实现GPU直通

WSL2实现linux子系统GPU直通 安装WSL2和Ubuntu 见https://blog.csdn.net/bule_shake/article/details/135992375 问题&#xff1a;wsl --update进度卡住 如果命令wsl --update进度一直为0&#xff0c;可以先运行wsl --shutdown&#xff0c;然后再次升级。 微软商店打不开、…

[2025]基于微信小程序慢性呼吸系统疾病的健康管理(源码+文档+解答)

博主介绍&#xff1a; ✌我是阿龙&#xff0c;一名专注于Java技术领域的程序员&#xff0c;全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师&#xff0c;我在计算机毕业设计开发方面积累了丰富的经验。同时&#xff0c;我也是掘金、华为云、阿里云、InfoQ等平台…

CTFshow——萌新隐写(未完待续)

萌新隐写2 首先暴力破解密码&#xff0c;初始密码设为19000000即可 我用的是ziperello 萌新隐写3 萌新隐写4 word打开 - > 打开设置 - > 隐藏文字 - >flag出现 萌新隐写5 中文转unicode 16进制转字符串 base32解码 萌新隐写6 暂时不会。。。。 隐写1 打开就看到头是…

基于微信小程序的健身房管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 基于微信小程序JavaSpringBootVueMySQL的健…

深度学习基础案例5--VGG16人脸识别(体验学习的痛苦与乐趣)

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 前言 这次目标本来要达到60%&#xff0c;但是却非常稳定的达到了40%&#xff0c;​&#x1f622;​​&#x1f622;​​&#x1f622;​​&#x1f622;​&am…

鹰眼降尘系统怎么样

鹰眼降尘系统是一种高效、智能且环保的粉尘治理解决方案&#xff0c;其表现优秀&#xff0c;朗观视觉小编认为&#xff0c;主要体现在以下几个方面&#xff1a; 智能化程度高&#xff1a;鹰眼降尘系统集成了先进的图像识别技术和机器学习算法&#xff0c;能够自动识别并跟踪粉尘…

2011年全国硕士研究生入学统一考试计算机科学与技术

1. 试卷背景&#xff1a; 试题&#xff1a;2011年全国硕士研究生入学统一考试计算机科学与技术学科联考中的计算机学科专业基础综合试题。难点&#xff1a;该问题的研究难点在于试题涵盖了计算机科学与技术的多个方面&#xff0c;包括数据结构、算法、计算机组成原理、操作系统…

Amber学习---小分子肽段的MD(第一天)

参考资料&#xff1a;1.科学网—AMBER基础教程B0&#xff1a;AMBER分子动力学模拟入门 - 李继存的博文 (sciencenet.cn) 2.Benjamin D. Madej & Ross Walker, An Introduction to Molecular Dynamics Simulations using AMBER 1 使用wsl&#xff08;windows的子系统linu…

VirtualBox 网络设置

VirtualBox 是一款非常流行的虚拟化软件&#xff0c;在计算机上创建虚拟环境运行不同操作系统和应用程序。网络设置在 VirtualBox 中至关重要&#xff0c;它决定了虚拟机能否连接到互联网或其他计算机&#xff0c;实现数据传输和共享。 在 VirtualBox 中创建虚拟机时&#xff…

Android15之源码分支qpr、dp、beta、r1含义(二百三十二)

简介&#xff1a; CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布&#xff1a;《Android系统多媒体进阶实战》&#x1f680; 优质专栏&#xff1a; Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a; 多媒体系统工程师系列【…

【算法题】64. 最小路径和-力扣(LeetCode)

【算法题】64. 最小路径和-力扣(LeetCode) 1.题目 下方是力扣官方题目的地址 64. 最小路径和 给定一个包含非负整数的 *m* x *n* 网格 grid &#xff0c;请找出一条从左上角到右下角的路径&#xff0c;使得路径上的数字总和为最小。 **说明&#xff1a;**每次只能向下或者…

提升Windows 7中谷歌浏览器隐私设置的方法

在数字化时代&#xff0c;保护个人隐私变得尤为重要。本文将详细介绍如何通过调整谷歌浏览器的隐私设置来提高您的隐私保护水平。&#xff08;本文由https://www.liulanqibuluo.com/站点的作者进行编写&#xff0c;转载时请进行标注。&#xff09;以下是具体的操作步骤&#xf…

有源滤波器UAF42

有源滤波器模块&#xff0c;在电路板上同时实现了低通&#xff0c;高通&#xff0c;带通 滤波器&#xff0c;可选其一进行输出&#xff0c;并可通过改变滑变阻值&#xff0c;轻松调节其滤波器中心频率&#xff0c;Q值&#xff0c;通带增益等&#xff0c; 也可方便实现Butterwo…

GUI编程16:图片按钮、单选框、多选框

视频链接&#xff1a;18、图片按钮、单选框、多选框_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1DJ411B75F?p18&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5 1.图片按钮代码示例 package com.yundait.lesson05;import javax.swing.*; import java.awt.*; impo…

硬件检测工具 | CPU-Z v2.11.0 官方中文绿色版

CPU-Z是一款广受欢迎的硬件检测工具&#xff0c;主要用于收集电脑处理器的详细信息。这款软件能够提供关于CPU的详细数据&#xff0c;包括处理器名称、编号、代号、进程和缓存等信息。 此外&#xff0c;CPU-Z还能实时监测每个内核的内部频率和内存频率&#xff0c;以及收集主板…

行人动作行为识别系统源码分享

行人动作行为识别检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer…

pytorch入门(2)——TensorBoard的使用

TensorBoard 是Google开发的一个机器学习可视化工具。其主要用于记录机器学习过程&#xff0c;例如&#xff1a; 记录损失变化、准确率变化等记录图片变化、语音变化、文本变化等&#xff0c;例如在做GAN时&#xff0c;可以过一段时间记录一张生成的图片绘制模型 TensorBoard…