浅析代谢组学最常用到的数据分析方法 图形详解pca pls-da opls-da

news2025/1/8 5:16:17

代谢组学是一门对某一生物或细胞所有低分子质量代谢产物(以相对分子质量<1000的有机和无机的代谢物为研究核心区)进行分析的新兴学科。生物样本通过NMR、GC-MS、LC-MS等高通量仪器分析检测后,能产生大量的数据,这些数据具有高维,少样本、高噪声等复杂特征,同时代谢物多且代谢物之间联系密切,因此从复杂的代谢组学数据中确定与所研究的现象有关的代谢物,筛选出候选生物标记物成为代谢物组学研究的热点和难点

代谢组学分析数据用于统计分析时,数据集通常为一个N × K的矩阵(X矩阵),N表示N个样本数,每一行代表一个样品, K表示K个变量,每一列代表一个变量,在代谢组学中变量通常是指代谢物含量。最常用的分析方法如图1所示:

图1  代谢组学最常用的数据分析方法

单变量分析

单变量分析方法仅分别分析单个变量,不考虑多个变量的相互作用与内在联系。具有简单性、易应用性和可解释性。但是无法基于整体数据对所测样品的优劣、差异进行综合评价和分析。

01

差异倍数分析

差异倍数变化大小(Fold Change,FC)表示实验组与对照组的含量比值,可以快速考察各个代谢物在不同组别之间的含量变化大小。

02

显著性检验

p值即概率,反映某一事件发生的可能性大小,用于区分该变量是否具有统计显著性,通常认为p<0.05具有统计显著性。常用的检验方法有t-test、方差分析(Analysis of Variance, ANOVA),但是由于代谢组学的变量较多,必要时需要进行多重假设检验,对p值进行校正,减少Ⅰ类错误,降低假阳性。

多变量分析

多变量分析方法能同时处理数百或数千个变量,并且能处理变量之间的相互关系。利用变量之间的协方差或相关性,使原始数据在较低维空间上的投影能尽可能地捕获数据中的信息。但是如果存在大量无信息变量可能会妨碍多变量分析的能力,无信息变量的数量越多,减少真阳性数量的效果就越显著。

多变量分析分为无监督分析方法有监督分析方法。在代谢组学分析中无监督学习有主成分分析(Principal Component Analysis,PCA),只需要数据集X,而有监督分析方法主要是偏最小二乘判别分析(Partial Least Squares Discrimination Analysis, PLS-DA)和正交偏最小二乘判别分析(Orthogonal Partial Least Squares Discrimination Analysis , OPLS-DA),这类方法在分析时除了需要数据集X,还需对样品进行指定并分组, 这样分组后模型将自动加上另外一个隐含的数据集Y,通常Y的赋值用-1/1或者0/1表示类别信息。

01

PCA

PCA是一种使用最广泛的数据降维算法,先找出数据X矩阵的方差最大方向作为PC1,在与PC1正交的平面中找出使得方差最大的作为PC2,依次类推。从而建立低维平面或空间 (通常2~5 维), 以此分析和概览整个数据集。PCA不是一种分类方法,但能提供对复杂数据集的直观解释,并从中揭示出数据集中观测数据的分组、趋势以及离群。对明显不同于大部分样品的离群样品,可加以甄别或剔除。如图2所示。另外,如果存在质控样品,PCA还可进行质控,如果质控样品很分散或具有一定的变化趋势,则说明检测质量存在一定的问题。

图2  对照组与实验组的PCA得分图

02

PLS-DA

PLS-DA在降维的同时结合了回归模型,并利用一定的判别阈值对回归结果进行判别分析。通过多元线性回归技术来找到数据集(X)和类别数据集(Y)之间的最大协方差的方向,建立两个独立数据集 (X−Y) 潜在关联分析方法, 即基于 X 变量数据信息, 建立Y 变量预测模型 (X→Y)。

这种模型计算的方法强行把各组分开, 有利于发现不同组间的异同点。对于组间差异不够明显的样品, 采用PCA 方法常常无法区分样品的组间差异, 这种情况下采用PLS-DA 模型可能更加有效。如图3所示。同时也能识别潜在的生物标记物,适用于两组或者两组以上分析,在需要同时观察多组别样品相似性和差异性时体现更大价值。但是如果主成分过多或分组过于复杂而出现过拟合现象 (over-fitting), 会造成模型失真, 在实际数据分析时应注意验证模型有效性和可靠性。

图3  对照组与实验组PLS-DA得分图

03

OPLS-DA

数据集X总会含有一些与研究无关的干扰信号,如人的生活方式,植物的生长环境或检测仪器的噪音干扰等。若能滤掉这些噪音会有助于发现最重要的变量,提高模型的有效性。

与PLS相比,OPLS根据数据集Y的差异将数据集X的差异分为两个部分,第一部分代表与Y相关的差异, 第二部分代表与Y不相关 (正交垂直)的差异,OPLS-DA可将这两部分差异进行区分,控制与Y正交或者无关的X的变化并加以滤除。通过这种方式,OPLS-DA可以更好地区分组间差异,提高模型的有效性和解析能力。如图4所示,OPLS-DA将组间差异主要集中在第一个预测主成分上,即X轴。OPLS-DA常用于对两组样品的代谢组学数据进行判别分析, 能清晰展现组间样品差别并能直接解释和识别潜在的生物标志物。

图4  对照组与实验组OPLS-DA得分图

●参考文献:

[1]. Saccenti E , Hoefsloot H C J , Smilde A K , et al. Reflections on univariate and multivariate analysis of metabolomics data[J]. Metabolomics, 2014, 10(3): 361-374.

[2]. Worley B, Powers R. Multivariate Analysis in Metabolomics[J]. Current Metabolomics, 2013, 1(1): 92–107.

[3]. Yi L , Dong N , Yun Y , et al. Chemometric methods in data processing of mass spectrometry-based metabolomics: A review[J]. Analytica Chimica Acta, 2016, 914: 17-34.

[4]. Lubes G , Goodarzi M . Analysis of Volatile Compounds by Advanced Analytical Techniques and Multivariate Chemometrics[J]. Chemical Reviews, 2017, 117(9): 6399-6422.

干货|浅析代谢组学最常用到的数据分析方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/714338.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网页版在线流程图绘制工具Diagram

网页地址&#xff1a;Diagram 可以将流程图保存为图片、网址等多种格式。 界面&#xff1a;

【PortAudio】PortAudio 音频处理库Demo

1. 介绍 PortAudio是一个免费、跨平台、开源的音频I/O库。看到I/O可能就想到了文件&#xff0c;但是PortAudio操作的I/O不是文件&#xff0c;而是音频设备。它能够简化C/C的音频程序的设计实现&#xff0c;能够运行在Windows、Macintosh OS X和UNIX之上&#xff08;Linux的各种…

SAP从入门到放弃系列之生产车间相关单据打印

文章目录概览 一、前言二、系统相关设置2.1、配置:1&#xff1a;2.2、配置点2&#xff1a;2.3、配置点3 三、主数据准备四、测试场景准备五、小结 一、前言 通常在项目实施的时候&#xff0c;如果没有MES&#xff0c;那么生产调度相关岗位下达订单后&#xff08;订单下达感觉没…

K8s部署微服务(springboot+vue)

文章目录 前言一、使用到的K8s资源1.1 Deployment1.2 Service 二、Springboot基础服务部署2.1 网关gateway2.2 鉴权auth2.3 文件file2.4 流程flow2.5 消息message2.6 组织org2.7 系统通用system2.8 用户user2.9 Node 三、Vue前端部署3.1 项目前端nginx3.2 静态资源服务nginx 四…

迪杰斯特拉算法(求最短路径)

迪杰斯特拉算法&#xff08;求最短路径&#xff09; 迪杰斯特拉算法用于查找图中某个顶点到其它所有顶点的最短路径&#xff0c;该算法既适用于无向加权图&#xff0c;也适用于有向加权图。 注意&#xff0c;使用迪杰斯特拉算法查找最短路径时&#xff0c;必须保证图中所有边…

相对位置编码(二) Relative Positional Encodings - Transformer-XL

1. Motivation 在Transformer-XL中&#xff0c;由于设计了segments&#xff0c;如果仍采用transformer模型中的绝对位置编码的话&#xff0c;将不能区分处不同segments内同样相对位置的词的先后顺序。 比如对于segmenti&#xfffd;&#xfffd;&#xfffd;&#xfffd;&…

pycharm安装opencv-python报错

问题一 通过pycharm中的Terminal窗口安装opencv-python错误如下&#xff1a; 上图所示为部分错误&#xff0c;全部错误如下&#xff1a; Building wheel for opencv-contrib-python (PEP 517) ... errorERROR: Complete output from command D:\anzhuanglujing\Anaconda\python…

从零开始之PID控制

从零开始系列之PID控制&#xff0c;宗旨就是以说人话的方式讲述它&#xff0c;真正的做到从零开始&#xff0c;小白一看就会&#xff0c;一学就废。 一、什么是PID控制&#xff1f; PID控制&#xff08;比例-积分-微分控制&#xff09;由比例单元&#xff08;Proportional&…

玩耍的猫咪【 InsCode Stable Diffusion 美图活动一期】

1️⃣ 工具介绍 InsCode是一个集成了在线IDE、在线AI编程、在线算力租赁、在线项目部署以及在线SD 模型使用的综合代码开发平台。 Stable Diffusion是目前最火的AI绘画工具之一&#xff0c;它是一个免费开源的项目。通过Stable Diffusion&#xff0c;可以很轻松的通过文字描述…

上半年结束,下半年继续冲!

前言: 这周直播也把雷神写的Ffmpeg推流器讲解完了&#xff0c;而一同时&#xff0c;一转眼间&#xff0c;2023年已经过半&#xff0c;正式进入了下半年&#xff1a; 因为上半年已经开始在做解析Ffmpeg 最新版本的源码&#xff0c;所以下半年&#xff0c;我会继续坚持讲解Ffmpeg…

“GPT+健康医疗”赋能医疗行业“数智化”发展,景联文科技提供高质量医疗数据库

近日&#xff0c;ChatGPT这个代表着通用版的大型语言模型以其出色的表现在全球互联网上引人注目。它所使用的GPT技术基础为人工智能应用开启了全新的世界。 “大模型时代已经到来。它已变成基础设施&#xff0c;变成算力&#xff0c;变成生产力。大模型可能有通用技术&#xf…

C++杂谈-友元和操作符重载

1、友元- friend 我的理解&#xff1a;通过设置友元函数和友元类来让外部函数来访问私有成员&#xff0c;这样虽然破坏了类的封装型和隐藏性&#xff0c;但是提高了程序的运行效率&#xff08;减少了某些安全性检查的过程&#xff09;。 友元函数和友元类统称友元&#xff0c;…

Nginx+Tomcat(多实例)实现动静分离和负载均衡(四层、七层)

目录 一、Tomcat 多实例部署 二、反向代理的两种类型 三、NginxTomcat实现负载均衡和动静分离&#xff08;七层代理&#xff09; 1.动静分离和负载均衡原理 2.实现方法 3.部署实例 &#xff08;1&#xff09;部署Nginx负载均衡服务器 &#xff08;2&#xff09;配置Tom…

C++之GNU C的__attribute__常用属性(一百五十)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 人生格言&#xff1a; 人生…

使用 ZBrush、Ornatrix 和 Substance 3D Painter 重现哈利波特中的凤凰

今天瑞云渲染小编给大家带来了Ramn Tapia 分享 Phoenix 项目背后的工作流程&#xff0c;解释了如何在 Ornatrix 中完成修饰&#xff0c;并展示了纹理化过程。 介绍 你好&#xff0c;有创造力的读者朋友们 我的名字是Ramn&#xff0c;但在数字艺术领域&#xff0c;我的名字是ra…

【 Android11 无线热点开发 】无线AP开与关、无线AP信息获取

前言 前面四篇文章介绍完了有线网络、无线网络的开发过程&#xff0c;下面介绍下Android 11上网络的终结篇&#xff0c;无线热点的开发流程。 相关文章 1、【 Android11 WiFi开发 一 】WiFi列表获取与展示 2、【 Android11 WiFi开发 二 】WiFi连接、断开 3、【 Android11 Wi…

软件为什么要进行故障演练?主要为了什么?

随着现代社会的高度信息化和软件的广泛应用&#xff0c;软件的质量和可靠性对于保障用户体验和信息安全显得尤为重要。为了保证软件的稳定运行和即时响应&#xff0c;软件故障演练成为软件开发和运维过程中的重要环节&#xff0c;那软件为什么要进行故障演练&#xff1f;主要为…

IIC(I2C)协议

I2C&#xff08;Inter-Integrated Circuit&#xff09;:是一种串行通信协议&#xff0c;用于在集成电路之间进行数据传输。它由飞利浦公司开发&#xff0c;并广泛应用在各种电子设备和传感器之间进行通信。 I2C通信协议由两根线组成&#xff1a; 一个是用于数据传输的串行数据线…

JVM关键知识点整理,从入门到提高到实践

文章目录 基础篇一、了解JVM内存结构程序计数器&#xff08;线程私有&#xff09;Java虚拟机栈&#xff08;线程私有&#xff09;本地方法栈&#xff08;线程私有&#xff09;方法区&#xff08;线程共享&#xff09;堆&#xff08;线程共享&#xff09;运行时常量池直接内存 二…

Android12之解决-Werror,-Wunused类似问题万能公式(一百五十九)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 人生格言&#xff1a; 人生…