PICRUSt2在微生物功能预测分析中的应用解读

news2024/11/25 7:20:11

谷禾健康

在这里插入图片描述

微生物组学研究现已超越微生物群落组成分析得到更广泛的使用。大量的人类微生物组研究证据表明,肠道微生物组功能变化炎症和免疫反应的影响起到关键的影响作用

16S rRNA分析是微生物组研究作为最常用便捷且具有成本效益的测量技术,用于分析微生物组的菌落组成,但标记基因测序无法直接提供群落功能组成的信息。于是开发了生物信息学工具,利用16S rRNA基因数据来预测微生物组功能

其中,PICRUSt2已成为最流行的功能概况预测工具之一,可生成整个群落通路丰度。“功能”通常指的是基因家族,如KEGG同源基因和酶分类号,可以预测任意的特性。

PICRUSt1 具有一定的局限性

微生物群落标记基因测序的一个局限性在于它无法提供有关采样群落功能组成的信息。PICRUSt1于2013年开发,可根据标记基因测序图谱预测细菌群落的功能潜力

PICRUSt (Phylogenetic Investigation of Communities by Reconstruction of Unobserved States) 的原理基于已测细菌基因组的16S rRNA全长序列,推断它们的共同祖先的基因(同源基因)功能谱,对Greengenes数据库中其它未测物种的基因功能谱进行推断,构建古菌和细菌域全谱系的基因功能预测谱,最后,将测序得到的菌群组成“映射”到数据库中,对菌群代谢功能进行预测

PICRUSt1是为从16S标记序列预测功能而开发的,已被广泛使用,但有一定的局限性。标准PICRUSt1工作流程要求输入序列只能根据Greengenes数据库的兼容版本进行有参比对而生成的OTU表。PICRUSt1使用的细菌参考数据库自2013年以来未进行更新,并且缺少成千上万个最近添加的基因家族

PICRUSt2 具有更准确更全的数据库

2018年推出了全新版本的PICRUSt,即PICRUSt2(https://github.com/picrust/picrust2) ,该方法在PICRUSt1原始方法上有所改进

具体而言, PICRUSt2包含一个更新的,更大的基因家族和参考基因组数据库,可与任何可操作的分类单位(OTU)筛选或去噪算法互操作,并能够进行表型预测

基准测试表明,PICRUSt2比PICRUSt和其他竞争方法总体上更准确。PICRUSt2还允许添加自定义参考数据库

PICRUSt2 方法的优势

PICRUSt1流程将预测限制为Greengenes参考数据库中的OTU,因此排除了其他16S rRNA基因测序数据集中的许多公开序列。PICRUSt2无需再以GreenGene注释的OTU表为输入,可以直接读取OTU的代表序列自动完成物种注释,并进一步根据物种丰度组成预测群落功能

•用于预测的参考基因组数据库扩大了10倍以上

•允许输出MetaCyc 本体预测,可与普通宏基因组学的结果比较

•从Castor R包中添加隐藏状态预测算法

•通路丰度的推断现在依赖于MinPath,这使得这些预测更加严格

PICRUSt2 的工作流程

在这里插入图片描述

Picrust2集成了现有的开放源代码工具,以预测环境采样的16S rRNA基因序列的基因组。PICRUSt2中的系统发生放置基于三个工具的输出:HMMER、EPA-ng、GAPPA,以将研究序列(即OTU和ASV)放置到参考树中。

使用的方法更快的R包castor用于核心隐藏状态预测功能。然后生成元基因组图谱,可以通过贡献序列对其进行分层。最后,基于元基因组图谱预测途径的丰度

默认情况下,输出文件包括对酶分类(EC)编号,KEGG直系同源物(KO)MetaCyc途径丰度的预测。

谷禾报告中针对性的添加了碳水化合物活性酶数据库(CAZy)肠道代谢模块(GMM)肠脑模块(GBM)。GMM和GBM是从KEGG的KO映射出来的。

PICRUSt2 结果说明

在这里插入图片描述

EC_metagenome_out/ 细菌群落酶(EC)功能的丰度预测结果

ECpred_metagenome_unstrat_descr.tsv 为包含基因名称的丰度表,结构同上

在这里插入图片描述

KO_metagenome_out/ KO(KEGG Orthology)功能基因注释结果

KOpred_metagenome_unstrat_descr.tsv 为包含基因名称的丰度表,第一列是以KO ID名称代表特定的功能基因,第二列是功能基因的描述

丰度计算由16S rRNA拷贝数标准化后的OTU丰度表推断得到。

在这里插入图片描述

KEGGpathways_out/ KEGG代谢通路注释结果

上述预测得到的以KO ID为名称的KO功能,实则代表了特定的功能基因,将这些功能基因映射到具体的KEGG代谢途径(KEGG pathway)中,并统计各途径在各样本中的丰度,获得该表。

KEGGpath_abun_unstrat_descr.tsv为包含代谢通路的丰度表

在这里插入图片描述

pathways_out/ 代谢通路pathway添加注释,基于METACYC数据库的注释结果

METACYCpath_abun_unstrat_descr.tsv为包含代谢通路的丰度表

在这里插入图片描述

GMMmodelout/ 菌群代谢产物模块预测结果,modules.tsv为丰度表

在这里插入图片描述

GBMmodelout/ 菌群神经递质代谢产物模块预测结果,modules.tsv为丰度表

在这里插入图片描述

CAZYout/ 菌群碳水化合物代谢CAZy预测结果,pred_metagenome_unstrat.tsv为丰度表

在这里插入图片描述

COG_metagenome_out/ COG预测结果

COGpred_metagenome_unstrat_descr.tsv 为丰度表

在这里插入图片描述

PFAM_metagenome_out/ PFAM功能域模块预测结果

pred_metagenome_unstrat.tsv为丰度表

TIGRFAM_metagenome_out/ TIGRFAM功能域模块预测结果

pred_metagenome_unstrat.tsv为丰度表

out.tre 所有OTU代表序列构建的系统发育树文件

Intermediate/ 一些中间文件

数据库简介

KEGG,全称Kyoto Encyclopedia of Genes and Genomes,是一个从分子水平信息,特别是基因组测序和其他高通量实验技术产生的大规模分子数据库,以了解细胞、有机体和生态系统等生物系统的高级功能和效用的数据库资源。

MetaCyc,全称Metabolic Pathways From all Domains of Life,一个庞大而全面的数据库,只包含非冗余且通过实验手段阐明过的代谢通路。里有参与初级和次级代谢的各种通路以及相关代谢物生物化学反应,酶和基因等信息,通过存储具有代表性的实验验证的代谢通路,来对所有生命的代谢过程进行分类。

CAZy, 全称为Carbohydrate-Active enZYmes Database,碳水化合物酶相关的专业数据库,内容包括能催化碳水化合物降解、修饰、以及生物合成的相关酶系家族。

其包含五个主要分类:糖苷水解酶(Glycoside Hydrolases, GHs)、糖基转移酶(GlycosylTransferases, GTs)、多糖裂解酶(Polysaccharide Lyases, PLs)、糖酯酶(Carbohydrate Esterases, CEs)和氧化还原酶(Auxiliary Activities, AAs)。

此外,还包含与碳水化合物结合结构域(Carbohydrate-Binding Modules, CBMs)。五大分类和一个结构域下,都分别建立了多个Family。

GHs:糖苷键的水解和/或重排

GTs:糖苷键的形成

PLs:糖苷键的非水解裂解

CEs:水解碳水化合物的酯类

AAs:与 CAZymes 协同作用的氧化还原酶

CBMs:与碳水化合物结合

★ METACYC与KEGG都可以用来微生物的代谢通路预测,那么两者有什么区别呢?

MetaCyc的代谢物信息相较于KEGG提供内容更多,除了基础的物质信息以外,还包括物质的化学性质(如:油水分配系数、拓扑极性表面积、标准吉布斯自由能等)。

KEGG在通路方面的检索方式比MetaCyc更简单一些,通过通路名称或一个代谢物即可检索到相关的通路,而MetaCyc除了通路名称外,还需要提供通路中包含的4个底物才能检索到对应的通路;另外,在通路的完整度上,KEGG中更加注重的是在所有物种中的通路汇总到一张图上,而MetaCyc更加注重的是不同物种中通路的差异化

KEGG的通路会覆盖的更全一些,而MetaCyc相对会少一些,但是MetaCyc可以补充部分KEGG通路上不全的部分,因此KEGG与MetaCyc可以相互补充,达到相得益彰的效果

// 提示

想要查询不同功能的细节,解释生物学现象等,可以从数据库官网上查询,例如:

  • KEGG数据库:

在这里插入图片描述

  • MetaCyc数据库官网:
https://metacyc.org/
  • CAZY数据库:
http://www.cazy.org/
  • COG数据库:
https://www.ncbi.nlm.nih.gov/COG/

KEGG通路层级汇总:

Picrust2输出KEGG只有KO,KO层级通常有7、8千的功能条目。缺少PICRUSt1中分类合并为一级、二级、三级的3级通路,这里我们重新整理KEGG的层级数据并实现此功能,合并后仅剩500多个条目,方便比较和描述。

生成的分类层级文件

Picrust2/KEGG.PathwayL1.raw.txt

Picrust2/KEGG.PathwayL2.raw.txt

Picrust2/KEGG.Pathway.raw.txt

KEGG官网页面上给出了所有pathway的名字及其隶属关系,分成三个级别。

一级分类:共7个,分别是Metabolism(代谢)、Genetic Information Processing(遗传信息处理)、Environmental Information Processing(环境信息处理)、Cellular Processes(细胞过程)、Organismal Systems(有机系统)、Human Diseases(人类疾病)和Drug Development(药物开发)。

在这里插入图片描述

二级分类:在一级分类下面的分类,例如一级分类Cellular Processes下面包括5个二级分类:Transport and catabolism、Cell growth and death、Cellular community – eukaryotes、Cellular community – eukaryotes和Cell motility。

三级分类:二级分类下面的分类,例如二级分类Cell motility下面包括3个三级分类:Bacterial chemotaxis、Flagellar assembly和Regulation of actin cytoskeleton。

在这里插入图片描述

富集分析的结果一般都是三级分类,因此使用二级分类对三级分类进行汇总,可以快速找到相关的通路。例如Cell growth and death(细胞生长与死亡)相关通路。

根据3级层级分类通路数据,做KEGG分类层级图

在这里插入图片描述

预测信息可视化

得到的上述菌群功能丰度表之后,可以参考OTU丰度表做类似可视化分析。例如相对丰度构成图主成分分析PCA图功能差异图等。

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1797453.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Hadoop3:MapReduce工作流程图解

一、流程图 二、流程说明 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下: (1)MapTask收集我们的map()方法输出的kv对,放到内存…

笔记95:车辆横向动力学方程转化为误差形式 -- 详细推导过程

1. 非误差型车辆横向动力学方程 注:关于轮胎侧偏刚度的正负 深蓝课程推导得到的车辆横向动力学返程使用的轮胎侧偏刚度是默认为正数;老王课程推导得到的车辆横向动力学方程使用的轮胎侧偏刚度是默认为负数; 1.1 深蓝课程推导得到的方程&…

工厂生产计划难以执行的真正原因及对策

在制造业中,生产计划的执行对于企业的运营至关重要。然而,许多工厂在生产计划执行过程中面临着诸多挑战,尤其是物料齐套率低的问题。本文将探讨工厂生产计划难以执行的真正原因,并提出相应的解决对策。 一、生产计划难以执行的真…

前端技术探索:从基础到进阶

前端技术作为现代Web开发中不可或缺的一部分,其重要性不言而喻。随着技术的快速发展,前端领域涌现出了许多经典且值得深入探索的技术和框架。本文将带您领略前端技术的魅力,从基础到进阶,一起探讨前端开发的精髓。 一、前端技术基…

顶顶通呼叫中心中间件-如何配置识别不同语种的ASR

文章目录 前言联系我们创建不同语种的语音识别任务开始对接识别不同语种的ASR重启 asrproxy 程序使用识别不同语种的ASR 前言 之前讲过顶顶通的 asrproxy 程序如何对接第三方的ASR,比如:阿里云的ASR。不知道如何对接的,可以参考:…

音视频开发17 FFmpeg 音频解码- 将 aac 解码成 pcm

这一节,接 音视频开发12 FFmpeg 解复用详情分析,前面我们已经对一个 MP4文件,或者 FLV文件,或者TS文件进行了 解复用,解出来的 视频是H264,音频是AAC,那么接下来就要对H264和AAC进行处理,这一节…

HackTheBox-Machines--Aragog

Aragog 测试过程 1 信息收集 NMAP 服务器开启了 21、22、80端口 21 端口测试 首先测试 21 端口,21端口开启了匿名登录 ftp服务器上存在 test.txt 文件,test.txt 文件是 xml 格式。 80 端口测试 echo "10.129.97.250 aragog.htb" | sudo tee…

[office] 如何才能用EXCEL打开dat文件- #微信#学习方法

如何才能用EXCEL打开dat文件? 方法: 1、打开EXCEL软件; 2、文件,打开,选择要转化的DAT文件; 3、在弹出的向导文件(步骤1)中,选择合适的文件类型(按预览选择&#xf…

浏览器中的disable cache对文件下载服务的影响

客户端缓存文件 对于HTTP的文件请求来说,为了保证请求的速度,会使用客户端缓存的机制。比如客户端向服务器端请求一个文件A.txt。服务器在接收到该请求之后会将A.txt文件发送给客户端。 其请求流程如下: 步骤1:客户端请求服务器…

基于fabric封装一个简单的图片编辑器(vue 篇)

介绍 前言vue demo版本react 版本 前言 对 fabric.js 进行二次封装,实现图片编辑器的核心功能。核心代码 不依赖 ui响应式框架vue ,react 都适用。 只写了核心编辑相关代码便于大家后续白嫖二次开发 核心代码我就没有打包发布 会 和 业务代码一起放到项目中。 vu…

一篇教会你CSS定位

前言:在网页布局的时候,我们需要将想要的元素放到指定的位置上,这个时候我们就可以使用CSS中的定位操作。 先让我们看一下本篇文章的大致内容: 目录 什么是定位 1.相对定位 2.绝对定位 3. 固定定位 4. 粘性定位 5. 定位层级…

【vue-lottie实现高级菜单效果】

文章目录 概要整体交互使用技术准备工作技术细节小结 概要 主要实现利用lottie动画实现复杂动画交互效果,项目为大屏系统,设计是做一个全局菜单,不用的时候折叠成一个小盒子,使用的时候点击小盒子可以展开菜单页,展开效…

《尚庭公寓》项目部署之Docker + Nginx

docker rmi nginx docker pull nginx docker rm -f nginx #先创建一个简易的nginx容器(后面会删),然后通过 docker cp命令把容器里面的nginx配置反向拷贝到宿主主机上。 docker run --name nginx -p 80:80 -d nginx# 将容器nginx.conf文件复…

Linux 36.3 + JetPack v6.0@jetson-inference之图像分类

Linux 36.3 JetPack v6.0jetson-inference之图像分类 1. 源由2. imagenet2.1 命令选项2.2 下载模型2.3 操作示例2.3.1 单张照片2.3.2 视频 3. 代码3.1 Python3.2 C 4. 参考资料5. 补充5.1 第一次运行模型本地适应初始化5.2 samba软连接 1. 源由 从应用角度来说,图…

Linux下gcc编译32位程序报错

gcc使用-m32选项,编译32位程序时,报错:/usr/include/stdio.h:27:10: fatal error: bits/libc-header-start.h: No such file or directory gcc编译32位程序时,报错:/usr/include/stdio.h:27:10: fatal error: bits/li…

vue3+ elementPlus PC端开发 遇到页面已进入就form校验了的问题

form表单一进页面就校验了 rules里配置的 require 提示语 如图所示代码是这样的 最后发现是form表单下面的一个按钮的展示规则 会导致规则校验 canAddInsured 这个字段的变化会导致form表单校验 这个字段是computed maxInsureds 也是个computed监听 maxInsured.value >1 就…

MySQL 导出导入的101个坑

最近接到一个业务自行运维的MySQL库迁移至标准化环境的需求,库不大,迁移方式也很简单,由开发用myqldump导出数据、DBA导入,但迁移过程坎坷十足,记录一下遇到的各项报错及后续迁移注意事项。 一、 概要 空间问题源与目…

亚马逊新品如何快速吸引流量?自养号测评助卖家一臂之力

在亚马逊平台上每天都会有大量的新品推出,而这些新品中有部分可能并没有什么流量和订单,有些可能上架后立马就能获得流量了,那么亚马逊上新品一般几天出单? 一、亚马逊上新品一般几天出单? 亚马逊上新品出单的时间因…

@Validated 前端表单数据校验

1. 整合 1.1 依赖引入 <dependency><groupId>org.hibernate.validator</groupId><artifactId>hibernate-validator</artifactId></dependency>1.2 控制层 /*** 新增胎架计划** param subsectionPlanVo* return*/PostMapping("/sched…

从混乱到有序:PDM系统如何优化物料编码

在现代制造业中&#xff0c;物料管理是企业运营的核心。物料编码作为物料管理的基础&#xff0c;对于确保物料的准确性、唯一性和高效性至关重要。随着产品种类的不断增加和产品变型的多样化&#xff0c;传统的物料编码管理方式已经不能满足企业的需求。本文将探讨产品数据管理…