用MiCoNE工具对16S序列数据进行共现网络分析

news2024/11/24 6:30:25

谷禾健康

在这里插入图片描述

微生物群通常由数百个物种组成的群落,这些物种之间存在复杂的相互作用。绘制微生物群落中不同物种之间的相互关系,对于理解和控制其结构和功能非常重要。

微生物群高通量测序的激增导致创建了数千个包含微生物丰度信息的数据集。这些丰度可以转化为共现网络,让我们了解微生物组内的关联。

然而,处理这些数据集以获得共现信息依赖于几个复杂的步骤,每个步骤都涉及大量工具相应参数的选择

本文给大家介绍一个标准化流程——MiCoNE,该流程可以从微生物群落的16S序列数据中生成稳健且可重复的共现网络,并使用户能够交互式地探索在每个步骤中使用不同的替代工具和参数时网络会如何变化。

MiCoNE推理出的共现网络结果可以导出为json格式,也可以通过Python包导出为Cytoscape、GML或其他常见的格式。

MiCoNE模块化式的构建使它可以分步骤运行,用户可以随时停止,也可以随时从任一步骤开始。文中使用了真实的实验数据、模拟微生物群数据以及合成的微生物相互作用数据,对MiCoNE的性能表现进行了一些测试和评估。

方 法

下图为MiCoNE的工作流程介绍。

该流程主要由五个模块组成,分别为:

  • SP(数据预处理)
  • DC(去噪和聚类)
  • TA(物种分类)
  • OP(OTU和ESV处理)
  • NI(网络推理)

每个模块下的方框都告知了该模块下包含的进程,以及执行该进程可选的工具或方法

在这里插入图片描述

SP模块中主要执行对序列的质检修剪,在MiCoNE中提交单个或多个样本混合的序列都可。

DC模块主要执行去噪和聚类,然后检查并移除序列中存在的嵌合体,该模块的输出是一个计数矩阵,它描述了每个样本(矩阵的列)中存在的特定OTU或ESV(矩阵的行)的读取次数

TA模块主要执行物种分类。可选的参考数据库有:

  • Greengenes13_8 (截至2013年5月)
  • Silva 138 (截至2020年8月)
  • NCBI的16S RefSeq数据库(截至2021年10月)

这些数据库是使用RESERT QIIME2插件下载和构建的。

在分配过程中,代表序列可能会被分配给一个“unknown”属,原因有两个:

一是数据库中与该序列相关联的分类标识符中没有包含给定的属信息

第二个更可能的原因是,数据库包含多个与查询(代表)序列非常相似的序列,而Consensus算法(来自QIIME2)无法以所需的置信度指定一个特定的属信息,也就是说如果数据库中没有该属信息,或者数据库中有多个与查询序列非常相似的序列,那么该代表性序列可能被标记为“unknown”属。

OP模块主要执行OTU或ESV计数矩阵的归一化、过滤和数据转换。默认情况下:

如果一个样本中的总读数少于500,那么过滤掉该样本

如果特征的相对丰度小于1%,则过滤掉该特征

如果特征在所有样本中的出现频率(含有该特征的样本百分比)小于5%,并且所有样本中该特征的计数总和小于100,则过滤掉该特征

换句话说,如果一个样本的数据量太小或者一个特征在样本中的出现频率、丰度都很低,那么它们都将被过滤掉。

NI模块主要执行网络推理,该模块包括四种基于相关性的方法和六种基于直接关联的方法,可以自由组合,对于计算显著性水平P值,根据关联强度和p值过滤后,应用研究人员开发出的共识算法,最终生成共现网络。

MiCoNE中包含的工具和方法在测试集中的表现和差异比较

1. 在DC模块中发现不同的去噪和聚类方法在识别丰度较低的序列方面有差异

使用五种方法处理了FMT研究的16S数据,分别为:

  • OR(open-reference clustering)
  • CR(closed-reference clustering)
  • DN(denovo clustering)
  • D2(DADA2)
  • DB(Deblur)

前三种方法来自QIIME2的vsearch插件OR和CR方法使用的参考数据库为Greengenes

通过计算所有样本的平均UniFrac距离,并在不同方法中进行比较,发现除了Deblur之外,其它方法产生的代表性序列在按其丰度加权时彼此相似差异主要在于分配较低丰度序列时。

哪个工具最能准确地概括样本中的参考序列?

使用相同的步骤处理了模拟数据集(mock4、mock12、mock16),并将预测的代表性序列与真实序列及其分布进行比较

结果如图CD,预测的序列分布与预期的完全不同。数据集之间的差异表明数据集本身在方法性能中有着很大的影响力

总体而言:

DADA2似乎是最可靠的,如图AB,它的加权UniFrac值在所有模拟数据集上都有更高的表现。

其次是Deblur,因为比较而言,OR和DN方法返回的OTU数量要多很多,如果不执行严格的过滤,将影响NI步骤的准确性。

但如果需要对不同16S区域进行测序的研究进行比较CR和OR方法可能是更好的选择。

去噪后,要对序列进行嵌合体检查,在MiCoNE中应用了两种检查方法,uchime-Denovoremove-bimera,经测试这两种方法之间没有显著差异

在这里插入图片描述

图AB用于分析的数据来自FMT研究,图CD中用于分析的数据来自模拟数据的mock 4、mock 12和mock 16数据集。基于以上结果,DC模块中的默认方法是DADA2+remove-bimera。

2. 在TA模块中发现参考数据库在分配目水平以下的分类水平时有较大差异

MiCoNE使用的16S分类参考数据库分别是:

  • Silva
  • Greengenes(GG)
  • (NCBI)RefSeq

对于GGSilva数据库,使用QIIME2的“naive Bayes”分类器,对于NCBI数据库,使用作为QIIME2插件的“BLAST”工具。

这些工具都经过了很好的量化和优化,因此都使用的默认参数

结果如下图所示:

在这里插入图片描述

图A展示了三个不同的参考数据库对前50个具有代表性的序列进行的属水平的物种注释,说明了相同的序列是如何被分配到不同数据库中的不同属中的。在GreengenesNCBI数据库中,代表序列的很大一部分被归入一个“unknown”。

图B比较了不同参考数据库之间分配给同一水平的代表性序列的数目(总和是前100个代表性序列),在较高的分类水平上,不匹配较少,但即使在目水平上,也存在超过51%的不匹配,这表明不同数据库的物种注释结果一致性较差

图C比较了模拟数据中不同数据库预测的物种和已知物种之间的Bray-Curtis距离,差异结果表明对于每个数据集,不存在唯一的最佳数据库选择,因为所有的数据库都表现出相似的性能。但由于Greengenes数据库的主流性,它被选为MiCoNE的TA步骤的默认参考数据库

3. 在NI模块中发现不同的网络推理方法生成的网络在边密度和连接性方面表现出显著差异

在这里插入图片描述

图A, 对来自FMT研究的健康人群数据使用不同网络推断方法生成了九个网络。每个网络的节点(代表物种)在圆形布局中排列,可以直接可视化比较它们之间的连接差异绿色的连线表示正相关橙色的连线表示负相关

这些网络看起来不同,并且在连接性方面差异很大,值得注意的是基于相关性的方法通常会产生具有更高边缘密度的网络。

而在本文中基于相关性的方法有sparcc、propr、spearman和pearson,设置了0.3的阈值;基于直接关联的方法有flashweave、spieceasi、cozine、harmonies和spring,设置了0.01的阈值。

为了量化网络之间的差异,如图B,使用Upset图展示所有网络中有很大比例的共享或单一节点的分布(68个里有33个是共享的)。

图C边缘重叠Upset图显示,这些连接中的一小部分实际上是共享的(202条里有8条是共享的)。

4. 在基准数据集中,scaled-sum(SS)方法表现出很高的精确度

研究人员开发了两种方法来生成共识网络(consensus network),分别为:

  • scaled-sum(SS)
  • simple voting(SV)

它们将基于相关性直接关联方法计算并过滤后的网络进行组合。基准数据集是计算机合成的相互作用数据,用于比较基于MiCoNE流程中的每种关联方法生成的预测关联的精确度和灵敏度。结果如下图:

在这里插入图片描述

图AC精确度的结果,图BD灵敏度的结果。总体而言,θ=0.333的SS方法表现最佳,灵敏度和精确度处在良好的平衡上,因此在MiCoNE工具中默认使用SS方法

5. 不同处理方法对共现网络的影响力比较,其中TA模块最甚

为了分析不同的处理方法对推理的共现网络的影响(在共识估计之前),研究人员使用MiCoNE中所有的方法组合生成网络,并量化每种选择导致的可变性,结果如下图:

在这里插入图片描述

图A为在线性模型上使用方差分析(ANOVA)计算MiCoNE流程中的DC、CC、TA、OP和NI步骤所贡献的网络方差百分比(从FMT数据集生成)。

图BPCA图每个点表示使用MiCoNE流程中可用的工具参数的不同组合推理的网络。点的颜色对应于流程中每一步骤(DC、TA、OP和NI)。

数据显示TA步骤对网络方差的影响最大,这意味着参考数据库的变化将导致截然不同的网络,其次是OP步骤的过滤水平和所使用的NI算法。

MiCoNE流程中的默认参数设置

经过上面的测试和分析,研究人员发现工具和参数的选择对最终呈现的网络有很大的影响,因此提供了一组默认设置,如下表,灰色突出显示的工具是MiCoNE的默认工具,这些工具是基于模拟和合成数据集的基准测试推荐的。

在这里插入图片描述

使用上面的默认工具和参数从FMT数据集中分别对自闭症人群(ASD)和健康对照(Healthy)生成的网络进行比较,结果如下图,对照样本的网络中有22个独有的连接,自闭症样本的网络中有12个独有的连接,两个网络之间有7个共同的边。

在这里插入图片描述

研究人员认为尽管这些独有的关联并不意味着实际的相互作用,但它们仍然可以作为文献调查和进一步探索菌群失调机制的起点。

结 论

MiCoNE工作流程提供了一个平台,可以轻松评估任何其他感兴趣的数据集在每个工作流程步骤的准确性、方差和其他属性。虽然MiCoNE内包含的工具方法较多,但研究人员基于测试结果也提供了一套默认参数,公开的测试结果也提高了可信度

目前而言,MiCoNE的网络分析主要以属水平为基础,节点的最低分辨率是属水平,如果无法确定到属水平,就会使用上一层分类级别(例如,科水平)。不过,研究人员表示会持续更新和扩大MiCoNE的工作范围。

该项目的github地址

GitHub - segrelab/MiCoNE: The Microbial Co-occurrence Network Explorer

https://github.com/segrelab/MiCoNE

参考文献:

Kishore D, Birzu G, Hu Z, DeLisi C, Korolev KS, Segrè D. Inferring microbial co-occurrence networks from amplicon data: a systematic evaluation. mSystems. 2023 Jun 20:e0096122. doi: 10.1128/msystems.00961-22. Epub ahead of print. PMID: 37338270.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/848866.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

umi黑科技:把静态文件打包进静态网页中:P

为了能够跨平台通用,我现在很多工具都需要用JS进行开发。 比如我之前研究了半天的JS版本的报表工具。 但是这其中有个问题我没办法解决,就是有一些设置信息或者是模板文件需要一起打包进静态的页面中。 今天解决了这个问题,记录一下方法。 1…

Android 13 Launcher——屏蔽长按非icon区域出现弹窗

目录 一.背景 二.屏蔽此功能 一.背景 长按Launcher非icon区域也是会有弹窗的,会显示小组件等信息,定制开发要求长按非icon区域不要弹窗,我们来实现此功能,先看下未修改前的长按非icon区域的效果 如上图可以看出长按功能显示出壁…

计网实验第三章:UDP

问题集1 问题一 问题参考Wireshark的报文内容字段的显示信息 在这个数据包中,确定每个UDP报头字段的长度(以字节为单位) 答:96 bytes 问题二 长度字段中的值是什么的长度?你可以参考课文 这个答案)。用捕获的UDP数据包验证您的声明。 答&#xff1…

Cesium相机理解

关于cesium相机,包括里面内部原理网上有很多人讲的都很清楚了,我感觉这两个人写的都挺好得: 相机 Camera | Cesium 入门教程 (syzdev.cn) Cesium中的相机—setView&lookAtTransform_cesium setview_云上飞47636962的博客-CSDN博客上面这…

培训报名小程序报名确认开发

目录 1 创建页面2 创建URL参数3 信息展示4 消息订阅5 页面传参6 程序预览总结 我们上一篇介绍了报名功能的开发,在用户报名成功后需要展示报名的确认信息,如果信息无误提示用户支付,在支付之前需要让用户进行授权,允许小程序给用户…

打破传统直播,最新数字化升级3DVR全景直播

导语: 近年来,随着科技的不断创新和发展,传媒领域也正经历着一场前所未有的变革。在这个数字化时代,直播已经不再仅仅是在屏幕上看到一些人的视频,而是将观众带入一个真实世界的全新体验。其中,3DVR全景直…

Windows11右键菜单

刚开始使用Windows11时,新的右键菜单用起来很不习惯。 记录一下修改和恢复Windows11的右键菜单的方法。 1.Win11切换到旧版右键菜单: 方法:WinR打开CMD,运行下面的命令行 添加注册列表重启Windows资源管理器 reg add "HKC…

elevation mapping学习笔记3之使用D435i相机离线或在线订阅点云和tf关系生成高程图

文章目录 0 引言1 数据1.1 D435i相机配置1.2 协方差位姿1.3 tf 关系2 离线demo2.1 yaml配置文件2.2 launch启动文件2.3 数据录制2.4 离线加载点云生成高程图3 在线demo3.1 launch启动文件3.2 CMakeLists.txt3.3 在线加载点云生成高程图0 引言 elevation mapping学习笔记1已经成…

内网穿透:如何通过公网访问本地Web服务器?

文章目录 前言1. 首先安装PHPStudy2.下载一个开源的网页文件3. 选择“创建网站”并将网页内容指向下载好的开源网页文件4. 打开本地网页5. 打开本地cpolar客户端6. 保存隧道设置 生成数据隧道 前言 随着科技进步和时代发展,计算机及互联网已经深深融入我们的生活和…

Activiti7工作流

一、Activiti7概述 官网地址:https://www.activiti.org/ Activiti由Alfresco软件开发,目前最高版本Activiti 7。是BPMN的一个基于java的软件实现,不过 Activiti 不仅仅包括BPMN,还有DMN决策表和CMMN Case管理引擎,并且…

5个最流行的免费AI应用托管平台

完成机器学习项目后,是时候展示你的模型的性能了。 你可以创建前端应用程序或使用 REST API。 随着 Streamlit、Gradio 和 FAST API 的引入,创建前端应用程序变得无忧无虑。 这些 Web 框架需要几行代码来创建交互式用户界面。 与公众分享你的工作有助于你…

0-1搭建vue项目工程

一、下载node.js 简单介绍: Node.js是一个基于V8引擎的JavaScript运行时环境,它允许开发者在服务器端使用JavaScript进行开发。Node.js是一个非常强大的工具,可以帮助开发者构建高性能、可扩展的Web应用程序,并且可以与各种技术…

使用appuploader工具流程(Windows版本)

转载:使用appuploader工具流程(Windows版本) 目录 转载:使用appuploader工具流程(Windows版本) 一.登录apple官网,注册账号 二.下载Appuploader和登录 三.bundle ID 四.设备管理 五.证书管…

【python】 油管外挂字幕下载位srt歌词字幕文本文件

【python】 油管外挂字幕下载位srt文本文件 案例截图 案例代码 # python程序,可以下youtube视频的字幕文件。输入一个视频的url,就会下载它的字幕文件到一个文件夹里。 # Author WeChat:****请私信, # Date:2023-8-2, # Email:ack1024#hotmail.com # 本…

全国首创!法大大助力深圳率先在企业开办领域引入音视频双录签名模式

为了进一步规范市场主体登记行为,提高企业办事便利度,近日深圳引入录音录像双录签名新模式,实现用户无介质全流程快捷申报,进一步降低了开办企业成本,为企业开办注入加速度。 无需法人、监事等企业负责人再到业务办理大…

Python - series和dataframe的关系

目录 1 series和dataframe的关系 2 创建一个df 3 用index过滤不同行 4 用row 过滤 5 用series构建dataframe 1 series和dataframe的关系 类似集合与元素的关系DataFrame中的一行or一列的取值,返回的结果都是series通过几个series,可以创建一个da…

Redis的安装方法与基本操作

目录 前言 一、REDIS概述 二、REDIS安装 1、编译安装 2.yum安装 三、Redis的目录结构 四、基础命令解析 五、在一台服务器上启动多个redis 六、数据库的基本操作 (一)登录数据库 (二)基础命令 七、Redis持久化 (一&…

【EI复现】梯级水光互补系统最大化可消纳电量期望短期优化调度模型(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

Tomcat线程池原理

1. 一个 SpringBoot 项目能同时处理多少请求?tomcat容器, 200 次。 2. 怎么来的? 而点击这些线程,查看其堆栈消息,可以看到 Tomcat、threads、ThreadPoolExecutor 等关键字 基于“短时间内有 200 个请求被立马处理…

【Docker】Docker中network的概要、常用命令、网络模式以及底层ip和容器映射变化的详细讲解

🚀欢迎来到本文🚀 🍉个人简介:陈童学哦,目前学习C/C、算法、Python、Java等方向,一个正在慢慢前行的普通人。 🏀系列专栏:陈童学的日记 💡其他专栏:CSTL&…