谷禾健康
微生物群通常由数百个物种组成的群落,这些物种之间存在复杂的相互作用。绘制微生物群落中不同物种之间的相互关系,对于理解和控制其结构和功能非常重要。
微生物群高通量测序的激增导致创建了数千个包含微生物丰度信息的数据集。这些丰度可以转化为共现网络,让我们了解微生物组内的关联。
然而,处理这些数据集以获得共现信息依赖于几个复杂的步骤,每个步骤都涉及大量工具和相应参数的选择。
本文给大家介绍一个标准化流程——MiCoNE,该流程可以从微生物群落的16S序列数据中生成稳健且可重复的共现网络,并使用户能够交互式地探索在每个步骤中使用不同的替代工具和参数时网络会如何变化。
MiCoNE推理出的共现网络结果可以导出为json格式,也可以通过Python包导出为Cytoscape、GML或其他常见的格式。
MiCoNE模块化式的构建使它可以分步骤运行,用户可以随时停止,也可以随时从任一步骤开始。文中使用了真实的实验数据、模拟微生物群数据以及合成的微生物相互作用数据,对MiCoNE的性能表现进行了一些测试和评估。
方 法
下图为MiCoNE的工作流程介绍。
该流程主要由五个模块组成,分别为:
- SP(数据预处理)
- DC(去噪和聚类)
- TA(物种分类)
- OP(OTU和ESV处理)
- NI(网络推理)
每个模块下的方框都告知了该模块下包含的进程,以及执行该进程可选的工具或方法。
在SP模块中主要执行对序列的质检和修剪,在MiCoNE中提交单个或多个样本混合的序列都可。
DC模块主要执行去噪和聚类,然后检查并移除序列中存在的嵌合体,该模块的输出是一个计数矩阵,它描述了每个样本(矩阵的列)中存在的特定OTU或ESV(矩阵的行)的读取次数。
TA模块主要执行物种分类。可选的参考数据库有:
- Greengenes13_8 (截至2013年5月)
- Silva 138 (截至2020年8月)
- NCBI的16S RefSeq数据库(截至2021年10月)
这些数据库是使用RESERT QIIME2插件下载和构建的。
在分配过程中,代表序列可能会被分配给一个“unknown”属,原因有两个:
一是数据库中与该序列相关联的分类标识符中没有包含给定的属信息
第二个更可能的原因是,数据库包含多个与查询(代表)序列非常相似的序列,而Consensus算法(来自QIIME2)无法以所需的置信度指定一个特定的属信息,也就是说如果数据库中没有该属信息,或者数据库中有多个与查询序列非常相似的序列,那么该代表性序列可能被标记为“unknown”属。
OP模块主要执行OTU或ESV计数矩阵的归一化、过滤和数据转换。默认情况下:
如果一个样本中的总读数少于500,那么过滤掉该样本;
如果特征的相对丰度小于1%,则过滤掉该特征;
如果特征在所有样本中的出现频率(含有该特征的样本百分比)小于5%,并且所有样本中该特征的计数总和小于100,则过滤掉该特征。
换句话说,如果一个样本的数据量太小或者一个特征在样本中的出现频率、丰度都很低,那么它们都将被过滤掉。
NI模块主要执行网络推理,该模块包括四种基于相关性的方法和六种基于直接关联的方法,可以自由组合,对于计算显著性水平P值,根据关联强度和p值过滤后,应用研究人员开发出的共识算法,最终生成共现网络。
MiCoNE中包含的工具和方法在测试集中的表现和差异比较
▼
1. 在DC模块中发现不同的去噪和聚类方法在识别丰度较低的序列方面有差异
使用五种方法处理了FMT研究的16S数据,分别为:
- OR(open-reference clustering)
- CR(closed-reference clustering)
- DN(denovo clustering)
- D2(DADA2)
- DB(Deblur)
前三种方法来自QIIME2的vsearch插件,OR和CR方法使用的参考数据库为Greengenes。
通过计算所有样本的平均UniFrac距离,并在不同方法中进行比较,发现除了Deblur之外,其它方法产生的代表性序列在按其丰度加权时彼此相似;差异主要在于分配较低丰度序列时。
哪个工具最能准确地概括样本中的参考序列?
使用相同的步骤处理了模拟数据集(mock4、mock12、mock16),并将预测的代表性序列与真实序列及其分布进行比较。
结果如图CD,预测的序列分布与预期的完全不同。数据集之间的差异表明数据集本身在方法性能中有着很大的影响力。
总体而言:
DADA2似乎是最可靠的,如图AB,它的加权UniFrac值在所有模拟数据集上都有更高的表现。
其次是Deblur,因为比较而言,OR和DN方法返回的OTU数量要多很多,如果不执行严格的过滤,将影响NI步骤的准确性。
但如果需要对不同16S区域进行测序的研究进行比较,CR和OR方法可能是更好的选择。
去噪后,要对序列进行嵌合体检查,在MiCoNE中应用了两种检查方法,uchime-Denovo和remove-bimera,经测试这两种方法之间没有显著差异。
图AB用于分析的数据来自FMT研究,图CD中用于分析的数据来自模拟数据的mock 4、mock 12和mock 16数据集。基于以上结果,DC模块中的默认方法是DADA2+remove-bimera。
▼
2. 在TA模块中发现参考数据库在分配目水平以下的分类水平时有较大差异
MiCoNE使用的16S分类参考数据库分别是:
- Silva
- Greengenes(GG)
- (NCBI)RefSeq
对于GG和Silva数据库,使用QIIME2的“naive Bayes”分类器,对于NCBI数据库,使用作为QIIME2插件的“BLAST”工具。
这些工具都经过了很好的量化和优化,因此都使用的默认参数。
结果如下图所示:
图A展示了三个不同的参考数据库对前50个具有代表性的序列进行的属水平的物种注释,说明了相同的序列是如何被分配到不同数据库中的不同属中的。在Greengenes和NCBI数据库中,代表序列的很大一部分被归入一个“unknown”。
图B比较了不同参考数据库之间分配给同一水平的代表性序列的数目(总和是前100个代表性序列),在较高的分类水平上,不匹配较少,但即使在目水平上,也存在超过51%的不匹配,这表明不同数据库的物种注释结果一致性较差。
图C比较了模拟数据中不同数据库预测的物种和已知物种之间的Bray-Curtis距离,差异结果表明对于每个数据集,不存在唯一的最佳数据库选择,因为所有的数据库都表现出相似的性能。但由于Greengenes数据库的主流性,它被选为MiCoNE的TA步骤的默认参考数据库。
▼
3. 在NI模块中发现不同的网络推理方法生成的网络在边密度和连接性方面表现出显著差异
如图A, 对来自FMT研究的健康人群数据使用不同网络推断方法生成了九个网络。每个网络的节点(代表物种)在圆形布局中排列,可以直接可视化和比较它们之间的连接差异。绿色的连线表示正相关,橙色的连线表示负相关。
这些网络看起来不同,并且在连接性方面差异很大,值得注意的是基于相关性的方法通常会产生具有更高边缘密度的网络。
而在本文中基于相关性的方法有sparcc、propr、spearman和pearson,设置了0.3的阈值;基于直接关联的方法有flashweave、spieceasi、cozine、harmonies和spring,设置了0.01的阈值。
为了量化网络之间的差异,如图B,使用Upset图展示所有网络中有很大比例的共享或单一节点的分布(68个里有33个是共享的)。
图C边缘重叠Upset图显示,这些连接中的一小部分实际上是共享的(202条里有8条是共享的)。
▼
4. 在基准数据集中,scaled-sum(SS)方法表现出很高的精确度
研究人员开发了两种方法来生成共识网络(consensus network),分别为:
- scaled-sum(SS)
- simple voting(SV)
它们将基于相关性和直接关联方法计算并过滤后的网络进行组合。基准数据集是计算机合成的相互作用数据,用于比较基于MiCoNE流程中的每种关联方法生成的预测关联的精确度和灵敏度。结果如下图:
图AC为精确度的结果,图BD为灵敏度的结果。总体而言,θ=0.333的SS方法表现最佳,灵敏度和精确度处在良好的平衡上,因此在MiCoNE工具中默认使用SS方法。
▼
5. 不同处理方法对共现网络的影响力比较,其中TA模块最甚
为了分析不同的处理方法对推理的共现网络的影响(在共识估计之前),研究人员使用MiCoNE中所有的方法组合生成网络,并量化每种选择导致的可变性,结果如下图:
图A为在线性模型上使用方差分析(ANOVA)计算MiCoNE流程中的DC、CC、TA、OP和NI步骤所贡献的网络方差百分比(从FMT数据集生成)。
图B为PCA图,每个点表示使用MiCoNE流程中可用的工具和参数的不同组合推理的网络。点的颜色对应于流程中每一步骤(DC、TA、OP和NI)。
数据显示TA步骤对网络方差的影响最大,这意味着参考数据库的变化将导致截然不同的网络,其次是OP步骤的过滤水平和所使用的NI算法。
MiCoNE流程中的默认参数设置
经过上面的测试和分析,研究人员发现工具和参数的选择对最终呈现的网络有很大的影响,因此提供了一组默认设置,如下表,灰色突出显示的工具是MiCoNE的默认工具,这些工具是基于模拟和合成数据集的基准测试推荐的。
使用上面的默认工具和参数从FMT数据集中分别对自闭症人群(ASD)和健康对照(Healthy)生成的网络进行比较,结果如下图,对照样本的网络中有22个独有的连接,自闭症样本的网络中有12个独有的连接,两个网络之间有7个共同的边。
研究人员认为尽管这些独有的关联并不意味着实际的相互作用,但它们仍然可以作为文献调查和进一步探索菌群失调机制的起点。
结 论
MiCoNE工作流程提供了一个平台,可以轻松评估任何其他感兴趣的数据集在每个工作流程步骤的准确性、方差和其他属性。虽然MiCoNE内包含的工具方法较多,但研究人员基于测试结果也提供了一套默认参数,公开的测试结果也提高了可信度。
目前而言,MiCoNE的网络分析主要以属水平为基础,节点的最低分辨率是属水平,如果无法确定到属水平,就会使用上一层分类级别(例如,科水平)。不过,研究人员表示会持续更新和扩大MiCoNE的工作范围。
该项目的github地址:
GitHub - segrelab/MiCoNE: The Microbial Co-occurrence Network Explorer
参考文献:
Kishore D, Birzu G, Hu Z, DeLisi C, Korolev KS, Segrè D. Inferring microbial co-occurrence networks from amplicon data: a systematic evaluation. mSystems. 2023 Jun 20:e0096122. doi: 10.1128/msystems.00961-22. Epub ahead of print. PMID: 37338270.