一、研究背景
扩增子测序是分析微生物组成熟且成本较低的方法。然而,扩增子数据处理需要生物信息学技能和高计算能力来处理大数据集。此外,只有小部分工具适用于长读长扩增子数据分析。2022年10月Microbiome发表了一种新的扩增子数据处理神器——LotuS2,用户操作更友好、运行速度更快、精确度更高。LotuS2可以通过以下方式安装:(i) Bioconda, (ii)带有提供的autoInstaller脚本的GitHub;(iii)使用Docker映像;(iv) Galaxy web服务器也可以运行LotuS2。
二、LotuS2的分析流程
输入扩增子测序reads、barcode、样本信息以及其他信息。经过筛选得到高质量序列,聚类生成ASV或OTU。计算每个OTU/ ASV的最佳序列,其中中等质量的reads也被映射到OTU/ ASV上,以增加序列丰度。从OTU/ASV序列构建系统发生树,并对每个簇进行分类分配。这些结果以多种标准格式提供,如制表符分隔、biom或phyloseq,以支持下游分析。
图1 LotuS2的工作流程
三、LotuS2的计算性能和可靠性
使用4个数据集验证LotuS2计算性能和可靠性。数据集由技术重复(肠道- 16s、土壤- 16s和土壤- its)和模拟群落组成。技术重复用于评估群落结构的重现性,并使用不同的16S rRNA扩增引物(肠道-16S和土壤-16S)或ITS序列(土壤-ITS)来代表不同的生物群落。
1. 计算性能和数据利用率
对gut-16S数据集的完整分析在LotuS2中是最快的(图2A)。与其他测试流程相比,LotuS2在分析soil- 16S数据集时也更快(图2B)。LotuS2和QIIME 2之间的速度差异在soil-ITS数据集的分析中更为明显,LotuS2的平均速度是QIIME 2和DADA2的69倍。
LotuS2报告的asv / otu最少,但在丰度表中包含的reads却最多,这表明LotuS2在每个ASV/OTU覆盖更大的序列空间的同时,可以更有效地使用输入数据。
图2 扩增子测序管道的计算性能
2. 群落组成的可重复性
研究者通过比较技术重复之间的beta多样性来评估肠道- 16s、土壤- 16s和土壤- its数据集的管道之间的群落组成的再现性。发现LotuS2生成的群落组成具有更大的重现性(图3A, B)。在肠道和土壤- 16s数据集中,LotuS2- uparse的BCd和Jd最低(图3A, B)。
在使用相同聚类算法的情况下,LotuS2- DADA2组分的重现性也高于QIIME 2-DADA2和DADA2(仅在土壤数据上显著)。
最后,研究者计算了在肠道-16S数据集和土壤-16S数据集中技术重复样本之间报告的alpha多样性的再现性。在这两个数据集中,LotuS2和PipeCraft 2结果中 alpha多样性在技术重复之间没有显著差异。但mothur、QIIME 2和DADA2结果中的alpha多样性存在显著差异。
图3 不同扩增子序列数据分析管道的再现性
3. 对soil - ITS数据集进行基准测试
与16S rRNA基因扩增子相比,ITS扩增子通常片段长度差异更大。在数据利用方面,LotuS2和QIIME 2- dada2都检索到相似的reads数量(图2F)。与LotuS2-UPARSE相比,QIIME 2-DADA2在复制样品中复制的真菌成分明显较差。然而,它在最接近其技术复制的样品中所占比例最高,尽管该比例在所有管道中总体上都非常高(图3F)。与其他流程相比,DADA2复制样本之间的数据使用效率最低(图2F)和最低的可重复性(图3C)。在使用UPARSE和CD-HIT聚类时,LotuS2在重复之间的BCd和Jd总体上最低(图3C)。
4. 对模拟微生物群落的数据集进行基准测试
利用已知物种组成的模拟群落对扩增子序列数据分析管道的性能进行基准测试。LotuS2-VSEARCH和LotuS2-UPARSE具有最高的精度、f值和分配为真阳性分类群的reads的比例(图4A)
研究者探究了哪种软件可以更好地生成正确的OTU/ASV序列。为此,计算了每个软件中与参考基因组16S rRNA序列具有97-100%核苷酸相同的TP OTUs/ASVs的比例(图4B)。LotuS2- dada2和LotuS2- vsearch优于其他软件,这可能与LotuS2中严格的读筛选和种子扩展步骤有关。
LotuS2对已报道的16S rRNA基因序列进行了更精确的排序,得到更多正确的分类,并检测了生物多样性。
图 利用模拟群落对扩增子序列数据分析管道的性能进行基准测试
四、实验结论
LotuS2 中提供了六种不同的序列聚类算法以及广泛的前后-处理选项,给用户提供更灵活的数据分析范围,其中参数可以完全调整,新手可以为不同的场景提供默认值。通过对独立的肠道和土壤数据集进行了测试,发现LotuS2具有运行速度快、可重复性高的优点。相比其他软件,LotuS2能够提供更高比例的正确分类单元。总体而言,LotuS2 是一个轻量级、用户友好型分析软件。
参考文献
LotuS2: an ultrafast and highly accurate tool for amplicon sequencing analysis. Microbiome. 2022