高分综述:人类肠道病毒组分类的进展和挑战

news2025/2/25 20:22:54

期刊:Cell Host Microbe

影响因子:31.316

发表时间:2022.7

- 一、摘要 -

人类肠道病毒组通常被称为肠道微生物组的“暗物质”,仍未得到充分研究。了解不同人群肠道病毒组的组成和变化对于探索其对人类健康的影响至关重要。人类肠道病毒组研究揭示了肠道病毒的高度遗传多样性和各种功能潜力。本综述总结了最近可用的四个人类肠道病毒组数据库,并讨论了它们的特征、构建过程和挑战,旨在为研究人员在选择数据库时提供参考。本综述还提出了对病毒种群进行分类的“最佳实践”。

- 二、背景介绍 -

粪便中人类肠道病毒浓度为109-10个病毒颗粒(VLPs)/g,是肠道微生物群中不可忽视的组成部分,具有高丰度、时间持久性和显著的多样性。虽然存在真核病毒,但人类肠道病毒组主要由噬菌体构成。最近的研究表明,病毒组可能在人类肠道菌群的生态过程中发挥重要作用。在炎症性肠病、糖尿病、高血压、艾滋病、结直肠癌和急性营养不良中,已报道肠道病毒组的疾病特异性改变。

肠道病毒组研究一般有两种测序策略:VLP宏基因组学(也称为病毒宏基因组学)和整体宏基因组学。

基于病毒RefSeq数据库的分析是直接将宏基因组测序reads与包含已知肠道相关病毒的公共数据库对比,导致对肠道病毒群组成的描述较差和不完整。因此,宏基因组测序和重新组装相结合被认为是揭示肠道噬菌体种群多样性和促进新病毒基因组发现的关键方案。过去几年里,一些人类肠道病毒库相继发表,这些数据库极大地扩展了人们对人类肠道病毒基因组的认识,并提供了丰富的注释信息。

然而,这些数据库之间可区分的特征和构建方法有差异,这导致了两个关键问题:①如何选择合适的数据库;②如何选择适当的参考程序。本综述讨论了肠道病毒数据库构建的差异和影响,并预测了未来研究中仍需解决的挑战。

- 三、人肠道病毒体的特征数据库 -

对过去2年发表的大规模宏基因组数据集建立的4个肠道病毒组数据库进行描述。

1)肠道病毒数据库(GVD)是基于2,697个人类肠道宏基因组数据,获得33,242个病毒种群(vOTUs),并记录了病毒多样性在健康个体的整个生命周期中的变化。

2)Cenote人病毒组数据库(CHVD)分析人不同部位(肠道、口腔、鼻子、皮肤和阴道)的5996个宏基因组样本测序数据,获得45033个非冗余的vOTUs,并发现了2200多个病毒类群与帕金森病和肥胖等几种慢性疾病的关联。

3)宏基因组肠道病毒数据库 (MGV) 是基于已发表的11,810 个人类粪便宏基因组测序数据,对病毒基因组进行大规模鉴定, 获得54,118 个vOTUs,这些基因组极大地扩展了肠道微生物组中 DNA 病毒的已知多样性,并提高了对宿主-病毒关联的了解。

4)肠道噬菌体数据库(GPD)是通过调查28,060个人类肠道宏基因组形成的一个更广泛的人类病毒库,其中包含142,809个非冗余肠道噬菌体基因组。GPD将噬菌体与特定的细菌宿主联系起来,并披露了人类肠道病毒体的全球分布特征。

这四项研究共同证明了人类肠道病毒体的高度多样性。随着样本量的增加,识别到的vOTU数量也在增加(图1A),这意味着目前发布的肠道病毒库并未达到饱和。

表1 4个人类肠道病毒库的情况

维恩图(图1B)显示了用于构建这四个肠道病毒库研究的重叠情况。78.8%的GVD研究和24.0%的CHVD研究采用VLP宏基因组学策略(图1C)。

据报道,地理、饮食、遗传和药物等宿主因素会塑造人类肠道病毒体。在一项针对中国人群的肠道病毒体研究中,发现地理对人类肠道病毒体变异的影响最为显著。本综述分析了4个数据库样本的地理分布(图1D),GPD从大洋洲收集的样本为3432个,远远超过了MGV、CHVD和GVD,这意味着GPD更适合大洋洲肠道病毒群的研究。

图1 四个肠道病毒库样本数量、已发表的研究以及样本的地理组成

四、病毒数据库的构建流程

通过从宏基因组数据集中组装病毒基因组,可以建立一个更全面的病毒数据库。上述这四个肠道病毒数据库从28,000个样本中收集到肠道病毒组,为肠道病毒的研究奠定良好基础。然而,四个数据库在执行类似程序的方式上有差异,因此,需要一种对人类肠道病毒体进行编目的标准化过程。

本综述将这些过程分为五个部分:reads组装、病毒contig识别、基因组质量评估、分类学注释和细菌宿主分配。结合每项研究的优点,提出了一个肠道病毒体编目的“最佳实践”实现。

图2 肠道病毒组编目的工作流程

五、宏基因组组装、病毒识别和质量评估

人类肠道菌群的大部分宏基因组测序数据来自细胞生物,为了解决这一问题,肠道病毒数据库的研究包括三个过程:宏基因组测序数据的组装、推定病毒序列的识别、病毒基因组的质量控制和评估。

组装:肠道病毒的高度多样性、个体特异性、可变丰度以及整合前噬菌体和宿主基因组序列之间的模糊边界等特征阻碍了病毒基因组的精确组装:MEGAHIT和metaSPAdes是目前病毒库研究中常用的两种方法。MEGAHIT在组装大型复杂宏基因组数据时具有更快的速度和更少的计算机内存消耗,而metaSPAdes的特点是对计算资源的需求更高,但在获得较长的contigs时具有更好的性能。

病毒序列的识别:肠道病毒缺乏一种通用的标志基因,这里讨论的研究应用了各种复杂的方法来识别病毒,包括:(1)VirSorter软件是使用隐马尔可夫模型(HMM)搜索病毒蛋白家族的存在;(2)VirFinder或DeepVirFinder是利用病毒核苷酸特征,如k-mer频率和GC skew值;(3)基因组末端特征,如直接末端重复序列和反向末端重复序列;(4)同一链上的多个相邻基因。多种方法联合使用。

对假定病毒序列进行质控去除假阳性序列,通常是基于以下几种方法进行的:

(1)通过HMM搜索细菌蛋白家族排除细菌序列;

(2)使用机器学习分类器或HMM搜索将噬菌体与结合移动元件区分;

(3)使用CheckV或Cenote-Taker 2修剪前噬菌体的宿主侧翼序列;

(4)去除人类、动物序列;

(5)消除已知的污染物。

去除假阳性序列后,通过CheckV自动化流程估计基因组完整性来评估剩余病毒contigs的质量。如表1所示,三个数据库中病毒的完整度都不高,这表明目前病毒基因组数据库中的基因组很大程度上是碎片化的。

总之,以上三个步骤在GPD、MGV、CHVD和GVD研究中是相似的,但每一项研究对病毒鉴定和质量控制都不尽相同,每个研究使用的不同标准是互补的,未来的研究可能通过综合考虑所有这些标准来获得更高的特异性和更有利的表现。

- 六、细菌寄主分配 -

鉴定噬菌体的宿主范围对于理解肠道微生态至关重要,包括以下内容:

(1)噬菌体动力学和进化是如何被重塑的;

(2)细菌生长和代谢是如何重新连接的;

(3)如何促进水平基因转移(HGT);

(4)噬菌体相互作用如何影响人类健康。

计算方法可分为依赖序列对比和不依赖序列比对。依赖对比方法通过筛选与噬菌体匹配的CRISPR间隔区来进行。以此为原理的工具包括CRISPRDetect和CRISPRCasFinder。然而,大多数新组装的噬菌体序列与任何参考数据库都不匹配,并且只有大约40%的细菌携带CRISPR-Cas系统。

不依赖于序列比对的工具可以增加宿主预测百分比。基于基因组寡核苷酸k-mer频率的机器学习的工具,其预测准确率在28%~81%之间(属水平)。不依赖于序列对比的工具显示出相对较低的准确性,并且预测通常限于属水平及以上。

GPD、MGV、CHVD和GVD研究均采用了依赖序列比对方法以及CRISPR序列分配宿主(图2)。MGV内81%的噬菌体注释到宿主,其次是CHVD内69%、GVD内42%和GPD内29%(表1)。通过检查数据库构建的程序,研究者总结出两个可能对宿主预测性能至关重要的因素。首先,宿主分配很大程度上取决于CRISPR序列数据库,特别是数据库的大小和来源。

总之,依赖对比方法的宿主预测的性能主要受间隔数据库的大小和来源以及对齐参数设置的影响。研究人员可以结合结合多个CRISPR间隔区数据库,以提高宿主预测的灵敏度,根据研究的目的选择适当的对齐参数。还可以改进机器学习模型和输入特征,如phisdetector和VirHostMatcher-Net使用集成特征来提高预测精度。总之,必须整合不依赖比对和依赖比对的方法,在提高宿主预测的灵敏度的同时保证准确性。

- 七、总结与展望 -

本综述总结了四个肠道病毒数据库的特点,有助于后续研究选择更合适的数据库。此外,研究者发现涉及的宏基因组数据集越多,识别出的物种样vOTU数量越多,表明目前的数据库仍然没有达到肠道病毒多样性的饱和。通过普通病毒宏基因组测序鉴定ssDNA、ssRNA和dsRNA噬菌体存在局限性。综述总结了肠道病毒组分类时涉及的典型程序,提出了一种考虑到每项研究优点的“最佳实践”方法。希望这一最佳实践方法将对计划建立或更新病毒数据库的研究人员具有指导意义和信息价值。

新病毒的注释似乎更具挑战性,在属和科的水平上,关于阈值和聚类算法还没有达成共识。仍需要开发一种可行和稳健的噬菌体系统发育方法。最后,研究者注意到在四个病毒组数据库中细菌宿主指定的噬菌体的比例变化很大,受所使用的CRISPR间隔区数据库大小和错配设置的影响,增加间隔区序列比对中的错配数目会显著降低细菌宿主预测的准确性。

除了上述的进展和挑战,目前的研究对病毒进行分类仅仅是揭开肠道病毒奥秘的开始。类似于研究肠道细菌组与人类健康之间因果关系的策略,未来应开展一系列全病毒关联研究。鉴于病毒基因组表现出独特的特征,并且噬菌体系统发育的局限性,现有的微生物组分析工具可能不适用于病毒范围内的关联分析。因此,应广泛努力开发专门用于病毒组研究的分析工具包,如高效的病毒组图谱分析和噬菌体-宿主动态相互作用分析。


参考文献

Advances and challenges in cataloging the human gut virome

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/151446.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

聊透Spring事件机制

1、概述 事件机制是Spring为企业级开发提供的神兵利器之一,它提供了一种低耦合、无侵入的解决方式。 但其实Spring事件的设计其实并不复杂,它由三部分组成:事件、发布器、监听器。事件是主体,发布器负责发布事件,监听…

Lottie简介 + 结合到vue3中使用

Lottie简介 结合封装到vue3中使用前言:一、Lottie是什么1. 官方介绍2. 实现流程3. 动画资源二、为什么要选择Lottie三、lottie-web的使用1. 安装导入2. 初始化动画实例3. lottie-web支持的控制动画的主要方法4. lottie-web支持的监听动画的常用的事件四、lottie-we…

C++字符编码详解及利用string遍历中文字符串

作者:非妃是公主 专栏:《笔记》《C》 个性签:顺境不惰,逆境不馁,以心制境,万事可成。——曾国藩 文章目录C遍历英文字符串C遍历中文字符串(不会出问题情况)C遍历中文字符串&#xff…

Linux基础——进程的概念和控制(操作系统级讲解)

前言 我们经常会听到一个概念——进程。但是进程并不是一个孤立的概念,需要对操作系统有比较深入的了解。所以这篇博客将在读者的脑中先对操作系统构建一个大概的印象,再对进程做了解。 冯诺依曼结构 冯诺依曼结构也称普林斯顿结构,是一种…

微信小程序|智能停车系统中车牌计费功能实现

📌个人主页:个人主页 ​🧀 推荐专栏:小程序开发成神之路 --【这是一个为想要入门和进阶小程序开发专门开启的精品专栏!从个人到商业的全套开发教程,实打实的干货分享,确定不来看看? …

数据结构基础篇》》约瑟夫环

数据结构开讲啦!!!🎈🎈🎈 本专栏包括: 抽象数据类型线性表及其应用栈和队列及其应用串及其应用数组和广义表树、图及其应用存储管理、查找和排序将从简单的抽象数据类型出发,深入浅出…

python 基础入门

文章目录前言python 基础入门一、python环境如何搭建、开发工具pycharm如何破解01 python下载02 python 安装03 python开发工具安装(pycharm )03::01 安装pycharm03::02 多次试用二、python 常规基础01 python 规范02 python中的关键字03 python缩进04 python注释哈哈哈前言 如…

07-JVM 类加载机制?

1.JVM 类加载机制分为五个部分:加载,验证,准备,解析,初始化。 2.一个类型从被加载到虚拟机内存中开始,到卸载出内存为止,它的整个生命周期将会经历加载(Loading、验证(V…

分布式版本控制Git

从基本的环境配置与安装到Git的基本操作,轻松应对Git在使用时遇到的常见问题。 https://blog.csdn.net/a18307096730/article/details/124586216?spm1001.2014.3001.550202_版本控制器的方式03_svn(过时)_git04git工作流程简述05git环境配与安装06 获取本地仓库Git…

P3375 【模板】KMP字符串匹配

题目描述 给出两个字符串 s_1s1​ 和 s_2s2​,若 s_1s1​ 的区间 [l, r][l,r] 子串与 s_2s2​ 完全相同,则称 s_2s2​ 在 s_1s1​ 中出现了,其出现位置为 ll。 现在请你求出 s_2s2​ 在 s_1s1​ 中所有出现的位置。 定义一个字符串 ss 的 bor…

概率论【离散型二维变量与连续性二维变量(上)】--猴博士爱讲课

5.离散型二维变量与连续性二维变量(上) 1/8 已知二维离散型分布律,求??? 离散型直接看表 【做题方法参考如下】 2/8 已知二维离散型分布律,判断独立性 如果满足p(xy) p(x) * p(y),那么相互独立 则我们只需要验证每…

C 程序设计教程(12)—— C 语言顺序结构程序设计

C 程序设计教程(12)—— C 语言顺序结构程序设计 该专栏主要介绍 C 语言的基本语法,作为《程序设计语言》课程的课件与参考资料,用于《程序设计语言》课程的教学,供入门级用户阅读。 目录C 程序设计教程(1…

深入探索Flutter性能优化

前言 Flutter 作为目前最火爆的移动端跨平台框架,能够帮助开发者通过一套代码库高效地构建多平台的精美应用,并支持移动、Web、桌面和嵌入式平台。对于 Android 来说,Flutter 能够创作媲美原生的高性能应用,但是,在较…

【nvivo11plus教程】02_编码与节点

1、对文档进行编码(1)建立节点(2)使用快速编码栏进行编码(3)将整个文件编码为一个代码(4)范围编码(5)在vivo中编码(6)使用节点昵称加快编码速度2、取消、增加和查看编码(1)编码带(2)删除编码(3)查看编码邻近区(4)增加编码(5)查看编码信息3、组织节点(1)节点结构化(2)移动归类节…

leetcode-每日一题-还原排列的最少操作步数(中等,数学逻辑)

回家了很少看了,今天突然心血来潮做了今天的每日一题,还不错,最后是一次AC,说明这么长时间没看实力没有下降多少,哈哈哈哈,自恋一下,后面我会更新一些课设和实验作业,进入正题。给你…

密码学_ECC椭圆曲线加密算法

算法介绍 椭圆加密算法(ECC)是一种公钥加密体制,最初由Koblitz和Miller两人于1985年提出,其数学基础是利用椭圆曲线上的有理点构成Abel加法群上椭圆离散对数的计算困难性。公钥密码体制根据其所依据的难题一般分为三类&#xff1a…

【jQuery】常用API——jQuery样式操作

一、操作 css 方法 jQuery 可以使用 css 方法来修改简单元素样式。1. 参数只写属性名,则是返回属性值$(this).css(color);2. 参数是属性名,属性值,逗号分隔,是设置一组样式,属性必须加引号,值如果是数字可以…

Go基础学习

文章目录回看下历史环境安装和开发工具:基础语法:go的注释:变量定义:简短定义模式Go的变量交换匿名变量(空白标识符):变量的作用域:iota常量计数器数据类型布尔类型数值型整数浮点数…

新冠COVIN-19流感病患轨迹追溯

实验背景 冬季是流感的高发季节,现已知某流感病毒的传播力很强,政府部门也陆续公开了部分流感确诊患者(后续简称“病患”)的非隐私信息,这部分数据为相关研究人员研究该流感病毒的传播与防控提供了重要的数据支撑。 然…

Linux网站服务实操练习

作者简介:一名99年软件运维应届毕业生,正在自学云计算课程。宣言:人生就是B(birth)和D(death)之间的C(choise),做好每一个选择。创作不易,动动小手…