微生物测序报告中的多样性数据详细解读

news2024/11/24 18:36:36

在这里插入图片描述

随着技术的发展,高通量测序技术已成为研究微生物群落的重要工具。这种技术使得科学家们能够解析巨量微生物DNA序列,从而获得丰富的微生物组数据,包括16S rRNA基因ITS序列宏基因组。然而,这些数据只是迈向揭示微生物群落复杂性的第一步。

通过对环境样本的可变区域如16S、18S、ITS序列进行高通量测序获得的原始序列数据,再对其进行聚类,数据分析统计学差异比较等得到微生物多样性分析报告。那么,什么是微生物群落多样性

微生物群落多样性(Microbial Community Diversity)是指在特定环境中存在的微生物种类的数量和分布情况,它不仅包含不同种类微生物的丰度,还包括它们之间的相互关系。多样性可以从不同角度进行评价,主要分为以下几种:

α多样性(Alpha Diversity): 这是衡量某一特定样本内部多样性的一种指标。常用的α多样性指标包括物种丰富度(Species Richness)、香农指数(Shannon Index)和辛普森指数(Simpson Index)。这些指标可以帮助我们了解样本内部的复杂性和均一性

β多样性(Beta Diversity):不同样本之间的多样性比较被称为β多样性。常用的β多样性指标包括Bray-Curtis距离Jaccard指数,通过这些指标可以探索样本之间的相似性和差异性,揭示不同环境或条件下微生物群落的变化模式

γ多样性(Gamma Diversity): 这是指在一个更大尺度、多个样本的总体多样性,通常用以评估一个较大区域的整体多样性水平

为理解这些多样性指标,我们可以借助一些简单的比喻来形象解释。例如,α多样性就像是在观察一个花园的花卉种类和数量;β多样性则是比较不同的花园之间的相似性或不同之处;而γ多样性则是对一个城市中所有花园的总览评价。

在接下来的部分中,我们将深入探讨这些多样性指标的详细内涵,以及从多个角度展示如何通过高通量测序技术解析微生物群落中的这些多样性规律。

▸ 基本流程

下图是实验上机测序流程,提取的样本总DNA经过质检、PCR扩增建库等步骤进行高通量测序得到测序原始数据。

在这里插入图片描述

原始数据经过Reads拼接tags过滤去嵌合体等步骤得到有效数据clean data。在特定的相似度下进行聚类得到OTU/ASV,报告中通过降噪方法得到ASV表,一切后续分析都围绕ASV表来进行。根据ASV表可以继续做物种分类注释丰度计算多样性分析差异分析功能预测等。所以ASV特征表是微生物多样性分析中关键数据结果。

在这里插入图片描述

OTU和ASV的区别

OTU和ASV是微生物组学中用来表示微生物多样性的两个不同概念。两者都是从环境样本中获得的DNA序列数据,通过一定的分析方法分类得到的用于表示微生物种类或种群的单位。它们之间的主要区别在于定义的精确度和建立的方法

- OTU(Operational Taxonomic Units):

OTU是一种将序列通过相似度聚类的传统方式,来表示相似序列组成的种群。通常,这种聚类方法会将序列之间相似度达到97%(或其他设定的阈值)的序列分到同一个OTU。OTU聚类通常不考虑序列中的单个变异位点,而是基于整体相似度

由于使用阈值聚类,OTU不能准确反映序列之间的实际差异,可能会将生态学意义上不同的微生物序列归为一个OTU。OTU分析可能过于简化,有时无法捕获低水平的微生物多样性

- ASV(Amplicon Sequence Variants):

ASV采用较新的降噪方法,可以精确地解析序列中的每一个核苷酸差异,简单来说就是以100%相似度进行聚类,对低质量序列进行去除和校正,这种方法可以生成“零半径OTU”,即互不相同的基于序列的变体。

ASV通常使用误差校正算法来排除测序错误,从而提供更精确的序列变体识别。ASV方法对单一核苷酸变异敏感而能提供更细粒度的微生物多样性解析。ASV为每一种变异提供更一致、可复制的标识符,这在比较不同研究之间的微生物群落组成时非常有用。

简而言之,ASV方法提供了比OTU更高分辨率、更精准的序列变体检测。换句话说,ASV提供了一种微生物组多样性分析的“高清”视角,它更可能捕捉到微生物群落内变化的微妙差异,尤其是在不同环境或时间点间的比较中。

▸ 测序原始数据情况

原始序列数据(raw tags)经过质控、过滤、去嵌合体,最终得到有效数据(effective tags)。再对有效数据进行UNOISE降噪处理,得到ASV特征表。数据处理过程中各步骤得到的序列进行途径统计,可以直观的反映每个样本的数据量和物种丰度

在这里插入图片描述

文件目录:

01_pick_otu/summary/sumOTUPerSample.txt

raw-tags:每个样本的原始序列数据;

singleton :每个样本中无完全匹配的单条序列的数量。singleton ASV 是指只有单条代表序列的 ASV,可能由于测序错误,或者是来自于PCR过程中产生的嵌合体;

tagsmatchedASVs: 每个样本中比对到ASVs的最终有效序列数据 及其比例,聚类的同时vsearch会根据UCHIME算法将singleton ASV及嵌合体去除,得到最终的有效序列数据 Effective Tags;

ASVs:每个样本的ASVs数量。

一般文献中的测序原始数据量raw-tags 要求达到3万条以上,可以满足数据分析的基本要求。绝大多数文献数据量平均在5万条左右。世面上不同公司承诺的数据指标有所不同,谷禾测序得到的原始数据一般可以达到10万 reads左右,足够满足当前文章发表要求的参考数据量。

若原始数据量低于1万条,尤其是少于3000条reads以下,则很有可能受环境污染的杂带较多,建议重新上机补测数据。ASVS列可以反映每个样本的物种多样性,一般一个ASVs就代表一个物种。因此可以用ASV数量来代表物种数量。将每个样本的有效原始数量和ASVs数据可视化做成柱状图,可以更直观的观察每个样本/分组数据量的变化

在这里插入图片描述

每个样本/分组可能会有一些共有的和独有的ASV,通常用韦恩图或花瓣图表示(样本数/分组数<=5个样本用维恩图,数量大于5出花瓣图)。除了用Venn图将几个数据集之间的交集进行可视化,还可以使用upset图表示。

在这里插入图片描述

在这里插入图片描述

韦恩图中不同颜色的圆圈代表一个样本/分组,圈之间的重迭区域表示样本/分组间共有的ASVs,每个区域的数字大小表示该区域对应的ASVs数目

UpSet图主要包含三个部分:上部分为各个分组独有和共有的ASV数量,下部分为各个分组独有和共有的分类情况,左部分每一个行代表一个分组。

alpha多样性分析—微生物丰富度和多样性

alpha多样性主要用来衡量单个样本内的菌群多样性不涉及样本之间的比较。alpha多样性与两个因素相关,分别是:一、丰富度(richness),二、多样性(diversity)。

丰富度指的是单个样本物种的种类数目;而多样性是指菌群在个体中分配的均匀度。样本的丰度高不一定就代表菌群的多样性丰富,丰度高如果是因为里边含有较多低丰度的杂带,这些可能是来源于环境的污染物导致的,这些低丰度的物种并不会使菌群的多样性增加

alpha多样性有三类相关指数,其中包括菌群丰度指数(Chao1和ACE)、菌群多样性指数(shannon和simpson)和测序深度指数(Goods coverage和Observed spieces)。

▸ 计算群落丰富度的指数:

Chao1:Chao1算法用于评估样本中所含ASV数目的指数,Chao1在生态学中常用来估计物种总数,由Chao(1984)最早提出。通过计算群落中只检测到1次和2次的ASV数估计群落中实际存在的物种数。chao1指数可以评估一个样本中的ASV数量,chao指数越大,ASV数目越多,说明该样本物种数越多

计算公式如下:

在这里插入图片描述

编辑​

其中:

Schao1=估计的OTU数;

Sobs=观测到的OTU数;

n1=只有一条序列的OTU数目(如“singletons”);

n2=只有两条序列的OTU数目(如“doubletons”)。

ACE:用来估计群落中含有ASV数目的指数,由Chao提出,是生态学中估计物种总数的常用指数之一,与Chao1的算法不同。预设将序列量10以下的ASV都计算在内,从而估计群落中实际存在的物种数。

计算公式如下:

在这里插入图片描述

其中

在这里插入图片描述

ni=含有i条序列的ASV数目;

Srare=含有“abund”条序列或者少于“abund”的OTU数目;

Sabund=多于“abund”条序列的OTU数目;

abund=被视为“优势”的ASV的阈值,默认为10。

▸ 计算群落多样性的指数

Shannon:香农-威纳指数综合考虑了群落的丰富度均匀度,是用来评估样本中微生物多样性指数之一。Shannon指数值越高,表明群落的多样性越高

计算公式如下:

在这里插入图片描述

其中:

Sobs=观测到的ASV数目;

ni=含有i条序列的ASV数目;

N=所有的序列数。

Simpson:辛普森多样性指数对菌群多样性评估,Simpson指数值越高表明群落多样性越高。由EdwardHugh Simpson(1949)提出,在生态学中常用来定量描述一个区域的生物多样性。一般而言,Shannon指数侧重对群落的丰富度以及稀有ASV,而Simpson指数侧重均匀度和群落中的优势ASV

计算公式一如下:

在这里插入图片描述

计算公式二如下:

在这里插入图片描述

此时,Simpson指数越大,说明群落多样性越大。报告中用到的是计算公式二。

其中:

Sobs=观测到的ASV数目;

ni=含有i条序列的ASV数目;

N=所有的序列数。

▸ 测序深度指数

Coverage:是指各样品克隆文库的覆盖率,其数值越高,则样品中序列被测出的概率越高,而没有被测出的概率越低。该指数反映本次测序结果是否代表了样品中微生物的真实情况。

计算公式如下:

在这里插入图片描述

其中:

n1=只含有1条序列的ASV数目;

N=所有的序列数。

下表统计了每个样本的各项alpha多样性指标:

在这里插入图片描述

结果目录:

03_diversity-metrics/alpha/alpha_div.txt

可以选择不同的alpha多样性指数进行显著性差异比较,一般常用丰富度指数Chao1,多样性指数Shannon、simpson,比较不同组间指数是否有显著差异。Alpha多样性分析将样本的菌群群整体研究并转换为具体的指数与p值,来说明群落的变化与差异

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

▸ 物种多样性相关曲线

•稀释性曲线(Rarefaction curve)

稀释曲线是从每个样本中随机抽取一定数量的序列,统计这些序列所代表的ASV数目,以随机抽取的序列数与ASV数量来构建曲线。可以用来比较不同样本中的物种多样性,也可以用来说明样本出测序数据量是否足以反映环境中的物种多样性

在这里插入图片描述


菌群多样性指数(shannon和simpson)

丰度等级曲线(Rank abundance curve)是分析多样性的一种方式。构建方法是统计单一样品中,每一个OTU所含的序列数,将OTU按丰度(所含有的序列条数)由大到小等级排序,再以OTU等级为横坐标,以每个OTU中所含的序列数(也可用OTU中序列数的相对百分含量)为纵坐标做图。

Rank-abundance曲线可用来解释多样性的两个方面,即物种丰度物种均匀度。在水平方向,物种的丰度由曲线的宽度来反映,物种的丰度越高,曲线在横轴上的范围越大;曲线的形状(平滑程度)反映了样品中物种的均度,曲线越平缓,物种分布越均匀

在这里插入图片描述

beta多样性分析—样本间菌群相似度

Beta多样性指的是样本间多样性,Beta多样性是衡量个体间菌落构成相似度的一个指标。通过计算样本间距离可以获得beta多样性距离矩阵,Beta多样性计算主要基于OTU的群落比较方法,有欧式距离、bray curtis距离等,这些方法优势在于算法简单,考虑物种丰度(有无)和均度(相对丰度),但其没有考虑OTUs之间的进化关系,认为OTU之间不存在进化上的联系,每个OTU间的关系平等。

另一种算法Unifrac距离法,是根据系统发生树进行比较,并根据16s的序列信息对OTU进行进化树分类,因此不同OTU之间的距离实际上有“远近”之分。而其他距离算法认为OTU之间的关系是平等的。Unifrac距离分为加权距离和非加权距离。

1

欧式距离(Euclidean distance):

欧几里得距离是空间中两点间“普通”(即直线)距离。

2

Bray-Curtis距离:

Bray-Curtis距离是生态学中用来衡量不同样地物种组成差异的测度。由J. Roger Bray and John T. Curtis 提出。其计算基于样本中不同物种组成的数量特征(多度,盖度,重要值等)。

计算公式为:

在这里插入图片描述

SA,i=表示A样本中第i个OTU所含的序列数;

SB,i=表示B样本中第i个OTU所含的序列数。

3

Unweighted UniFrac距离:

非加权距离包含特征之间的系统发育关系的群落差异定性度量

4

Weighted UniFrac距离:

加权距离包含特征之间的系统发育关系的群落差异定量度量

两者的区别在于:Weighted Unifrac 距离是一种同时考虑各样品中微生物的进化关系和物种的相对丰度,计算样品的距离,而Unweighted Unifrac则只考虑物种的有无,忽略物种间的相对丰度差异

一般采用PCA、PCoA、NMDS等进行图像化展示,区分样本间的菌群组成差异。其原理是利用降维思想把样本平铺到二维平面上,使得相似的样品距离相近,相异的样品距离较远。

PCA图是基于ASV table的欧式距离,PCoA是基于两两样品之间的距离矩阵(有Bray-Curtis距离、加权距离、非加权距离),基于距离矩阵的统计检验方法有ANOSIM相似性分析Adonis多元方差分析

▸ Anosim检验

Anosim分析是一种非参数检验,用来检验组间差异是否显著大于组内差异,从而判断分组是否有意义。对 Anosim 的分析结果,基于两两样本之间的距离值排序获得的秩(组间的为 between,组内的为 within),这样任一两两组的比较可以获得三个分类的数据,并进行箱线图的展示(若两个箱的凹槽互不重迭,则表明它们的中位数有显著差异)。

在这里插入图片描述

该方法主要有两个数值结果:R值,用于比较不同组间是否存在差异;P值,用于说明是否有显著差异

R-value 介于(-1,1)之间,R-value > 0,说明组间差异大于组内差异。R-value < 0,说明组间差异小于组内差异, R只是组间是否有差异的数值表示,并不提供显著性说明。统计分析的可信度用 P-value 表示,P< 0.05 表示统计具有显著性。

▸ Adonis检验

Adonis检验,多元方差分析,其实就是PERMANOVA,亦可称为非参数多元方差分析。其原理是利用距离矩阵(比如基于Bray-Curtis距离、Unifrac距离)对总方差进行分解,分析不同分组因素对样品差异的解释度,并使用置换检验对其统计学意义进行显著性分析。它与Anosim的用途相似,也能够给出不同分组因素对样品差异的解释度(R值)与分组显著性(P值)。

▸ PCA分析

PCA(Principal Components Analysis)即主成分分析,首先利用线性变换,将数据变换到一个新的坐标系统中;然后再利用降维的思想,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上。

这种降维的思想首先减少数据集的维数,同时还保持数据集的对方差贡献最大的特征,最终使数据直观呈现在二维坐标系。经过一系列的特征值和特征向量进行排序后,选取PCA分析得到的前三个主成分(PC1、PC2和PC3)中的任意两个数据作图。通过PCA 可以观察个体或群体间的差异

在这里插入图片描述

▸ PCoA分析

主坐标分析 PCoA (Principal component analysis)是一种非约束性的数据降维分析方法,可用来研究样本群落组成的相似性或相异性。通过 PCoA 可以观察个体>或群体间的差异。

它与PCA类似,两者的区别为PCA是基于样本的相似系数矩阵(如欧式距离)来寻找主成分,而PCoA是基于距离矩阵(欧式距离以外的其他距离)来寻找主坐标。我们基于Bray-Curtis 距离、 Weighted Unifrac 距离和Unweighted Unifrac 距离来进行 PCoA 分析。

该图是基于Bray-Curtis距离做的PCoA图,图中右下角的P值就是基于Adonis检验得到的结果:

在这里插入图片描述

编辑​

▸ NMDS分析

非度量多维尺度分析 NMDS 分析(Nonmetric Multidimensional Scaling)与上述 PcoA 分析类似,也是一种基于样本距离矩阵的分析方法,通过降维处理展现样本特定的距离分布

与 PcoA 的区别是 NMDS 分析不依赖于特征根和特征向量的计算,而是通过对样本距离进行等级排序,使样本在低维空间中的排序尽可能符合彼此之间的距离远近关系(而非确切距离数值)。因此,NMDS 分析不受样本距离的数值影响,对于结构复杂的数据排序结果可能更稳定

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2211788.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

docker启动MySQL容器失败原因排查记录

背景 最近在尝试容器搭建MySQL集群时碰到一个错误&#xff0c;启动MySQL时碰到一个&#xff0c;经过排查解决&#xff0c;在此做一个记录 问题过程 1、启动MySQL容器 $ sudo docker run -d -p 3306:3306 \ > --name mysql \ > -v /opt/mysql/log:/var/log/mysql \ &g…

java项目之大型商场应急预案管理系统(源码+文档)

项目简介 大型商场应急预案管理系统实现了以下功能&#xff1a; 大型商场应急预案管理系统的主要使用者管理员功能有个人中心&#xff0c;员工管理&#xff0c;预案信息管理&#xff0c;预案类型管理&#xff0c;事件类型管理&#xff0c;预案类型统计管理&#xff0c;事件类…

【vue】03-指令补充+样式绑定+计算属性+侦听器

代码获取 知识总结 ⼀、指令补充 1.指令修饰符 1.1 什么是指令修饰符&#xff1f; 所谓指令修饰符就是让指令的 功能更强⼤&#xff0c;书写更便捷 1.2 分类 1.2.1 按键修饰符 keydown.enter&#xff1a;当enter键按下时触发 keyup.enter&#xff1a;当enter键抬起时触…

执行powershell脚本出错:未对文件进行数字签名

解决执行powershell脚本时出错&#xff1a;未对文件 \test.ps1进行数字签名。无法在当前系统上运行该脚本 前言 今天从github上下载了一个PowerShell脚本要在本地运行&#xff0c;运行的时候出现了未对文件进行数字签名的问题&#xff0c;然后在这里记录下怎么解决 解决方法…

选择2024年开发App的理由,费用分析与效益

App开发费用受复杂度、团队、地理位置、平台等因素影响。低代码平台如ZohoCreator提供经济高效开发方案&#xff0c;降低费用并提升灵活性。2024年&#xff0c;企业需考虑这些因素制定长期规划。 调查显示&#xff1a; 企业估算应用开发费用时&#xff0c;常采用以下公式&…

大厂面试真题-组合和聚合的区别是什么

组合和聚合比较类似&#xff0c;二者都表示整体和部分之间的关系。 聚合关系的特点是&#xff1a;整体由部分构成&#xff0c;但是整体和部分之间并不是强依赖的关系&#xff0c;而是弱依 赖的关系&#xff0c;也就是说&#xff0c;即使整体不存在了&#xff0c;部分仍然存在…

算法专题六: 模拟与分治快排

目录 模拟1. 替换所有的问号2. 提莫攻击3. Z字形变换4. 外观数列5. 数青蛙分治快排1. 颜色分类2. 排序数组3. 数组中的第K个最大元素4. 库存管理Ⅲ 模拟 1. 替换所有的问号 算法思路: 本题就是简单的模拟, 只需按照题目的思路遍历所有的字符, 如果为?则将其替换, 替换时寻找2…

今日指数项目day8实战权限管理器(上)

3.权限管理器 3.1 权限列表展示功能 1&#xff09;原型效果 2&#xff09;接口说明 功能描述&#xff1a; 查询所有权限集合 服务路径&#xff1a; /api/permissions 服务方法&#xff1a;Get 请求参数&#xff1a;无响应数据格式: {"code": 1,"data":…

Python自然语言处理之pyltp模块介绍、安装与常见操作案例

pyltp是哈尔滨工业大学社会计算与信息检索研究中心推出的一款基于Python封装的自然语言处理工具&#xff0c;它提供了哈工大LTP&#xff08;Language Technology Platform&#xff09;工具包的接口。LTP工具包以其强大的中文分词、词性标注、命名实体识别、依存句法分析等功能&…

Idea不能创建java8切换路径

顶部的Server URL改成https://start.aliyun.com/

Ubuntu配置应用开机自启动

有些自己下载的应用想要配置开机自启动&#xff0c;比如snipaste&#xff0c;steam等&#xff0c;可以通过一下步骤进行配置 点击应用展开图标 这个里面就是开机自启动的一些应用&#xff0c;可以将自己想要自启动的应用添加到这个里面来 以上是snipaste配置&#xff0c;起…

大数据治理:构建数据驱动的智能决策体系

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…

RocketMq详解:三、RocketMq通用生产和消费方法改造

文章目录 1.背景2.通用方法改造2.1添加maven依赖2.2 RocketMq基础配置2.3 配置类2.5 消息传输的对象和结果2.4 消息生产者2.5 消息消费者2.6 功能测试 1.背景 在第二章&#xff1a;《RocketMq详解&#xff1a;二、SpringBoot集成RocketMq》中我们已经实现了消费基本生产和消费…

CISCN2022-cactus

这周在疯狂学kernel pwn。 记录一下这题&#xff0c;race conditonmsg_msgpipe_buffer&#xff0c;kaslrsmepsmapkpti。 漏洞很简单&#xff0c;所有操作都没加锁&#xff0c;就是race condition了。edit什么的都只能2次。 很明显了&#xff0c;一次泄露基址&#xff0c;一次劫…

unidbg console debugger 调试技巧

版权归作者所有&#xff0c;如有转发&#xff0c;请注明文章出处&#xff1a;https://cyrus-studio.github.io/blog/ 打开debug日志 编辑 unidbg-android/src/test/resources/log4j.properties 把 log4j.logger.com.github.unidbg.AbstractEmulator 改为 DEBUG 当运行报错时…

lenovo联想 ThinkPad E14 Gen 2,E15 Gen 2 AMD(20T6,20T7,20T8,20T9)原厂Win10系统镜像下载

适用机型&#xff1a;【20T6、20T7、20T8、20T9】 链接&#xff1a;https://pan.baidu.com/s/1AVTvmiIHjafsFw8P7_jMPg?pwdzux5 提取码&#xff1a;zux5 联想原装WIN系统自带所有驱动、出厂主题壁纸、系统属性联机支持标志、系统属性专属LOGO标志、Office办公软件、联想电脑…

C#实现CRC32算法

CRC32 是一种校验和算法&#xff0c;用于检测消息是否未被修改。 它被广泛使用&#xff1a;例如&#xff0c;计算以太网发送包校验和。 public class CRC32 {private static readonly uint[] Crc32Table new uint[256];static CRC32(){uint i, j;uint crc;for (i 0; i < …

《深度学习》OpenCV 风格迁移、DNN模块 案例解析及实现

目录 一、风格迁移 1、什么是风格迁移 2、步骤 1&#xff09;训练 2&#xff09;迁移 二、DNN模块 1、什么是DNN模块 2、DNN模块特点 1&#xff09;轻量 2&#xff09;外部依赖性低 3&#xff09;方便 4&#xff09;集成 5&#xff09;通用性 3、流程图 4、图像…

软件设计之Redis(1)

软件设计之Redis(1) 路线图推荐&#xff1a; 【Java学习路线-极速版】【Java架构师技术图谱】 尚硅谷Redis零基础到进阶&#xff0c;最强redis7教程&#xff0c;阳哥亲自带练&#xff08;附redis面试题&#xff09; 资料可以去尚硅谷官网免费领取 学习内容&#xff1a; Redi…