基于宏基因组数据,可以通过NR数据库进行物种注释,还可以进行功能挖掘,比如通过KEGG数据库来挖掘代谢通路、根据COG注释结果对蛋白进行功能归类,通过CAzyme可以得到碳化合物合成、代谢、转运等酶的分类和相关信息,通过PHI病原与宿主互作数据库预测靶基因以及感染宿主过程中预测的蛋白功能,凌恩生物提供将近20大个性化数据库的功能注释,可同时满足不同需求的客户,本期我们来介绍碳水化合物活性酶(CAZymes)数据库注释。
碳水化合物亦称糖类化合物,是自然界存在最多、分布最广的一类重要有机化合物,是一切生物体维持生命活动所需能量的主要来源,是作用于各种糖复合物、寡糖和多糖等碳水化合物的酶类。
碳水化合物活性酶数据库(CAZymes,http://www.CAZy.org/)基于蛋白质结构域中的氨基酸序列相似性,将碳水化合物活性酶类归入不同蛋白质家族。该数据库提供了碳化合物合成、代谢、转运等酶的分类和相关信息,这也是宏基因组研究中涉及的专有数据库之一。CAZymes数据库致力于显示和分析碳水化合物活性酶的基因组,结构和生化信息。
图 CAZy数据库官网
CAZy 数据库目前包括如下六大类家族:
CAZy 数据库中目前收录了27999个细菌、504个古菌、480个病毒、458个真核生物基因组相关数据:
CAZymes数据库不仅可以广泛应用于人类动物胃肠道、土壤、水体等样本,还可以在植物、藻类、菌类等中探究碳水化合物相关反应,再与KEGG数据库以及其他组学相结合,通过网络图、相关性分析、热图等方式,探寻物种、基因、功能、代谢相关科学问题。
宏基因组研究中,把宏基因组非冗余基因集的氨基酸序列,与CAZy数据库进行比对,把目标物种的基因和其相对应的功能注释信息结合起来,得到注释结果,保留最优比对结果作为该基因的注释结果。
图 反刍动物胃肠道微生物组的具体功能特征注释
凌恩碳水化合物活性酶分析结果展示图
在我们的结题报告中给出了以下结果:
图 碳水化合物活性酶分类统计图
注:横坐标是样本名称,纵坐标是相对丰度,每一个颜色代表家族分类的占比。
图 单个样本的不同家族分类的序列数图
经典文献案例
题目:利用功能性基因从牛瘤胃中分离出新的关键尿素分解细菌
期刊:Microbiome
影响因子:15.5
DOI:10.1186/s40168-023-01510-4
瘤胃中以多糖为主要的碳源和能量来源,利用dbCAN和CAZy数据库分析了28个尿素分解菌菌株的基因组,以揭示糖苷水解酶家族(GHs)的分布。鉴定到了参与不同类型多糖水解的GHs,包括淀粉、半纤维素、纤维素和低聚糖。同一物种的不同菌株具有相似的GHs类型和家族。很多菌株均含有淀粉酶、纤维素酶、半纤维素酶和低聚糖降解酶,说明它们可以广泛利用多糖,有助于反刍动物饲料消化吸收与利用。
图1 分解菌泛基因组分析
参考文献
[1] An integrated gene catalog and over 10,000 metagenome-assembled genomes from the gastrointestinal microbiome of ruminants. Microbiome. 2021.
doi: 10.1186/s40168-021-01078-x.
[2] Functional gene-guided enrichment plus in situ microsphere cultivation enables isolation of new crucial ureolytic bacteria from the rumen of cattle. Microbiome. 2023.
doi:10.1186/s40168-023-01510-4