基因组大小(size of genome)是指单倍体细胞核中的所含的DNA的总量。在进行基因组测序之前,生物学家是用质量来衡量不同生物之间基因组的大小。对于已经测序发表的基因组,可以直接通过查询相关数据库中提交的基因组信息,对本物种或者近源物种基因组大小进行初步调研。
本期小易课堂给大家介绍几个最常用的数据库,带大家一起学习下如何查找自己目标物种/近源物种基因组信息。本期课堂对于需要查找参考基因组进行有参转录组、重测序等数据分析的老师同样适用哦!
01 NCBI数据库
NCBI(National Center for Biotechnology Information)拥有非常全面的基因组信息(植物、动物、微生物),也是大家最熟知的生物信息学数据库,其集成各种类型的数据库以及提供数据分析和检索资源。
网站链接:https://www.ncbi.nlm.nih.gov/
通过选择“genome”数据库,然后输入物种拉丁名称:如Citrullus lanatus(西瓜),点击搜索。查询操作及查询结果如下:
特别注意:如果是要作为数据分析的参考基因组,不是所有搜到的基因组都能作为参考基因组,必须要有完整的注释信息才行。当目标物种不止一个基因组时,我们需要浏览基因组列表,进入到列表之后,有gene以及protein注释的才能作为转录组的参考基因组。原核物种的参考基因组要具体到菌株。
如果通过上操作没有查询到本物种的基因组信息,可以通过查询近源物种信息作为参考:
查询方法如下:选择数据库“taxonomy”,输入物种拉丁名,查看本物种不同分类水平上物种有哪些物种已经有基因组发布,查询到有基因组信息的物种后,复制物种名称,按照最开始讲到的方法(图2-3)进入到基因组的详细描述页面,就可以看到此近源物种基因组信息(包括基因组大小)。查找用于有参分析的近源物种参考基因组也可以通过此方法。
详细操作如截图所示:
02 Ensembl数据库
该数据库物种基因组信息丰富且更新及时,基因组注释文件格式标准,基本不需要进行特别整理就可以直接下载供分析使用。
当然,对于查询基因组组装大小自然也不在话下了。https://asia.ensembl.org/index.html
数据库链接:https://cvalues.science.kew.org/search
具体查询操作如下截图:
如果需要参考基因组用于相关数据的有参分析,点击物种查询结果中对应种名,进入下载页面进行基因组及gff文件的下载即可。