前 言
很多老师会发现,高通量测序后需要生信分析的过程中,需要填写一个信息分析表。而信息分析表中有一个对生信分析很重要的信息——基因组文件及注释文件。通常这类文件我们都是需要老师提供对应的下载链接,以便于生信直接利用这个链接去下载数据进而做分析,这样做的目的主要是为了避免公司分析使用的基因组信息不是老师研究的物种(同一物种不同属有不同的基因组)或者研究的版本(基因组版本经常会更新,但是不同版本的注释文件略有差异,尽量不要用来进行联合分析)。因此,老师自己去寻找对应的基因组注释信息以及提供对应的下载链接就显得很重要啦~而这类信息很多老师都不知道该怎么去寻找并提供。
参考基因组的注释信息通常需要基因组文件(genome.fa)、基因结构注释文件(gene annotation.GFF)以及蛋白注释文件(pep.fa)。相关文件具体内容及展现形式可参考【如何填写测序项目信息分析表?】。在此,爱基百客基于比较常见的数据库NCBI和Ensembl(除此之外还有Encode、UCSC、CNCB、或者针对某类物种单独的数据库如BRAD等,老师们选择自己常用的即可),今天我们对参考基因组注释信息的查找做了一个简单的介绍,有需要的老师可以参考一下。
01 NCBI
网址:https://www.ncbi.nlm.nih.gov/
以人(human,homo Sapiens)为例
1. 打开NCBI,在搜索栏输入homoSapiens(或human,优先选拉丁名),Database选择genome,点击search。
2. NCBI会弹出一个新页面,可以看到目前NCBI最为推荐(通常为最新,用【√】标注)以及以前的基因组相关信息。包含基因组名称、Genbank编号、物种、可能存在的特定品系、基因组组装水平(优先选择chromosome)、基因组出现时间等等。
3. 以最新推荐的GRCh38.p14为例,点击右边的Action,可链接到下载页面或基因组细节。
-
3.1 下载对应基因组文件
点击Download,直接下载下图红框内三个文件即可。注意,有些基因组可能只能下载genome.fa,对应注释文件可能未开放下载,这种要考虑更新基因组或更换数据库。
-
3.2 提供下载链接(如填写爱基百客分析表)
点击View Detail,到达基因组详细页面,直接复制网页链接;或者(更为推荐)点击页面内FTP,到达文件下载页面,找到对应文件后右键选择复制
某信息分析表参考基因组注释示例:
02 Ensembl
动物组网址:http://ensembl.org/index.html
植物组网址:http://plants.ensembl.org/index.html
细菌组网址:http://bacteria.ensembl.org/index.html
真菌组网址:http://fungi.ensembl.org/index.html
以动物的页面为例:
1. 基因组查找
(1)打开Ensembl官网,像人、小鼠和斑马鱼这类的常用模式物种,我们可以直接点进去查看基因组信息。
(2)若ensembl数据库中有收录我们要查找的物种基因组,点击view full list of all Ensembl species,我们可以在list中找到我们关注的物种。
(3)如果需要寻找最新基因组,还可以找到FTP的页面,直接去ensembl最新的release版本里去搜索物种拉丁名(针对于非常规物种最为方便)
2. 找到具体物种基因组后,需要接着找到其对应注释信息,以homo sapiens为例:
(1)基因组genome.fa:
(2)基因结构注释文件gff:
(3)蛋白注释文件pep.fa:
同样也是将复制链接地址或者直接下载。
备 注
由于生信分析需要参考基因组信息,而正确的参考基因组链接对生信进行数据的下载以及后续的分析极为重要,因此,老师提供正确的参考基因组下载链接是很有必要的。
在爱基百客的信息分析表附录中,会包含部分物种是我们已经收录的,如包含老师想研究的物种及对应版本,可直接将附录中的链接复制粘贴进信息分析表的表格中。
若没有老师想研究的物种及基因组版本,或老师有额外想要提供的其他参考基因组信息时,为避免产生因后续多次沟通基因组信息从而拉长生信分析周期等问题,请务必粘贴正确的“genome.fa;genome.gff以及pep.fa”文件的下载链接。
除“NCBI”和“Ensembl”数据库外,有时候还会有一些其他的数据库,如“TPIA”、“Phytozome”、“Encode”、“UCSC”等,也是可以提供对应基因组注释信息的。老师们只要把对应正确的参考基因组注释文件的下载链接复制粘贴进信息分析表的表格,我们就可以进行下载分析。
祝各位老师科研顺利~