1. 参考转录本数据库MANE简介
为了促进临床参照的一致性,美国国家生物技术信息中心( NCBI)和欧洲分子生物学实验室-欧洲生物信息学研究所(EMBL-EBI)合作发布了参考转录本数据库MANE(Matched Annotation from the NCBI and EMBL-EBI),旨在汇集人类基因和转录本注释,并定义一组全基因组的代表性转录本和人类蛋白质编码基因的相应蛋白质。
MANE转录本与GRCh 38参考基因组组装完全匹配,并且是基于生物相关标准(例如转录本表达水平和编码区的保守性)进行选择的。
虽然NCBI的RefSeq 和 EMBL-EBI的Ensembl GENCODE注释具有相似性,但它们在转录水平上可能不同,代表特定剪接结构或编码序列的转录物可能从两个基因组之一缺失。此外,代表相同剪接结构的转录物可能在非翻译区(UTR)的长度上不同,或者由于SNP而具有序列错配。因此,研究人员使用偏好的基因集来设计研究和报告结果,可能会发现很难将他们的工作与科学界的其他人交流。数据资源,如基因组浏览器和变异数据库,也可能使用不同的注释集来表示默认转录本,这可能会导致混淆。NAME转录物在RefSeq和Ensembl/GENCODE注释集中是相同的,当在大多数公共基因组资源中表示时,预计将促进科学界之间更好的沟通和数据交换。
NAME网址(提供NCBI和UCSC查看MANE推荐转录本示例):
https://www.ncbi.nlm.nih.gov/refseq/MANE/
2. MANE数据库的MANE select 和 MANE plus Clinical集
MANE的主要集有两个:MANE select 和 MANE plus Clinical;MANE(版本1.0)覆盖了99%的人类蛋白质编码基因和99.8%的临床相关基因。
MANE Select:
MANE Select集是由每个蛋白编码基因的一个代表性转录本组成,经计算机预测和专家组人工审核。该转录本通常作为临床报告的通用标准、基因组浏览器的默认配置等,作为临床报告的最终转录本编号。
MANE Plus Clinical:
MANE Plus Clinical集合包括了一些基因的特殊转录本,考虑到某些基因会组织特异性表达,仅靠MANE Select就不足以报告公共资源中所有的“致病(P)”或“可能致病(LP)”临床变异,因此采用MANE Plus Clinical作为补充。
3. 基因与转录本关系
基因是指DNA上一段编码蛋白质或RNA的序列,而转录本则是从基因DNA序列转录成的RNA序列。一个基因若要发挥功能,需先转录为mRNA,进而转移到细胞质翻译成蛋白。转录过程中mRNA的加工(如选择性剪接、修饰等)可能会产生不同的可供编码蛋白质的成熟mRNA剪接体(即转录本)。
一个基因可能会有多个转录本,产生原因包括可变剪切、启动子的选择性使用、选择性起始、核糖体移码等 。
1)选择性剪接(Alternative splicing)
真核生物的基因CDS序列包含内含子(intron)和外显子(exon),两者相互交替,仅外显子能够转录成mRNA。通过选择性剪接可以将同一基因中的外显子以不同方式进行组合,进而形成不同的蛋白质。
2)启动子的选择性使用(alternative promoter usage)
同一个基因可结合不同的启动子,使用不同的启动子产生不同的mRNA转录本,导致产生多种蛋白。
3)选择性起始(alternative initiation)
同一条mRNA中含有多个起始密码子,通常产生的蛋白序列仅在N端有差异。
4)核糖体移码(ribosomal frameshifting)
一种翻译重编码机制,导致核糖体改变其对密码子的读取(即从一个阅读框位移到另一个阅读框),产生不是由mRNA直接编码的蛋白质,或者两种甚至更多种不同的蛋白质。
不同转录本产生的原因中,选择性剪接是研究较早且被广泛认知的,选择性剪接作为发育和组织特异性的调节因子,在组织发育和细胞分化中发挥着重要的作用。
4. MANE文件下载
MANE地址: https://ftp.ncbi.nlm.nih.gov/refseq/MANE/
# linux下载
# 下载1.3版本 MANE gtf
wget https://ftp.ncbi.nlm.nih.gov/refseq/MANE/MANE_human/release_1.3/MANE.GRCh38.v1.3.ensembl_genomic.gtf.gz
# 搜索BRCA1的第9号exon推荐转录本
zcat MANE.GRCh38.v1.3.ensembl_genomic.gtf.gz|grep BRCA1|grep 'exon_number 9'
# RefSeq:NM_007294.4