外显子是基因组中能够转录组出成熟RNA的部分。一个基因组中所有外显子的集合,即为外显子组。值得注意的是,通常所说的全外显子组测序,是指针对蛋白编码基因的外显子,很少涉及非编码基因。
基因(gene)是DNA中含有特定遗传信息的一段核苷酸序列的总称,是具有遗传效应的DNA分子片段,是控制生物性状的基本遗传单位。人类基因区间的大小可从数百个bp至超过200万个bp不等。根据人类基因组计划(The Human Genome Project)估计,人类拥有20000-25000个蛋白编码基因。
基因组(genome)指一个生物体所包含DNA的全部遗传信息。基因组由基因区域和非编码区域组成。人类的基因组大小约为30亿个碱基对(bp)(3GB),其中非编码区域占到绝大多数,编码蛋白质的区域仅占约2%左右。
外显子组(exome)是基因组中所有外显子的集合。人类拥有约18万个外显子,约占人类基因组的1%,即约3000万个bp(30MB)。
图:蛋白编码基因由内含子(非编码序列)和外显子(包括编码序列以及UTR区域)组成。要翻译有功能的蛋白,要进行以下步骤:基因从DNA转录为RNA前体,通过剪接形成成熟RNA,成熟RNA序列翻译成氨基酸链,以及蛋白质分子的翻译后修饰。
关于外显子,需要注意的一个特殊情况是非翻译区(UTR)。在mRNA的两侧分别存在5'UTR(前导序列)和3'UTR(尾部序列),它们的作用分别是调控翻译的启动和终止。它们由外显子序列构成,但不会被翻译成氨基酸。 所以,并非所有外显子序列都会被翻译成氨基酸。
图:信使RNA前体(pre-mRNA)中的外显子。外显子既包括编码氨基酸的序列(红色),也包括不被翻译的序列(灰色)。
对外显子组(基因组里的所有外显子)进行测序的方法,即为 全外显子组测序 (Whole-Exome Sequencing,WES),也称为 外显子组测序、全外显子测序,全外测序 等。
全基因组测序(Whole-Genome Sequencing, WGS)是对整个基因组进行测序。靶向测序(Targeted-sequencing,也称Panel sequencing)是对选定的基因进行测序,通常有几十个至一千个基因不等。因而,从覆盖基因组的范围来说,全基因组测序>全外显子组测序>靶向测序。
全外测序可以视作一种特殊的靶向测序——它靶向的区域是基因组上的所有外显子。
panel测序有两种技术原理:杂交捕获测序和多重扩增子测序。全外是基于序列杂交原理实现的
需要特别说明的是对CNV的检测。使用全外检测CNV时,在杂交捕获过程中,由于各个外显子的杂交效率不同,故不同外显子的覆盖率差异会较大。当出现阳性结果时,无法判断是由于杂交未捕获到,还是由于缺失。 故使用全外检测CNV容易出现假阳性结果。一般情况下,全外测序不用于CNV的检测 ,但在癌症研究中,利用癌组织和癌旁组织对照,可以检测体细胞CNV。
人类全外显子组所占基因组比例不超过2%,但它包含了约85%与疾病相关的变异,因此在研究编码基因变异层面,全外测序是比全基因组测序更为经济高效的替代方法。全外测序适用于孟德尔疾病、肿瘤、复杂疾病等多个研究领域。对于表现出异质性的疾病,或者患者表现出多个系统受累的复杂疾病症状时,尤为适合使用全外测序。
例如在肿瘤临床检测中,寻求肺癌靶向治疗的患者通常会先做panel测序,因为与肺癌靶向治疗相关的基因是比较明确的,几十至一百多个基因的panel测序通常就可以满足需求。而对于寻求免疫治疗的患者,通常会使用全外或大panel测序,来评估肿瘤突变负荷(Tumor Mutational Burden, TMB),TMB高的患者通常对免疫治疗有更好的响应。全外测序是业内公认的评估TMB的金标准。
WES检测流程
一个WES测序的工作流程,大体可以分为这3个部分:文库制备,测序,生信分析。
文库制备通常包含这些步骤:样本处理,DNA提取,定量,建库,杂交捕获,扩增,质控。
测序,目前的仪器包括国外Illumina公司测序平台,以及华大智造国产测序平台等。
生信分析的流程通常包含这些步骤:质控,拼接比对,去重和重排,变异检测,降噪和过滤,注释等。常用的软件有FastQC,BWA,GATK,ANNOVAR等。
一个完整的全外显子组测序,从样本处理到完成数据分析,通常需要10天左右时间。
来源:
全外测序(WES) - 知乎