线粒体堪称生命活动的“能量供给站”,这种存在于大多数细胞中的细胞器,拥有自身的遗传物质和遗传体系,除了为细胞供能之外,线粒体还参与到多种细胞功能过程中,拥有调控细胞生长和细胞周期的能力。
典型的动物线粒体是一个环状的双链DNA,有些动物的线粒体也会裂化(啮总目,虱目);基因组一般比较小,常见的在15-16 kb左右,基因间隔区小,所有的基因都不含有内含子,有重叠基因。在组分构成上一般含13个蛋白,2个rRNAs,22个tRNAs,在3’端有一段控制区。
图 动物线粒体基因组圈图
植物线粒体是线粒体基因组研究中难度最高的,大小差异较大,100kb-10Mb,大部分由非编码DNA序列组成,且有许多同源序列,占基因组总长的2%-60%,基因间区大,组装和注释的难度较高,结构变异大。目前报道的植物线粒体基因组绝大多数以环形表示,其包含了所代表物种线粒体的所有遗传信息,被定义为主环。
图 植物线粒体基因组圈图
凌恩生物有自主研发的细胞器提取技术,提取经验丰富。有专业团队负责跟进每一个项目,从细胞器DNA制备、Hiseq建库及测序、后续生物信息分析,直至为客户提供满意的结果。
本期主要介绍线粒体基因组高级分析内容。
1、共线性分析
共线性是指遗传学中的基因连锁关系,是不同物种染色体上同源基因以相同顺序排列的现象。两个物种之间的共线性程度可以作为衡量他们之间进化距离的尺度,可以知道物种间的亲缘关系。对基因组间的局部共线性块进行相似度、重排、倒置等现象的分析可以来阐述物种演化中发生的事件。
图1 共线性分析
2、系统进化树分析
系统发育树(Phylogenetic tree)又称为系统进化树,是用一种类似树状分支的图形来概括各物种之间的亲缘关系,可用来描述物种之间的进化关系。通过系统进化树分析可以找出不同物种间的进化关系,理解祖先序列与其后代之间的关系,同时也可以估算一组共有共同祖先的物种间的分歧时间。
细胞器基因组非常保守,常用来构建系统发育进化树来研究动植物的物种分类和进化地位。凌恩生物构建细胞器系统发生树的方法有以下两种:
(1)基于样品与参考基因组的群体SNP矩阵构建进化树:对于每一个样本,按照相同顺序将所有SNP相连,获得相同长度的fasta格式的序列(其中一个为参考序列),作为输入文件用于进化树构建。
(2)基于Core基因构建进化树:对细胞器基因组鉴定出来的单拷贝Core基因,利用MUSCLE v3.8.31软件进行蛋白多序列的比对,比对结果用于进化树构建。
图2 13个PCG氨基酸系统发育分析[1]
3、选择压力分析
选择压力是指外界施加给某物种生物进化过程中的压力,使得物种适应自然环境。在遗传学中,ω= Ka/Ks或者dN/dS表示的是非同义突变(Ka)和同义突变(Ks)之间的比率。一般认为,同义突变不受自然选择,而非同义突变则受到自然选择作用。通常认为,ω > 1表明有正选择(Positive Selection)效应,即有些有利突变正受到选择;ω = 1不受选择,即中性进化(Neutral Evolution);如果0 < ω < 1,则认为有纯化选择(Negative or Purifying Selection)作用,ω值越小,说明受到的负选择压越大,氨基酸序列越保守。
图3 非同义(dN)与同义(dS)核苷酸替换率的比率[1]
4、细胞器与核基因组片段交流分析
高等植物线粒体和叶绿体之间的片段交流是非常常见的情况,不同物种的线粒体基因组大概会有5%-10%可以在叶绿体基因组找到同源序列。该分析对于探讨叶绿体基因组中水平基因转移的机制以及在植物进化中所起的作用具有重要的意义。
此外,植物线粒体基因组和细胞核基因组之间也存在广泛的DNA交换。线粒体基因组中发现的一些重复序列可能来源于同一质体片段的多次转移。
图4 细胞器(线粒体与叶绿体)片段交流分析
图5 线粒体基因组和核基因组之间共享的相似序列[2]
5、结构变异检测
细胞器基因组进行结构变异检测主要有三种:SNP、InDel和SV。与参考基因组比对,分析近源物种细胞器基因组之间的变异情况,能够更好的对个体或群体进行差异性分析。
SNP(单核苷酸多态性)是指由单个核苷酸的变异所引起的DNA序列多态性。在基因组DNA中,任何碱基均有可能发生变异,因此SNP既有可能在编码基因内,也有可能在非编码序列上,位于编码区内的SNP(coding SNP,cSNP)因其可能影响个体的功能而备受关注。
InDel是DNA序列的插入(Insertion)和缺失(Deletion)现象的总称,狭义的InDel表示1~10bp的短InDel。在基因组编码区域,InDel的发生可能会引起移码突变、氨基酸改变、假基因的出现等等现象。这里分析的是狭义的InDel。
基因组结构变异(SV,Structural Variation)通常是指基因组内DNA片段缺失、插入、重复、倒位、异位。使用MUMmer软件对目标基因组和参考基因组进行比对,再使用LASTZ对区域间进行比对,从区域比对结果中查找SV。
图6 全基因组结构变异类型配对图
6、基因组多态性分析
核苷酸多态性(Pi)是衡量特定群体多态性高低的参数,是指在同一群体中随机挑选的两条DNA序列在各个核首酸位点上核昔酸差异的均值。核苷酸多态性(Pi)能揭示不同物种核酸序列的变异大小,变异度较高的区域可以为种群遗传学提供潜在的分子标记。例:基因和基因间区的核苷酸多样性分析。
图7 线粒体基因组的核苷酸多态性分析[1]
7、共有基因和特有基因分析
所有样本中都存在的同源基因称为“共有基因”(core gene),去掉共有基因后得到的为非共有基因(Dispensable gene),特有基因(specific gene)为只有该样本特异拥有的基因。共有基因和特有基因很有可能与样品的共性和特性相对应,可以作为样本间功能差异的研究依据。
图8 Core-Pan基因稀释曲线
图9 基因组的共有/特有基因数
8、密码子偏好性分析
某一特定密码子在编码对应氨基酸的同义密码子中的相对概率,可以反应密码子的偏好性程度。通过计算Relative synonymous codon usage(RSCU)获得密码子的偏好性值。研究密码子的使用模式,对于探明物种进化压力以及进一步的遗传研究都有重要的意义。
图10 密码子偏好性分析[3]
9、简单重复序列SSR分析
简单重复序列(simple sequence repeat, SSR)又称作微卫星序列(microsatellite, MS),是一类由1-6个核苷酸为基本单位多次重复而形成的DNA片段。SSR数量丰富、多态性高、均匀覆盖整个基因组、呈共显性遗传且检测简单,因此被作为第二代分子标记广泛应用于遗传图谱构建、目标基因定位、遗传多样性研究、分子辅助育种、种质资源鉴定等领域。
图11 SSR分类图
10、重复序列分析
重复序列是发展群体和进化分析标记的重要信息来源,串联、SSR和长重复广泛存在于线粒体基因组中。植物线粒体基因组中的重复序列对分子间重组至关重要,分子间重组可产生结构变异和极端线粒体基因组大小。其中散在重复又称为长重复序列,分为:正向重复(forward repeat)、反向重复(reverse repeat)、回文重复(palindromic repeat)和互补重复(complement repeat)四种类型。
图12 重复序列分类图[4]
11、tRNA二级结构分析
tRNA是破译mRNAs中遗传密码和蛋白质合成的关键分子。tRNA通常由76核苷酸组成,排列在类似三叶草的二级结构中,包含3个茎环,称为D环(含二氢尿苷环)、反密码子环和T环(胸苷、假尿苷和含胞苷或TΨC环)。
图13 多线南蜥tRNAs结构预测[3]
12、RNA编辑分析
线粒体基因表达需要经过复杂的转录后加工过程,包括RNA C-U编辑、内含子剪接、5’和3’末端成熟和RNA稳定。RNA编辑广泛存在于植物细胞器(线粒体和叶绿体)中,是植物生长发育所必需的。RNA编辑可以广泛定义为RNA序列中任何可能从模板中复制的位点特异性改变。
图14 RNA编辑[4]
参考文献
[1] First description of the mitogenome and phylogeny: Aedes vexansand Ochlerotatus caspius of the Tribe Aedini (Diptera: Culicidae). Infection, Genetics and Evolution, 2022.
[2] Characterisation of the complete mitochondrial genome of Taraxacum mongolicumrevealed five repeat‐mediated recombinations. Plant Cell Reports, 2023.
[3] Characterization of the complete mitochondrial genome of the many-lined sun skink(Eutropis multifasciata)and comparison with other Scincomorpha species. Genomics, 2021.
[4] Assembly and comparative analysis of the frst complete mitochondrial genome of Acer truncatum Bunge: a woody oil-tree species producing nervonic acid. BMC Plant Biology, 2022.