《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》
本人能力有限,如果错误欢迎批评指正。
第七章:Proteins Evolve
(蛋白进化)
蛋白质分子可以通过生物进化而发生改变。随着生物体的进化,它们的蛋白质会受到随机突变,偶尔会导致其天然结构、物理性质和生物作用的改变。这种变异可以被编码到基因组中,因此后代的蛋白质可以不同于祖先的蛋白质。在大规模范围内,修饰的生物分子有时会产生新物种-比如人类从类人猿中进化而来。本章描述了蛋白质的序列、结构和功能如何在进化过程中发生变化。
-蛋白质在进化过程中发生变化
查尔斯·达尔文在他1859年出版的《物种起源》一书中首次阐明了生物进化的原理,该书基于对植物和动物的研究。达尔文的中心原理是,现在是理解生物系统的基础,生物进化是一个血统修改过程( process of descent with modification)。血统”一词的意思是现代生物源自早期的(即祖先的)生物。“带修饰”一词意味着现代生物与它们的祖先并不完全相同。血统修改意味着所有的生命系统都是相互关联的。这种亲缘关系体现在系统发育或进化树中(图7.1)。树的根代表最古老的生物,树枝上的节点代表它们的祖先,叶子(末端节点)代表现代生物。一方面,即使在达尔文时代,生物体可能来自他们的祖先也并不奇怪,因为这一点从他们的父母那里观察孩子的出生中很明显。另一方面,在达尔文出现之前,一种生物可能来自另一种生物并不明显。物种产生事件更为罕见,也更难观察到。
图7.1 系统发育树显示了进化关系。顶端的顶端节点代表了今天的物种。边缘表示亲本和子物种之间的祖先关系。左边的条表示从最早的生命形式到现在的时间尺度。
达尔文的血统修饰原理在分子和细胞水平上具有强大的意义。这与在细胞中发现的生物分子的类型,如DNA、RNA、蛋白质和脂质,在整个生物学中都是普遍存在的观察结果是一致的。在一个生物体中提供核心功能的分子也在其他生物体中提供核心功能。这意味着每一个生活系统都是相互关联的。这也意味着你可以通过研究其他生物体来了解一种细胞或生物体的功能。正如下一章所讨论的,这为理解生物学和疾病以及发现新药提供了强有力的基础。
进化变化的机制是什么?
甚至在达尔文之前的一千年里,人们也一直在繁殖具有某些特征的动植物。这种繁殖被称为人工选择。达尔文提出,正常的生物进化是由一个类似的过程驱动的,他称之为自然选择。进化变化的潜在生化基础是生物聚合物的随机突变和自然选择。(a) DNA分子发生随机突变。DNA编码区的突变可能导致蛋白质氨基酸序列的改变。突变并不是指向最终结果的;它们只是随机发生的。(b)如果一个突变恰好赋予了生物体一个适应度放入优势,那么该突变就会稳定地嵌入到种群中,并繁殖到下一代。这样,有利的突变被保留,而不利的突变则不会保留下来。此外,一些生物变化是由遗传漂变(genetic drift)发生的;这些只是随机的变化,对生物体的生存既不有利也不不利,所以它们不受自然选择的力量驱动的。区别在于,自然选择受到进化压力变化的影响(即影响不同生物体相对适应度的环境因素的变化),而遗传漂变则不是。
突变可能是有害的,中性的,或有利于生物体的健康。突变会影响蛋白质的结合亲和力、其作用机制、其稳定性或其形成聚集物的倾向,或者它们会导致蛋白质合成中的错误(图7.2)。
图7.2 蛋白质修饰可发生在不同的阶段。错误可能发生在转录、mRNA的剪接、翻译、折叠或翻译后修饰中。这些错误可以改变细胞的适应度,最终影响基因组的进化。
同源物是具有相似功能和共同祖先的蛋白质
同源物这个词,由R·欧文在1843年提出,表达了两个生物实体在进化上相互联系的观点。一个人的心脏是一头牛的心脏的同源物。这两颗心脏具有相似的结构和相似的功能,因此可以合理地推断它们是通过一个共同祖先的进化起源而相关的。我们手中的骨骼结构类似于狗爪和蝙蝠翅膀上的骨骼结构,这意味着这三种解剖结构都是通过血统进化联系起来的。类似地,两个蛋白质彼此是同源的,或者如果它们具有相同的功能,并且它们是一个共同祖先的后代,则是同源的。
进化是一个我们不经常直接观察到的过程,所以我们必须间接地得出推论。让我们区分我们可以度量的属性和我们推断的属性。当我们没有看到这个过程并且不能复制它时,我们如何知道两个东西是否有一个共同的祖先呢?对于蛋白质,有三个术语用于序列比较:序列一致性(sequence identity),序列相似性(sequence similarity),序列同源性(sequence homology)。序列一致性是指当两个序列(核酸或氨基酸)被最佳对齐时,有多少氨基酸是相同的。举个例子,我们可以使用Hamming距离算出两个序列之间不匹配的数量的计数,从而评估序列一致性(Box 7.1)。
====================================================
Box 7.1 Hamming距离计算符号字符串之间的不匹配,如氨基酸序列.
Hamming距离是两个序列之间的单位不匹配的数量(图7.3)。序列2与序列1在浅红色氨基酸位置的不同,序列1和序列2之间的Hamming距离为dH(1,2)= 3。现在比较一下序列1和序列3。序列3与序列1在10个位置上有所不同(另外7个位置用蓝色突出显示),因此dH(1,3)= 10。序列2和序列3之间的距离为dH(2,3)= 7。
图7.3 序列成对比对的Hamming距离评价。两个不同的序列(标记为2和3)的比对显示在(A)和(B)中,都是针对序列1。不匹配项用红色突出显示。
====================================================
我们还可以测量两个序列之间的序列相似性。为了估计蛋白质序列的相似性,而不是仅仅计算一种氨基酸替换另一种氨基酸的次数,你还需要根据一些度量来解释你所期望的这种替换的频率。取代频率(.Substitution frequencies)可以反映氨基酸对之间的物理化学相似性。例如,缬氨酸和亮氨酸彼此相似,因为它们都是疏水和脂肪族的,而缬氨酸和谷氨酸是不同的。通过使用一种氨基酸与另一种氨基酸的相似度,你可以计算一个序列与另一个序列的相似度。与序列恒等式一样,相似性是一个你可以为任意两个序列定义的数值量,而不引入关于这些蛋白质如何进化或它们在功能上如何相关的假设。
序列同源性不同于序列相似性。序列同源性不是一个你可以衡量的数字;这是一个肯定的答案。两个序列都有一个共同的祖先吗?如果“是”,则这两个序列是同源的。如果是“否”,则这两个序列没有序列同源性。说两个序列是同源的只是意味着它们在进化上是相关的。共同祖先的确定是从进化树的知识中推断出来的,进化树是基于任何现有数据获得的,例如生物分子序列或功能或解剖相似性。为了防止混淆,当你指的是序列标识或相似性时,应该避免使用术语序列同源性。
当两个蛋白质序列相似时,它们的结构和功能通常也很相似
当一个氨基酸序列与另一个氨基酸序列相似时,通常会发现它们的天然结构彼此相似,且其生物学功能相似(图7.4)。具有90%的序列同源性的蛋白质超过30%在结构上具有同源性同源。
图7.4 当蛋白质序列相似时,它们的天然结构往往相似。RMSD是这两个结构在最优叠加时的均方根偏差。
我们说的蛋白质功能是什么意思?基因本体论(GO)项目给出了一个关于蛋白质功能的统一词汇表,该项目提供了一个网站和搜索工具来描述蛋白质分子的作用、作用和机制。
它通过三种方式来定义功能:(a)蛋白质的生物过程,(b)蛋白质的细胞定位,(c)蛋白质蛋白质的分子机制。在这种语言中,细胞色素c的生物过程是氧化磷酸化和诱导细胞死亡,其细胞定位位于线粒体基质中,其分子机制被确定为一种氧化还原酶。GO为注释整个基因组中的蛋白质功能提供了一种通用语言。此外,两个序列同源性大于35%的蛋白质可能具有相似的功能。
同源关系有三种类型:直系同源关系、旁系同源关系和异同源关系(Orthologs,Paralogs, and Xenologs)
定义蛋白质之间不同类型的进化关系是很有用的。如前所述,如果两个蛋白质A和B具有相同的功能,序列相似,并且共享一个共同的祖先,则被称为同源物。即便如此,A和B也可以有不同的关系。你和你的哥哥有一个共同的祖先。你和你的表弟也有一个共同的祖先。但是你和你哥哥的遗传关系和你和你表弟的遗传关系不同。为了区分不同类型的同源关系,Walter Fitch在1974年创造了同源和同源的术语(图7.5)。来自不同物种的两种具有相似序列和功能的蛋白质具有直系同源关系。来自同一物种的两种具有相似序列和功能的蛋白质具有旁系同源关系。一对直系同源基因的一个例子是玉米中的蛋白酶和人类中的蛋白酶,它们具有相同的机制和相似的氨基酸序列。一对旁系同源基因的一个例子是人类中两种不同的蛋白酶具有相同的机制和相似的氨基酸序列。单词前缀“para”表示这两种蛋白质在同一物种中同时工作。人类的478种不同的激酶蛋白是同源的;它们在不同的底物上操作,但它们执行相同的磷酸化生化功能,并共享一个相似的催化结构域。
图7.5 旁系同源和异种同源。(A)大肠杆菌a和大肠杆菌B是两种不同的蛋白质序列,例如来自基因复制。同样地,人类的序列A和序列B也是类似的序列。(B)人类A和人类B是大肠杆菌A和大肠杆菌B的两种不同的同源物:它们是从一个共同祖先进化而来的不同生物体中的相似蛋白质。
在旁系同源蛋白中,一种蛋白质通过基因复制会产生另一种蛋白质。当一个基因在某种类型的细胞中经历了进化复制时,该基因的一个副本可以继续在该细胞系中执行其正常的功能,而该副本仍然像以前一样受到同样的自然选择力量的影响。该基因的另一个副本现在变得多余了,不再需要对同样的自然选择力量做出反应。因此,这种新的蛋白质现在可以自由地进一步进化,为生物体执行其他功能。
或者两种蛋白质可能是彼此的异同源物。“Xeno”的意思是外国或外国人。异种蛋白是一种在某些进化过程中从外部进入细胞的蛋白质。以一种攻击细菌的病毒为例子。来自病毒的基因可能被植入细菌DNA,然后在那里变得稳定。然后,病毒基因与细菌DNA一起在细菌基因组中繁殖到后代。在这个例子中,一个病毒蛋白可能是一个类似于它的细菌蛋白的异种类似物。一个基因进入外源细胞并稳定地融入其基因组的过程被称为水平基因转移(
Horizontal gene transfer)-HGT。HGT是一个非常重要的进化过程,特别是在细菌和真菌。HGT在细胞膜破裂、DNA碎片化、或细胞受到应激或不稳定的条件下进行发展。
HGT机制使达尔文“血统”的想法复杂化,因为HGT意味着一些进化关系不能在树状图上表示,在树状图中,生物体完全从单一祖先进化。当一个病毒感染一个细菌时,它可能会将其DNA插入细菌基因组,然后细菌基因组就不再来源于一个单一的细菌祖先。HGT是一个可以加速进化的过程。
基因复制可以解释蛋白质结构中的高对称性
有些蛋白质是高度对称的。图7.6A显示了β-三叶蛋白;它具有三重对称性。它是一个由三个重复的子序列组成的单一多肽链。蛋白质对称性的进化的起源是什么?图7.6B给出了一个关于保守体系结构模型的解释。首先,进化产生一个肽A,它非常小不会自己折叠。A的特性是,它可以(非共价地)结合到其他两个相同的A肽上,当它们结合时,这三个链相互结合并折叠成一个非共价的三链同源三聚体。如果编码蛋白质A组装成同源三聚体的基因被复制到两个相似的肽A和A上,由这三个基因编码的蛋白质现在仍然可以组装成异三聚体。或者,这三个基因A、A'和A''可能是DNA序列中的邻居,并在DNA水平上融合,导致三个相似的子序列的共价连接链,现在可以完全折叠成一个单链。基因复制、分化(见下一节)和重组是在更复杂的生物体中扩展蛋白质库的三种基本机制。
-------------------------------------------
欢迎点赞收藏转发!
下次见!