这张扫描电子显微镜图像显示了一对连接的Y染色体(右)与一对连接的X染色体相比,在细胞分裂前期时重复的Y染色体(右)小了多少。图片来源:BIOPHOTO ASSOCIATES/SCIENCE SOURCE
长期以来,Y染色体的全序列测序被认为是一项不可能完成的任务。男性的Y染色体充满了重复和倒置的DNA片段,使得将测序后的DNA片段以正确的顺序重新组装变得极具挑战性。2023年8月23日,在《Nature》(IF2022=64.8)杂志发表的一对论文中,研究人员利用最先进的技术,成功地对来自世界各地的43个男性的Y染色体进行了测序及组装。完成了长期以来令人期待的人类基因组完整测序的最后一步,实现了人类基因组完全测序的目标。
第一篇论文《The complete sequence of a human Y chromosome》详细描述了重复区域的排列方式,并鉴定了数十个新的基因;第二篇论文《Assembly of 43 human Y chromosomes reveals extensive complexity and variation》揭示了这种排列以及基因的数量因人而异。这项成就“代表了一个令人印象深刻的终章,从而标志着人类遗传学全新时代的开始,” KU Leuven的遗传学家Toomas Kivisild说,他并未参与这项工作。“这两项研究开始揭示个体间变异的规模。”
拉筹伯大学(La Trobe University)的进化遗传学家Jenny Graves补充道:“Y染色体确实和我们想的一样奇怪,一样有趣。”
科学家认为Y染色体和X染色体曾经是相同的。随着时间的推移,Y染色体中包含基因的部分缩小到X染色体中该区域大小的六分之一,并且Y染色体的基因数量只有其在X染色体对应部分的一半。一些研究人员认为,这种退化可能会逐渐继续下去,可能导致Y染色体的完全丧失,就像一些动物的谱系中所发生的那样。
尽管Y染色体的尺寸很小,但Y染色体的测序却很困难。最初尝试人类基因组测序时甚至没有尝试Y染色体,部分原因是Y染色体被认为是注定要消失的基因的无关紧要的“坟墓”。此外,其重复区域使得Y染色体成为“人类基因组中最麻烦的染色体,” deCODE Genetics的生物人类学家Agnar Helgason说,他并未参与这项新工作。最终,一个研究组确实对Y染色体的一部分进行了测序,并发现Y染色体的基因组序列是非常动态的,通过在镜像DNA片段中拥有多个拷贝来改变基因。以这种方式构建自身,Y染色体设法保持其少数基因的良好秩序。
这张图显示了来自不同个体的Y染色体大小的巨大差异。来源:JANE CHA; JAX CREATIVE
2023年3月,美国国家人类基因组研究所(National Human Genome Research Institute)的生物信息学家Adam Phillippy和端粒到端粒联盟(Telomere-to-Telomere)描述了除Y染色体外的人类基因组的完整测序。当时,该联盟在推特上表示,他们手头有Y染色体的序列。现在,该团队已经分析并详细描述了Y染色体的6200万碱基的复杂排列,增加了之前在早期部分测序后缺失的3000万碱基。“这有点像高清电视——我们以前能看到画面,而这些研究使其变得超级清晰,”莱斯特大学的遗传学家Mark Jobling说,他并未参与这项工作。
在Phillippy的第二篇论文中,杰克逊实验室基因组医学的遗传学家兼主任Charles Lee和他的同事们从来自全球21个不同人群男性的43条Y染色体进行了测序,这些人群之前被确定为千人基因组计划(1000 Genomes Project)的一部分,该项目对人类的遗传变异进行了抽样。
他们发现Y染色体差异很大。“我很惊讶地看到Y染色体上某些基因的拷贝数变异如此之大,”Lee说。例如,一个人的Y染色体有23个TSPY基因(参与精子的形成)的拷贝,而另一个人有39个拷贝。该研究还发现了Y 染色体的大型重复区域的大小和组成存在差异。这个所谓的异染色质块在不同的男性中从1760万到3720万碱基不等;这是人类基因组中最大的异染色体块。而且,这个片段中的重复似乎并非完全随机,而是具有重复DNA片段的不同模式。
这种DNA组装和保守性水平表明Y染色体并没有退化为过时的,Jobling说。这篇“论文证实了Y染色体的基因基本上是保守的,”他说。“该论文否定了Y仍在退化并注定要消失的观点。”
到目前为止,尚不清楚所有这些变异是否影响男性的生育能力或其他特征。但是知道它存在是“为后续研究奠定基础,”Helgason说。例如,研究人员现在可以进行大规模研究,以了解Y染色体中的差异如何与健康问题相关联,例如Y染色体被认为参与其中的某些类型的癌症,如膀胱癌。Y染色体“仍然会很难研究,但至少我们知道哪些部分是棘手的,”他说。
人类Y染色体因其复杂的重复结构(包括长回文、串联重复和区段重复)一直难以测序和组装。因此,GRCh38参考序列中缺失了超过一半的Y染色体序列,而它仍然是最后一个完成的人类染色体。在这项研究中,端粒对端粒(T2T)联盟呈现了来自HG002基因组(T2T-Y)的完整序列,长度为62460029碱基。这一序列纠正了GRCh38-Y中的多个错误,并向参考序列中添加了超过3000万碱基的新序列。此外,该研究还揭示了基因家族TSPY、DAZ和RBMY的完整扩增序列结构,以及41个编码蛋白质的基因,其中大部分来自TSPY家族。此外,在异染色质Yq12区域中还观察到了人类卫星1和3块的交替分布模式。最终,研究人员将T2T-Y与先前的CHM13基因组组装结合起来,以创建了包括所有24个人类染色体的完整和全面的参考序列,并将现有的人群变异、临床变异和功能基因组数据映射到这一参考序列中。
人类Y染色体内高度重复序列的普遍存在一直阻碍了其完整的组装,因此迄今为止一直被系统性地忽略在基因组分析中的应用。在这里,我们呈现了43个横跨182900年人类进化历史的Y染色体的全新组装,并报告了在大小和结构方面存在显著多样性。男性特异的有色染色质区域的一半受到大规模倒置的影响,其复发率比所有其他染色体高两倍以上。与这些倒置相关的扩增序列显示出不同的突变率,这些突变率依赖于序列背景,并且一些扩增序列的基因表现出存在与获取和清除谱系特异性伪基因相关的协同进化的证据。人类基因组中最大的异染色质区域,Yq12,由交替的重复数组组成,显示出数量、大小和分布方面的广泛变异,但保持1:1的拷贝数比例。最后,我们的数据表明,重组伪自体区域1与X和Y染色体的非重组部分之间的边界距离目前已建立的边界有500 kb。多个个体的完全解析Y染色体的可用性为识别与特定Y染色体变异相关的新性状关联提供了独特的机会,并为了解人类基因组复杂区域的进化和功能提供了洞察。
阅读原文内容:
https://www.science.org/content/article/most-troublesome-chromosome-gets-new-respect-after-full-sequence
查看原文信息:
http://dx.doi.org/10.1038/s41586-023-06457-y
http://dx.doi.org/10.1038/s41586-023-06425-6
往期精品(点击图片直达文字对应教程)
机器学习