鼠鼠跳槽了,因为现在公司发(bu)展(zhang)受(gong)限(zi),只能跳一次,从大兴到昌平了。从二代ivd行业去三代T2T和泛基因组了。在这里我们分享一篇文章。
摘要:高质量的参考基因组是基因组学研究的基础。目前,大多数的参考基因组仍然是不完整的。随着长读长测序技术的不断发展,完成端粒到端粒基因组组装的物种越来越多。T2T基因组为深入研究着丝粒等复杂区域奠定了基础,对功能基因的挖掘和重要生物机制的研究具有重要意义。本文概述了植物T2T基因组的研究进展,结合实例介绍了相应的组装策略,讨论了T2T基因组的意义和面临的挑战,并对未来的发展前景进行了展望。
1.三代测序
第三代测序技术,又称为长读长测序,标志着植物基因组测序组装的新阶段。当前,主流的两种测序技术是来自Pacific Biosciences(PacBio)的SMRT(single molecule real-time)测序技术和Oxford Nanopore Technologies(ONT)的纳米孔测序技术。
SMRT测序技术
-
两种读长模式:
-
CLR模式(Continuous Long Read):旨在尽可能提高读长,能够测序大于30 kb的DNA片段,但其错误率较高。
-
CCS模式(Circular Consensus Sequencing):生成HiFi reads,虽然读长较短,但准确度可达到99.9%。
-
纳米孔测序技术
-
读长优势:理论上不受设备限制,可以产生超长读长的ONT ultralong reads,最高可达100-200 kb。
-
应用:HiFi测序保障基因组的高质量碱基,而ONT测序能够穿越长而复杂的区域。这两者的优势互补,使它们在T2T基因组组装中不可或缺。
T2T基因组组
-
组装过程:
-
首先,使用组装软件将测序reads组装到contig水平。
-
然后,采用辅助方法以获得更连续的染色体水平组装。
-
辅助组装方法
-
Hi-C技术:
-
定义:高通量染色体构象捕获(high-throughput chromosome conformation capture)。
-
功能:捕获全基因组染色质之间的相互作用信息,构建高分辨率的染色质互作图谱。
-
应用:常与HiFi、ONT数据结合生成T2T基因组,同时在杂合二倍体和多倍体的组装中表现良好。
-
2.组装软件
主要组装软件
-
Canu (Koren et al., 2017)
-
步骤:将组装过程分为三个主要阶段:
-
校正:提高碱基准确性。
-
修剪:去除冗余reads,保留高质量序列。
-
组装:最终完成contig的组装。
-
-
特点:支持HiFi数据的读取,大大提升组装速度和质量。
-
-
NECAT (Chen et al., 2021)
-
Falcon (Chin et al., 2016)
-
Flye (Kolmogorov et al., 2019)
-
NextDenovo
-
特点:基于超长ONT数据开发,成为ONT数据组装的常用工具。
-
能力:能够生成高度连续的contig,成功跨越基因组中大部分难以组装的区域。
-
-
HiFiASM (Cheng et al., 2021)
-
特点:针对PacBio HiFi数据的单倍型组装算法。
-
优势:在组装过程中无损保留单倍型信息,提升对高重复和复杂区域的解析能力。
-
最新版本:支持超长ONT数据的T2T基因组组装。
-
-
Verkko (Rautianen et al., 2023)
-
特点:集成HiFi和超长ONT数据,开发用于T2T组装的混合基因组组装管道。
-
能力:展示了其组装人类T2T基因组的能力。
-
3.常规基因组组装策略通常可以分为以下几个步骤:
1. 基因组特征评估
-
方法:基于k-mer的原理,利用高准确性的二代测序数据。
-
评估内容:
-
目标物种基因组的大小
-
杂合度
-
重复序列的含量
-
-
影响:基因组越小、杂合度越低、重复序列含量越少,组装难度越低。
2. 测序reads校正
-
目的:提高碱基的准确性。
3. Reads拼接
-
过程:将校正后的reads拼接成contig。
4. 染色体水平组装
-
方法:利用遗传图谱、Bionano光学图谱、Hi-C等技术构建染色体水平的组装。
4. T2T基因组组装策略
T2T(从头到尾)基因组的组装策略大致可以分为以下三种:
1. HiFi 数据组装策略
-
步骤:
-
将HiFi数据组装成contig。
-
借助高质量的近缘物种基因组或Hi-C数据将contig提升至染色体水平,生成带有缺口的基因组。
-
对ONT数据进行组装校正,然后使用ONT组装填补HiFi组装的缺口。
-
-
特点:生成的基因组碱基质量较高,适用于基因组较小且简单的物种。
-
应用实例:此策略已成功应用于西瓜(Citrullus lanatus)、草莓(Fragaria vesca)、桑树(Morus notabilis)等物种【Deng et al., 2022; Ma et al., 2023; Zhou et al., 2023】。某些物种(如蔗茅 Erianthus rufipilus、猕猴桃 Actinidia latifolia)也可以仅通过HiFi数据完成染色体的T2T组装【Han et al., 2023; Wang et al., 2023b】。
2. ONT 数据组装策略
-
步骤:
-
将ONT数据组装成contig。
-
进行碱基质量校正和染色体挂载。
-
最后用HiFi组装补填缺口。
-
-
特点:由于ONT的reads更长,能够跨越基因组中的高度重复区域,从而生成更为连续的序列。通常用于基因组较大且复杂的物种。
-
应用实例:这种方法已成功完成大尺寸玉米(Zea mays)的T2T组装【Chen et al., 2023】。
3. 混合组装策略
-
工具:Verkko和HiFiASM等软件支持同时将HiFi数据和ONT数据作为输入,生成T2T级别的组装。
-
应用实例:这种策略已成功应用于水稻(日本晴)和大豆(Glycine max)的基因组组装【Shang et al., 2023; Zhang et al., 2023a】。另外,可以通过直接将reads比对到基因组的缺口区域来填补缺口,然后再对缺口区域进行碱基校正。
总结
-
T2T基因组的组装策略并不是固定的,而是需要根据物种特性、测序数据类型以及不同软件的组装效果来选择合适的策略。
-
完全没有人工干预的情况下完成T2T组装仍然具有挑战性,因此在处理复杂基因组区域(如端粒和着丝粒区域)时,通常需要进行手动检查。
5.端粒与着丝粒的鉴定
端粒
-
结构:端粒结构比较保守,通常分为以下几个部分:
-
串联重复的端粒区域
-
亚端粒区域
-
中间的连接部分
-
-
鉴定方法:在植物基因组中,通常使用七碱基端粒重复序列(5′端的 CCCTA AAA 或 3′端的 TTTAGGG)与基因组进行比对,以确定端粒区域。
着丝粒
-
功能:着丝粒在植物细胞分裂过程中保障染色体的正确分离。
-
结构特征:着丝粒由高度重复的序列和少量基因构成【Nagaki et al., 2004】。
-
位置预测:
-
方法:可以通过重复序列密度和基因密度进行着丝粒位置的预测。
-
实例:
-
在西瓜的T2T组装中,通过对连续串联重复序列的注释预测着丝粒位置【Deng et al., 2022】。
-
在猕猴桃的T2T组装中,结合串联重复序列、基因密度和Hi-C交互信息来确定着丝粒位置【Han et al., 2023】。
-
-
应用范围
-
其他物种:许多物种基于着丝粒区域的序列特征完成了着丝粒位置的预测工作,如香蕉(Musa spp.)、木薯(Manihot esculenta)、葡萄(Vitis vinifera)等【Huang et al., 2023; Shi et al., 2023; Xu et al., 2023】。
-
新工具:近期发表的Quartet工具中的CentroMiner功能,可以将基因组与重复序列注释文件作为输入,直接输出着丝粒位置的预测结果【Lin et al., 2023】。
-
精确定位:通过结合CENH3(着丝粒特异性组蛋白变体)与ChIP-seq测序进行比对,可以完成对着丝粒位置的更精确定位。拟南芥、大麦(Hordeum vulgare)等物种使用ChIP-seq等多种技术完成了着丝粒位置的准确预测【Naish et al., 2021; Navrátilová et al., 2022】。
6.基因组质量评估
随着长读长组装技术的发展,基因组的质量和完整性显著提升,因此对T2T基因组的组装结果进行全面评估变得至关重要。基因组质量评估主要包括连续性、完整性和准确性三个方面。以下是常见的评估指标和工具:
1.N50
-
定义:N50是评估基因组连续性的指标。
-
计算方法:
-
对contig的长度从大到小进行排序。
-
逐步累加长度,直到总长度超过基因组一半。
-
此时加入的序列长度即为N50长度。
-
-
意义:N50值越大,代表基因组组装的连续性越好。
2. BUSCO完整性评估
-
工具:BUSCO(Benchmarking Universal Single-Copy Orthologs)是一种用于评估基因组完整性的工具【Simão et al., 2015】。
-
工作原理:
-
BUSCO建立了包含多个物种的基准数据库,包括已知的单拷贝基因。
-
这些基因在不同物种中功能相似且相对保守,用于评估基因组完整性。
-
-
评估结果:
-
包括单拷贝比对基因、多拷贝比对基因、部分比对基因和丢失基因。
-
比对成功的基因越多,代表基因组的完整性越好。
-
-
优势:适用于不同物种,广泛应用于基因组学研究。
3.测序数据的比对率与覆盖深度
-
比对率:指成功将原始测序数据比对到组装结果的比例,反映了组装结果与原始测序数据的一致性。
-
覆盖深度:指某一基因组区域内的测序覆盖深度。
-
评估方法:
-
将原始数据比对回基因组,检查reads的覆盖深度分布。
-
可以判断基因组中是否存在局部的组装错误。
-
4.基于k-mer的评估
-
方法:k-mer提供了一种无需参考基因组即可评估组装质量的途径。
-
工具:Merqury是一种新的评估基因组质量的工具【Rhie et al., 2020】。
-
工作原理:
-
通过将未组装的高精度测序reads的k-mer集合与基因组组装进行比较,揭示拷贝数错误,计算一致性质量(QV)和k-mer完整性。
-
当有亲本k-mer可用时,还可以检测分型准确性和单倍型完整性。
-
-
应用实例:拟南芥Col-XJTU组装的5条染色体QV值均超过60【Wang et al., 2022】;西瓜基因组QV值从35.22提升至76.97,显示出高可靠性和碱基准确性【Deng et al., 2022】。
5.LAI值
-
定义:LTR组装指数(LTR Assembly Index,LAI)用于评估基因组组装连贯性的一个指数。
-
计算方法:根据完整LTR-RTs转座子在所有LTR-RTs中的占比评估。
-
分类标准:
-
Draft级别(0≤LAI<10)
-
Reference级别(10≤LAI<20)
-
Gold级别(20≤LAI)
-
-
示例:蔗茅T2T的LAI值为20.87,达到黄金标准,表明重复区域高度完整【Wang et al., 2023b】。
6. SNVs评估碱基准确性
-
定义:单核苷酸变异(SNVs)用于评估碱基的准确性。
-
流程:
-
使用bwa软件将二代数据比对到参考基因组,随后使用GATK等工具进行SNP calling和过滤【McKenna et al., 2010】。
-
统计纯合和杂合SNVs的数量。
-
-
意义:纯合SNVs可能代表错误碱基,其占整个基因组长度的比例即为碱基的错误率。基因组质量越高,碱基的错误率越小。
7. T2T基因组的意义与应用
1 正确地识别结构变异
-
定义与重要性: 结构变异(SVs)是指个体基因组序列中长度大于50 bp的差异,涉及倒位、插入、缺失等类型。这些变异对于理解基因组的功能和个体间的遗传差异至关重要。
-
应用于结构变异识别: T2T基因组技术能更准确地识别复杂的结构变异,尤其是染色体着丝粒和端粒区域的变异。
-
实例研究: Zhang等(2022)比较了四个杂交水稻亲本及已发表的水稻基因组,与日本晴基因组对比,发现了大量的结构变异(包括422,858~526,481个InDels和56,817个非冗余SVs)。
-
更多发现: Song等(2021)研究发现MH63与ZS97在第11号染色体的末端存在大量结构变异,MH63中独特地检测到扩张区域和插入区域,包含更多抗性相关基因。
-
2 挖掘新的基因
-
新基因发现: T2T基因组研究为新基因的挖掘提供了可能,尤其是在植物生长发育和抗逆性方面的重要信息。
-
实例研究: 在T2T香蕉基因组中,发现了1,700个新基因,主要是串联重复基因,构成了基因簇,包括萜类合酶基因家族,对植物风味和环境适应性具有关键作用(Belser et al., 2021)。
-
3 解析着丝粒等复杂基因组区域
-
研究复杂区域的挑战: 着丝粒等复杂区域的组装一直是植物基因组研究的难点。T2T基因组提供了强大的工具,促进了对这些区域的理解。
-
关键发现: Naish等(2021)通过鉴定拟南芥着丝粒上的CEN180序列,发现不同染色体的序列存在显著差异,并讨论了逆转录转座子ATHILA对CEN180序列多样化的影响。
-
大豆研究: Wang等(2023a)发现大豆13号染色体的着丝粒特异性重复序列GmCent-3,变异较小,可能表明其形成晚于其他染色体。
-
4 深入研究重复序列
-
重复序列的重要性: 重复序列在基因组进化中起着重要作用,转座子(TE)影响基因表达和基因组结构。
-
LTR-RT的角色: 长末端重复反转录转座子(LTR-RT)是植物基因组中最常见的重复,其增殖可能导致基因组扩张。
-
水稻研究: 在高质量水稻T2T基因组MH63的分析中,发现籼稻基因组具有更多的转座子和片段重复(SD),揭示了TE与SD对水稻基因组进化的协同作用(Lie et al., 2021)。
-
玉米研究: Mo17的T2T基因组鉴定出约88.37%的重复序列,包括75.52%的逆转录转座子和9.78%的DNA转座子(Chen et al., 2023)。此外,Mo17基因组中富含的卫星序列主要由TAG三核苷酸重复组成,形成了超长简单序列富集区。
-
8. T2T 基因组的挑战
1 高重复序列
-
重复序列比例高:植物基因组中的重复序列比例显著高于其他生物,如病毒、细菌和动物。例如,黄杨和水青树基因组中重复序列分别占76.4%和78.5%;而蕨类植物基因组中重复序列高达85.2%,其中 LTR-RTs 占67.0%(Chandrabali et al., 2022; Marchant et al., 2022)。
-
组装难题:富含重复序列的区域通常涉及关键遗传功能区域(如端粒、着丝粒、多拷贝基因等),使得精确组装成为挑战。二代测序在重复序列组装方面通常不够完整。
-
三代测序的优势:相比于二代测序,三代长读长测序能够越过重复区域,改善组装的连续性和准确性。然而,低准确度的 ONT 测序仍然面临测序错误与微小变异区分的挑战(Kong et al., 2023)。
2 高杂合度
-
杂合度问题:许多植物基因组由于远缘杂交和自交不亲和性,具有较高的杂合度。组装时常会导致高杂合区域被识别和合并的问题,形成多个独立的 contig,从而增加基因组的大小。
-
冗余去除:研究人员使用 HaploMerger2 软件从荔枝中分离两套单倍型(Hu et al., 2022)。新的软件如 HiFiasm 也能够直接生成单倍型组装结果,这对高度杂合物种的组装有突破性意义。
-
单倍型分离与 T2T 组装的挑战:同时实现单倍型分离和 T2T 的组装依然是一项巨大的挑战。
3 高倍性
-
多倍体的普遍性:多倍体在陆生植物中很常见,包括同源多倍体和异源多倍体。同源多倍体来源于单个物种的全基因组复制,异源多倍体则源自两个或多个不同物种的杂交。
-
区分亚基因组的难度:对于异源多倍体,区分不同祖先物种的亚基因组相对容易;而同源多倍体因同源染色体之间的高度相似性,导致单倍型之间的同源序列难以准确区分,可能产生多个折叠的 contig,增加了组装的复杂性(Zhuang et al., 2019; Miao et al., 2022)。
4 超大基因组
-
基因组大小差异:测序的植物基因组大小差异显著,从几兆碱基(Mb)到几十吉碱基(Gb)不等。
-
数据处理复杂性:超大基因组的组装面临数据处理的复杂性,传统组装算法在处理超大基因组时效率低下。
-
生成与存储挑战:生成足够的长读长数据需要昂贵的测序成本,同时存储和处理庞大的数据集也需更大的计算资源。