近日,中国农业科学院农业基因组所武志强课题组在《The Plant Journal》在线发表了题为“Long-read sequencing characterizes mitochondrial and plastid genome variants in Arabidopsis msh1 mutants”的研究论文,该研究通过高精度的长读长测序(PacBio HiFi)解释了拟南芥MSH1参与介导的细胞器基因组重组与变异积累规律。
发表期刊:The Plant Journal
发表时间:2022. 09
DOI: 10.1111/tpj.15976
一、背景介绍
植物线粒体基因组中丰富的重复序列可导致基因组快速重排,也是短读长测序研究的主要障碍。众所周知,如MSH1等核编码蛋白可以抑制与重复序列相关的线粒体基因组变异的产生,但对这些机制的理解受到了短读长技术的限制。而长读测序技术的出现为分析植物线粒体基因组中的结构变异提供了机会。
二、实验设计
本研究选用拟南芥msh1突变个体为研究对象,通过使用高度精确的长读长测序(PacBio HiFi)来描述线粒体(mt)和质体(pt)基因组结构变异、单碱基变异(SNVs)以及插入缺失(indels)变异特征,绘制了线粒体基因组重复序列介导重组精细图谱,并分析了线粒体与叶绿体基因组变异积累模式的差异。
三、结果分析
1、HiFi的定位确定了拟南芥线粒体基因组中的结构变异
为了分析纯合子msh1突变体的细胞器基因组的结构重排,收集了来自3个不同F3家族的地上组织,构建文库用于PacBio HiFi测序,总共产生了34.36 Gb的HiFi reads。除去一个产量极低的异常值后,核基因组的覆盖率为8.5× ~ 46.4×,pt基因组的覆盖率为899.0× ~ 3093.8×,mt基因组的覆盖率为30.9× ~ 247.9×。
在野生型中,非串联重复介导的重排占总reads的7.5%,其中大部分与两个大重复序列区域相关(图1c)。在msh1突变体中,这一比例增加到总reads的31.63%,包含由中等大小重复介导的重排和多次重排的比例增加(图1b,c)。同时还检测到一些低频事件,包括MMEJ(AO长度在2~49bp之间)和NHEJ(AO长度为0或1 bp)、与串联重复序列相关的复制、滑动和插入相关(大多数情况下为poly-G/C tracts)。与野生型相比,msh1突变体中MMEJ事件的比例也增加了。
综上所述,msh1突变体的mt基因组结构变异主要(> 96.7%)与串联重复序列相关。与短读长测序相比,本研究中HiFi测序为研究单个序列和低频结构变异类别中的多重重排提供了机会。
图1 mt基因组中定位HiFireads识别的结构变异
2、msh1突变体中mt基因组结构变异的全局模式
通过可视化所有的连接和一次重排reads的read计数,发现野生型个体中的重排主要与Large1、Large2、Q和V重复,以及其他一些频率非常低的重复有关。在msh1突变体中,增加的mt基因组重排的活性不是随机分布的(图2a)。它们大多与在以前的研究中发现的重复子集相关,在三个包含大重复的区域和两个具有中等大小重复的额外区域观察到最极端的变异性。通过更详尽的blastn参数,发现许多之前没有命名的小重复也与mt基因组重排有关(图2a)。然而,由这些小的重复介导的重排得到很少的reads支持,在较少的样本中检测到(图2b,c)。
对于一个给定的重复组,使用跨越两个重复边界的长读长reads,可以更详细地估计非对称重组事件。两个msh1突变家族之间的不对称重组极性很大程度上保守,强度差异小,部分重复组的亲本形式丢失,这可能是由异质分选引起的。与野生型相比,观察到msh1突变体中Large1基因存在更明显的不对称重组和严重的一种亲本形式的丢失(图3)。
长读长reads可以识别涉及两组或更多组重复的重排。例如,与野生型相比,msh1突变体中涉及Large1和Large2的两次重排reads增加表明其mt基因组更加碎片化和异质性。总之,本研究数据提供了更详细和更准确的msh1突变体的mt基因组结构变异信息。
图2 在msh1突变体中检测到的单重排mtreads的模式
图3 不对称的重组事件和伴随的亲代形式的丧失
3、对msh1中交叉和非交叉重组事件的基本理解
研究了27组序列不完全相同的高度、中度活性重复序列的内部单核苷酸变异(SNVs)和indels。首先研究了单重排嵌合reads中交叉位点的分布。发现,重组断点最有可能出现在双拷贝重复序列中最长的相同片段(LIF)中,并且支持reads的比例与LIF长度占总重复序列长度的比例呈正相关(图4a)。这表明重组断点在重复序列中分布在相对均匀的长度上,而不是定位于单个热点。在分析中,还发现了一些reads中不完全重复长度的SNVs/indels的不连续模式。
mt基因组重组模式表明,用于DNA损伤双链断裂(DSB)修复的dsDNA模板可以是等位基因的,也可以是非等位基因的,重组产物可以是交叉的,也可以是非交叉的(图4b)。
HiFi技术能够实现不包含任何重排但仍然在重复中显示变量的明确的reads mapping。研究了零重排reads中非等位基因SNVs/indel的交换,这些reads跨越了所有27个不完全重复的高活性和中等活性组的整个长度。观察到msh1突变体中大量的镶嵌重复序列明显是通过非等位基因SNVs/indels交换产生的,这在野生型中很少发生。这表明在没有MSH1的情况下,非等位基因的dsDNA模板被用于非交叉重组。在msh1突变体中,重复组A、D、G、H、I、M、MMJS、N、R、T和W表现出高频率的非等位SNVs/indels(图4d),交叉重组的频率较高,其余15个重复组的非等位SNVs/indels频率较低。
总之,这些序列水平的研究表明,MSH1除了可以抑制结构变异外,还可以抑制mt基因组内不完全重复序列之间的非等位SNVs/indels的交换。
图4 MSH1抑制了不完全重复之间SNVs/indel的交换
4、拟南芥中Mt基因组进化涉及可重复的重复序列
本研究使用已发表的PacBio CLR数据集,使用metaFlye重组了其他7个拟南芥材料的mt基因组。结果显示,所有的metaFlye组装图都(接近)完全组装,这表明在所有的材料中都具有较低的异质性。相比之下,msh1突变体的图要复杂得多,其中包含碎片化的contigs和许多未解决的重复序列,反映出其mt基因组的高度重排和异质性。
当与野生型Col-0 mt基因组的多个连接的伪主环进行比较时,发现了与特定的非串联重复序列、MMEJ/NHEJ和串联重复序列相关的结构重排,以及一些两侧有重复或微同源的大型内链。例如,An-1和Ler的mt基因组结构惊人地相似。Col-0和an -1的mt基因组有5个重排由重复组B、I、H-1/2、L和H-1/3介导,而Ler的mt基因组有一个额外的重排由重复组LL介导(图5a)。
不同msh1个体的整体HiFi reads覆盖与野生型相比没有太大的差异。总之,分析表明,在msh1突变体中观察到的相对随机的MMEJ/NHEJ都参与了mt基因组进化,导致重排、大缺失和产生新的重复序列,通过选择防止了必要功能基因的丢失。
图5 提出了新的mt基因组构型和大重复序列的生成模型
5、msh1突变体中pt基因组变异的不同积累模式
野生型和msh1突变体的pt基因组中的结构变异频率都很低,与mt基因组相比,拟南芥的pt基因组包含一对非常大的重复序列(IRa/b),但很少有中间重复序列。在一个单个样本中只检测到一个reads,它支持先前确定的由一对123-bp的不完全重复序列介导的重排。因此,该变异似乎对pt基因组不稳定性的贡献非常小。在msh1突变体中,pt基因组中MMEJ事件的比例增加。
另一个重要的特征是msh1突变体的pt基因组中某些变异的样本特异性积累。观察到一个pt NHEJ产物只出现在一个样本中,导致了petA基因65个bp的缺失(图6b)。总的来说,在一个或几个msh1突变体样本中鉴定出了17个富集到高频率的pt SNVs(图6c)。此外,研究发现,与野生型相比,msh1突变体的pt基因组中简单序列重复表现出更大比例的长度变异。例如,对于67164位的13 bp均聚物(其支持长度从- 6 bp到+18 bp),所有msh1个体中参考长度(13 bp)的比例都小于野生型(图6d)。
总之,本研究序列数据表明,MSH1参与了pt基因组变异的去除。msh1突变体的pt变异少于mt变异,异质分选可能导致个体间的变异。
图6 通过HiFi读取检测到的pt基因组中的突变和结构变异
四、结论
综上所述,该研究使用HiFi测序来研究拟南芥msh1突变体线粒体和叶绿体基因组变异的模式。结果表明,HiFi测序在解析不完全相似重复序列重组产物内部的SNVs/indels分布具有明显优势,能够同时检测到交换(crossover)和非交换(non-crossover)的异位重组。与基于短读长的研究相比,该研究分析发现MSH1能够抑制重复序列之间非交换的异位重组。此外,该研究推测MSH1表达量变化可能造成线粒体和叶绿体基因组结构和序列变异增加,而变异积累模式的差异可能是两套基因组进化轨迹差异的原因之一。该研究结果增进了研究人员对细胞器遗传变异模式的认识,为改造细胞器遗传物质,优化作物育种提供了理论支持。
HiFi reads读长可达10-25kb,准确度可达Q30(99.9%),因此被越来越多地运用于各种基因组研究,成为基因组、泛基因组、宏基因组研究不可或缺的一部分,也成为细胞器基因组的研究利器!利用PacBio HiFi测序可以跨越重复序列,表征线粒体基因组的重组动态,详细量化重组及变异的发生,促进对植物线粒体基因组的理解。
凌恩生物拥有丰富的细胞器基因组研究经验,自主研发的细胞器基因组富集提取技术,可高效实现高质量细胞器基因组富集,具有一对一的生物信息分析,人工基因注释矫正,满足NCBI数据库上传要求,高质量结果交付,助力高水平研究。同时,结合PacBio HiFi测序手段,可对复杂的植物线粒体、叶绿体基因组进行测序、组装得到完成图,目前,已完成叶绿体、线粒体基因组项目逾千例,98%以上样本实现完成图水平交付,是您细胞器基因组研究的不二之选!
参考文献:
Long-read sequencing characterizes mitochondrial and plastid genome variants in Arabidopsis msh1 mutants. The Plant Journal, 2022.