2021年11月29日,美国密歇根州立大学在《Nature Plants》期刊在线发表题为“Representation and participation across 20 years of plant genomesequencing”综述,系统阐述了在过去的20年间,对陆地植物基因组学组装质量、已测序物种的分类和地理分布的评估。
在过去的 20 年中,陆地植物(胚胎植物)基因组测序技术的提高,组装质量有了显著提高。自从拟南芥的基因组(陆地植物的第一个基因组)于2001年发表以来,数百个植物基因组已被测序、组装,并在GenBank和其他基因组数据存储库上公开发布。截至2021年1月,已有798种陆地植物物种基因组公开发布。
陆地植物基因组组装的数量和质量迅速增加,尤其是与三代长读长测序显著相关。总体而言,74%的陆地植物基因组组装是在过去3年中产生的(图1)。Contig N50近年来也显着增加,从2010年的99.5±48.1 kb增加到3,395.2±735.42 20kb。
图1 798已公开发布的陆生植物物种基因组装配。
点的颜色代表测序技术类型,大小为使用频次。随着长读长测序技术的出现,物种基因组连续性得到改善,每年产生的基因组组装数量显著增加。
在已有的137种陆生植物目中,超过一半(76)缺乏代表性的物种基因组。如下图2,没有代表性基因组的目以灰色显示。
图2 陆地植物目水平公开发布的基因组以及质量评估比较
为了量化相对于其他物种是否存在对经济上重要的植物进行测序的偏见,作者将物种分为六类:
(1)驯化物种(domesticated):经过广泛人工选择的植物;
(2)栽培种(cultivated):供人类使用但未经大量人工选择的植物;
(3)天然商品(naturalcommodity):少栽培收获的植物;
(4)野性种(feral):经济上不重要但仍受人类选择影响的植物;
(5)野生种(wild):发生在野外,未受人类直接影响的植物;
(6)野生近缘种(wild relatives):与驯化、栽培作物有近亲关系或祖先的野生植物。
基于这些分类,目前已有基因组包含135个驯化种、127个栽培种、120天然商品和12 野性种。剩余的404个基因组来自野生物种,其中77 种是农作物的野生近缘种(图3)。野生植物(~350,000)远多于驯化物种 (~1,200-2,000),这表明野生植物具有巨大潜力的未开发的基因组信息库。
图3 798个植物基因组组装提交机构的地理分布。
圆的大小代表每个国家地区产生的物种基因组数量,颜色代表已测序的驯化、栽培、野性、天然商品、野生和野生相关物种的相对比例。
陆地植物基因组测序主要由中国(235个)、美国(212个)和欧洲国家(168个)主导,约77%的基因组组装归因于这三个区域之一(图4)。
图4 物种起源和地理分布
驯化植物(n = 135)原产地与基因组组装地区
由于植物基因组庞大而复杂和不同程度的倍性,是植物基因组组装一直存在的历史难点。然而,测序技术的进步,例如三代的长读长测序,特别是HiFi测序,新的组装算法,以及大项目团队投入,是未来植物基因组测序迅速发展的依据。