大花蔷薇T2T基因组-60

Multi-omics analyzes of Rosa gigantea illuminate tea scent biosynthesis and release mechanisms

多组学分析揭示了大花蔷薇茶香合成及释放机制

摘要

玫瑰是一种全球广泛栽培的重要观赏作物，用于香水生产。然而，由于缺乏茶玫瑰的参考基因组，我们对其香气生成机制及香味分子育种的理解受到了限制。我们提供了首个完整的端粒到端粒（T2T）的高质量大花蔷薇基因组（QV > 60），其中详细描述了重复区域的结构特征。与苯丙烷类生物合成相关基因的扩展可能解释了其独特的茶香味。通过比较基因组学和时序基因共表达网络，我们揭示了芳香挥发性有机化合物的释放节律及其基因调控网络。对丁香酚同源基因的分析展示了植物如何通过在特定组织中使用特化的苯丙烷类化合物吸引传粉者。本研究通过多组学方法强调了保护和利用濒危野生物种的遗传多样性，为通过全新驯化提高玫瑰香味提供了科学基础。

引言

作为茶玫瑰的祖先，大花蔷薇（Rosa gigantea, RG）为现代玫瑰的茶香、黄色花色、大花朵以及旺盛生长做出了贡献。在17世纪之前，东西方都广泛栽培玫瑰【1,2】。随着海上航线的开通，西方植物学家发现了中国玫瑰，其独特的香味兼具淡淡的药香和清新柔和的甜香，被西方人形容为茶香，因为它让人联想到另一种中国的著名进口产品——绿茶【3】。野生茶玫瑰大花蔷薇具有典型的茶香和大而黄的花朵，形成了早期的茶玫瑰（补充图1）。19世纪初期，两种著名的中国园艺玫瑰——‘Humes Blush茶香中国玫瑰’和‘Parks黄茶香中国玫瑰’从中国传入英国，随后又传入法国【4】。与月季‘Old Blush’和月季变种semperflorens的基因交流，开始了欧洲玫瑰与这些品种的第一次育种革命【5】。1867年，以‘法国玫瑰’为代表的杂交茶玫瑰由于其大直径、中心高、单长茎和多样的颜色，成为最受欢迎的品种【6】。

人类干预创造了色彩极其丰富的玫瑰，涵盖除蓝色外的所有色调，但香味单一且有限。杂交茶玫瑰通过不断改良，培育出了丰富多彩的杂交玫瑰【7】。目前，大多数流行的切花玫瑰都源自杂交茶玫瑰【8】。在育种过程中，芳香特性被忽视，茶香也随之消失【6】。此外，为了确保质量稳定，经典香味的油用玫瑰通过严格的无性繁殖进行扩繁，导致了香味多样性的丧失。然而，消费者的态度正在发生变化，人们已不再满足于仅有色彩却无香味的玫瑰或单一香味的玫瑰精油产品，市场对祖传茶香的需求以及具有生物活性和多功能性的新型植物精油产品的开发需求日益增加。

多组学分析为保护遗传资源并恢复茶香提供了见解。尽管大花蔷薇在恢复茶香方面具有重要意义，但由于过度开发，其野生种群数量已急剧减少（补充图2）。因此，保护与遗传研究迫在眉睫。传统测序方法难以组装复杂区域，如端粒及其周围的长重复序列、核糖体DNA和串联重复序列。现有的三份玫瑰基因组【9,10,11】仍有缺口，无法作为茶香或黄色玫瑰的参考。结合纳米孔超长读段测序（跨越染色体臂和着丝粒周围区域的重叠簇）与PacBio HiFi测序（填补缺口），为克服这些复杂性提供了策略【12,13,14】。在本研究中，生成了首个茶玫瑰濒危祖先大花蔷薇的完整端粒到端粒（T2T）基因组。通过多组学技术揭示了与茶香相关的感官特性、释放模式及调控网络【15,16】。

结果

大花蔷薇的完整T2T参考基因组

生成了首个无缺口的完整大花蔷薇T2T基因组，包含7条染色体，总长度为549.76 Mb（图1a，b），与估算的基因组大小（530.96 Mb）相似。该结果与核型测试（补充图3）和k-mer分析（k=19）（补充图4）一致。此外，发现了159 bp的候选着丝粒重复序列，并将其命名为CEN159卫星，代表了大花蔷薇的着丝粒区域。该区域与月季‘Old Blush’（RC）中鉴定的着丝粒卫星OBC22617长度相同。使用CEN159单体作为探针的寡核苷酸荧光原位杂交（Oligo-FISH）在大花蔷薇的大多数着丝粒处显示出清晰且特异的信号（图1d，e）。

a) 基因特征的Circos图，以500-kb间隔展示7条染色体上的基因特征。TRF，串联重复发现器；SVs，结构变异。 b) RG组装的Hi-C染色质相互作用图。 c) 7条染色体上着丝粒和端粒的位置。 d) Circos图展示了RgCEN159（蓝色）、近着丝粒区域（红色）、Ty3/Gypsy（橙色）和Ty1/Copia重复元件（黄色）在七条染色体上的分布。 e) 在大花蔷薇染色体上使用RgCEN159寡核苷酸探针进行FISH实验。 f) 在大花蔷薇染色体上使用45S rDNA寡核苷酸探针进行FISH实验。（e和f）中的每个实验均独立重复至少三次，结果相似。源数据提供于Source Data文件中。

共鉴定出了13个端粒和一个45S rDNA末端。尽管在三次组装版本中均未在染色体3的末端发现端粒，但在该区域中特异性检测到1198个45S rDNA位点（图1c）。这一发现与阿拉伯芥【18】中发现的染色体2和4短臂末端的45S rDNA簇（而非端粒）以及在人类近端着丝粒染色体短臂上的rDNA重复序列【19,20】类似。为了验证测序结果，通过FISH可视化端粒和45S rDNA序列，显示染色体3的两条姐妹染色单体上存在45S rDNA位点（图1f）。除了对非编码区域中高拷贝重复序列的新见解（补充表1），我们还发现了一些功能重要的蛋白编码基因（补充表2）。在RG组装中填补了RC组装中的全部33个缺口。这些缺口分布在整个基因组中，预测在缺口区域内有六个基因，表明这些基因在使用RC作为参考基因组时无法识别。这些基因包括COX1（细胞色素c氧化酶亚基1），这是一个在被子植物中水平基因转移的典型线粒体基因【21】（补充图5）。

大花蔷薇的基因组组装比其他玫瑰基因组更完整且准确。首先，免缺口的组装在连续性上比之前发布的所有基因组组装有显著改进。RG的contig N50长度高于RC、R. wichuraiana（RW）、R. rugosa（RR）和R. persica（RP）（补充表3）。其次，RG基因组组装中约99.0%的核心保守植物基因（1597个BUSCO中的1614个）是完整的，表明基因组的高完整性（补充表4）。特别是，RG基因组中组装了7个着丝粒、13个端粒和一个45S rDNA位点（补充表5），而其他玫瑰基因组中未捕获任何端粒。最后，基因组（60.53）及每条染色体（57.30-62.49）的共识质量值（QV）表明了其高精度（补充表6）。

野生祖先物种的T2T基因组为玫瑰泛基因组贡献了遗传多样性

RG没有经历全基因组复制（WGD）事件【22】，这由RG和RC之间一对一的同源深度比率证明（补充图6）。这表明RG基因组仅经历了核心双子叶特有的γ全基因组三倍化。基于13个物种的271个单拷贝直系同源基因生成了具有分歧时间估计的系统发育树，其中包括5个玫瑰物种、6个蔷薇科的其他属物种、作为远亲的葡萄（Vitis vinifera）以及作为外群的深圳隔距兰（Apostasia shenzhenica）。在所有13个物种中，共鉴定出464,307个基因，并将其分为79,059个直系同源基因家族（补充表7）。在蔷薇科中，李属、苹果属和梨属早期从悬钩子属、玫瑰属和草莓属中分化出来。在玫瑰属中，物种出现的顺序为RP、RR、RG、RC和RW（图2a）。

a) 显示蔷薇科物种分歧时间和基因组复制的时间树图。 b) 已发布基因组的五种玫瑰的表型。 c) 已发布基因组的五种玫瑰中的结构变异特征。源数据文件提供了相关的源数据。

在蔷薇属中，不同物种在形态特征上表现出多样性，如植株类型、花序、颜色和香气（补充表8，图2b）。对大花蔷薇基因组与其他四种玫瑰基因组的比较发现116-365 Mb的同源区域（补充表9）。全基因组比对可以作为预测进化约束水平的可靠数据集【23】。无缺口基因组提供了表征可能因组装技术限制而遗漏的结构变异（SVs）的机会【24】。因此，鉴定出大花蔷薇组装与波斯玫瑰、玫瑰、月季‘Old Blush’以及R. wichuraiana基因组之间的4165–44,181个结构变异（补充图7），包括622,584个存在/缺失变异，90–249个倒位，2526–16,939个易位和1540–29504个复制。此外，还发现了1,669,504–3,638,390个SNP，110,442–271,481个插入，91,077–233,107个缺失，172–26,767个高度分化的区域，以及6227–58,596个未对齐区域。SVs在染色体上的分布不均匀。这些区域的长度列于补充表10中，显示出蔷薇属内的显著分化（图2c）。因此，月季‘Old Blush’参考基因组不适用于大花蔷薇的分析，如启动子预测或特征提取。此外，共线性分析显示，最新获得的T2T基因组具有最完整的组装，为构建高质量的蔷薇泛基因组提供了最佳框架，结合了已发布的玫瑰基因组。此外，还鉴定了位于染色体2臂上的15 Mb特定倒位，包括1416个基因，这一倒位未在其他四种玫瑰中检测到。大花蔷薇还在染色体4上有一个22 Mb的倒位，与玫瑰有所区别，包括2000个基因。

基于相同的蛋白编码基因集【25】，通过鉴定蔷薇属物种中共享的同源基因，表征了进化上保守的基因组区域。在33042个泛基因家族中，五个物种包含22713-27229个基因家族。共有15703个（57.67%-69.14%）基因家族在所有物种中共享，可能代表蔷薇属复合体的核心基因集（补充图8）。此外，还发现了13981个可有可无的基因家族和3358个物种特有的基因家族。值得注意的是，大花蔷薇拥有1646个物种特有的基因家族，显著多于其他四种蔷薇物种的估计值。这表明大花蔷薇的基因组可为蔷薇属泛基因组贡献额外的序列多样性。越来越多的证据表明，野生物种中的等位基因在作物适应性状的调控中可能发挥关键作用【26】。例如，在苹果的引种育种中，果实种质中的等位基因多样性为引入新的外来基因提供了有用的资源，以应对消费者偏好和环境挑战【27】。然而，由于驯化过程中的遗传瓶颈，栽培品种中失去了野生物种的等位基因。类似情况可能解释了玫瑰香气的进化，进一步强调了研究野生玫瑰基因组对于泛基因组构建和香气改良的重要性。

参与苯丙烷类生物合成的基因扩展推动了茶香的进化

鉴定并表征了大花蔷薇苯丙烷类/苯甲酸类、萜类和脂肪酸衍生物合成途径中的香气相关基因（补充数据1，补充图9）。尽管只有少数脂肪酸衍生物对玫瑰花香有贡献，但尚未从玫瑰中分离或表征出相关的酶。与萜类生物合成途径相比，苯丙烷类/苯甲酸类代谢途径中更多的酶基因来自串联或邻近复制【28】。对13个蔷薇物种的系统发育分析显示，三条与气味相关的途径，包括苯丙烷类生物合成、萜类骨架生物合成以及倍半萜和三萜生物合成途径，在大花蔷薇中854个基因家族扩展中显著富集（补充图10），这可能解释了独特的茶香。因此，重建了主要挥发性有机化合物（VOC）代谢途径，包括苯丙烷类/苯甲酸类（补充图11）和萜类（补充图12）生物合成。根据与茶香相关的主要香气成分，涉及玫瑰苯甲酸类合成的两条分支途径可能与大花蔷薇的花香形成有关。

鉴定出多个参与TMB和DMT生成的O-甲基转移酶（OMTs）（补充图13）。在月季中，邻苯三酚O-甲基转移酶（POMT）催化邻苯三酚（PLG）到3,5-二羟基苯甲醚（DHA）的首次甲基化步骤。发现一个候选POMT在月季中的表达水平比在大花蔷薇中高出30倍，这可能与月季中高TMB合成和大花蔷薇中低TMB含量有关。在月季中，DHA通过两个木脂素O-甲基转移酶转化为TMB。尽管在氨基酸水平上两者有96.5%的相似性，RcOOMT1和RcOOMT2在苯甲基醚生物合成中的底物特异性不同。RcOOMT1可能从类似OOMT2的基因进化而来，其出现是中国玫瑰香气进化中的关键步骤。RcOOMT1和RcOOMT2都能有效地将木脂素甲基化为DMT，有助于大花蔷薇的特有花香。在月季‘Old Blush’中鉴定出四个OOMT旁系同源基因；然而，只有两个（RchiOBHm_Chr2g0119291和RchiOBHm_Chr2g0128091）高表达（比其他旁系同源基因高约1000倍），表明它们分别对应RcOOMT1和RcOOMT2并有助于TMB的合成。在大花蔷薇中鉴定出五个OOMT旁系同源基因，其中三个表现出特异性高表达（图3a–c）。功能上不同的OMTs被认为通过基因复制和突变从一个共同祖先基因进化而来。RgOOMT1（RgigChr2G00139230）和RgOOMT2（RgigChr2G00139280）来源于另一个OOMT旁系同源基因（RgigChr2G00139210）的邻近复制，这一过程源于全基因组复制（WGD）。RgOOMT3（RgigChr2G00153620）通过RgigChr2G00139210的易位复制与RgigChr2G00153520形成了另一个OOMT簇。在RP、RR和RW中只有一个或两个OOMT旁系同源基因。RgigChr2G00139210和RgigChr5G00009200是由蔷薇属中的WGD事件产生的旁系同源基因，而RgigChr2G00139210在大花蔷薇中的邻近和易位复制导致了特异性DMT的高产量。由于RgOOMT1的表达与DMT的生成高度吻合，它是大花蔷薇中参与DMT合成的主要基因。

a) 基于POMT和OOMT同源基因的最大似然树，比例尺代表每个位点0.3个替代； b) 五种玫瑰基因组中OOMT的定位和表达； c) 五种玫瑰基因组中POMT的定位和表达； d) 基于EGS和IGS同源基因的最大似然树，比例尺代表每个位点0.6个替代； e) 五种玫瑰基因组中IGS的定位和表达； f) 五种玫瑰基因组中EGS的定位和表达。RG，大花蔷薇；RC，月季‘Old Blush’；RW，R. wichuraiana；RR，玫瑰；RP，波斯玫瑰。比例尺代表每个位点0.6个替代。源数据文件提供了相关源数据。

在所有五种玫瑰中鉴定出五个丁香醇合成酶（EGS）。EGS1与包含EGS2–EGS5的簇分离（图3d–f），表明第一个祖先直系同源EGS1的复制发生在物种分化之前。根据大花蔷薇高丁香醇释放量和月季‘Old Blush’低丁香醇释放量的比较，丁香醇的积累与EGS基因的数量无关（补充图14）。所有EGS基因定位于染色体6上，形成两个EGS基因簇。第一个簇由RgEGS1的邻近重复和RgEGS2与RgEGS3的串联重复形成。RgEGS1（RgigChr6G00350620）将松柏酯还原为丁香醇，其表达趋势与其他同源基因相似。RgEGS3（Chr6G00350680）的表达水平远高于其他同源基因，表明其在丁香醇生产中起重要作用。RgEGS2（RgigChr6G00350670）特异性高表达于雌蕊中，为甲基丁香醇的生产提供了底物基础。另一个基因簇包含RgEGS4和RgEGS5，这些基因的表达水平与丁香醇含量无关（补充图14–15）。在三种玫瑰的染色体5上发现了一个异丁香醇合成酶（IGS）基因簇，而在另外两种玫瑰中只有一个单基因，表明IGS的复制发生在玫瑰和大花蔷薇的分支之间【30】。RgIGS2（RgigChr5G0056550）在异丁香醇生产中起主要作用，其表达水平比RgIGS1（RgigChr5G0056530）高十倍。该基因是大花蔷薇特有的。

大花蔷薇茶香的组织特异性释放规则和调控网络

被子植物的花具有复杂的特性，以吸引传粉者并提高觅食效率【31,32,33,34】。根据挥发物的种类或比例，在矮牵牛【35,36,37】和白花石竹【38】的花朵中已鉴定出组织特异性和空间释放模式。蜜蜂通过气味释放梯度将其识别为指引路径。因此，气味介导的植物与传粉者互惠关系可能显著影响作物产量【39】。对于大花蔷薇，感官评估显示花瓣、雄蕊和雌蕊在五种花组织类型中表现出最高的香气强度（补充图16）。这些花部位还表现出明显的中性红色，特别是在表皮上观察到向生殖器官方向的释放梯度（图4a, b），最接近生殖器官的区域释放出最浓的香气，并呈现最深的红色，表明香气最强。这类似于晚香玉和毛茛中发现的空间模式【40,41】。中心导向的模式吸引相应的传粉者到生殖器官。生殖器官附近的花瓣基部释放的挥发性化合物显著高于远离基部的花瓣缘，因为挥发性化合物的含量与细胞密度有关。在大花蔷薇中，基部附近的细胞数量比花瓣边缘或中部多（图4c）。类似的梯度也已在矮牵牛【42】和玫瑰杂交种【43】中报道，其中花瓣上部的细胞比基部的细胞更宽【44】。

a) 花的五个组织。 b) 中性红溶液染色。 c) 通过扫描电子显微镜（SEM）观察表皮细胞的形态。 d) 参与组织特异性丁香酚合成的潜在调控网络。百分比表示每个组织对单朵花香气的贡献。源数据文件提供了相关的源数据。

花瓣中挥发性有机化合物（VOCs）的主要产生部位是表皮，通常以独特的锥形细胞为特征【43,45,46,47,48,49】。除了花瓣上芳香化合物的水平分布外，还存在纵向差异。例如，在晚香玉中，花瓣近轴侧的挥发性物质释放量是远轴侧的约20倍。在石竹和木茼蒿中也观察到类似的释放模式【42】。对于大花蔷薇，花瓣近轴侧表皮细胞具有典型的锥形乳突状形态，而远轴侧表皮细胞是平坦的，这表明表皮上的释放环境有所不同（图4c）。然而，两层表皮都能够产生和释放芳香挥发物【43】。细胞学研究还表明，香玫瑰和无香玫瑰的花瓣解剖结构没有明显差异。

共筛选出48种芳香VOCs（补充表11，补充数据2）。在组织间的比较中，β-榄香烯是叶片特有的挥发物。此外，4-甲基己醇、乙酸苄酯、(E)-异丁香酚和γ-芒烯在雄蕊中未检测到。甲基辛酸酯和癸醇特异性地在无味的绿色组织如萼片、花托和叶片中检测到。VOCs的含量具有显著的组织特异性（补充图17）。DMT、冰片、石竹烯、(E)-β-紫罗酮和释放的香气在花瓣中的含量较高。雄蕊特有的VOCs包括(E)-茴香醚和十四醛。绿色叶片挥发物作为一种欺骗信号，吸引捕食性黄蜂传粉者【50】，萼片中释放了大量的脂肪酸衍生物。

丁香酚同源物是大花蔷薇中的主要香气成分（补充图18），已知它们吸引兰花的蛾类、蜜蜂和果蝇传粉者。有趣的是，在大花蔷薇中，这些同源物不仅被检测到，而且在不同组织中分布并发挥不同功能。雄蕊中的丁香酚积累量比其他组织高出20到100倍。异丁香酚和甲基丁香酚分别在花瓣和雌蕊中高度释放，而在雄蕊中未检测到。这些结果为植物如何通过高度特化的C6-C3苯丙烷类化合物吸引传粉者提供了新见解。根据与丁香酚表达模式相似的表达模式，确定了两个共表达模块（补充图19）。在雄蕊特异性模块中，RgEGS1通过13个转录因子（TFs）在丁香酚积累中起关键作用，基于转录因子结合位点（TFBS）的分析表明这些转录因子可能与基因启动子结合。在雌蕊特异性模块中，RgEGS2被鉴定为中心基因，与C4H基因和12个转录因子相互作用，形成参与雌蕊中甲基丁香酚生成的调控网络（图4d）。

大花蔷薇茶香的时序释放节律和调控网络

为了确定茶香释放的昼夜节律，在一天中的六个时间点对从花蕾（0:00）到开花（20:00）的情况进行了观察（图5a）。在各个时间点，46种芳香VOCs之间没有显著差异。癸醇和对羟基苯乙酮在00:00–08:00未检测到，但在12:00–20:00挥发出来。其余44种VOCs在所有时间点均被检测到，但水平有所变化（图5b）。在0:00和8:00之间差异表达基因（DEGs）很少，但8:00至12:00之间出现了大量下调基因，这与VOCs含量和传粉者数量的变化一致。对于植物，VOCs吸引传粉者和防御者以确保繁殖成功【51】。在本研究中，蜜蜂数量在8:00和12:00时显著高于其他时间点（图5a）。基因表达的主成分分析（PCA）结果与VOCs的变化趋势一致。PC2将花朵气味较浓的两个时间点（08:00和12:00）与其他四个无气味的时间点区分开来。花朵在00:00–08:00和12:00–20:00的表现按时间顺序沿PC1从右到左清晰分离。结果与大花蔷薇从8:00到12:00开花、释放花香成分并吸引传粉者相一致，这涉及各种基因的下调。

a) 大花蔷薇（Rosa gigantea，RG）的六个花采样时间点（T00-T20）及传粉者记录。 b) 从T00到T20大花蔷薇主要挥发性有机化合物（VOCs）变化的模式。 c) 预测的基因共表达网络以及在苯丙烷类/苯甲酸类（黄色节点）、萜类（粉色节点）和脂肪酸衍生物（紫色节点）生物合成途径中，VOCs（菱形）、酶基因（六边形）和转录因子（圆形）之间的连接。每个采样点上TO-GCN（时间序列基因共表达网络）每一水平的平均TPM（z值标准化）热图。花香的三个阶段被识别出来：初期（T00-T08）、过渡期（T12）和末期（T16-T20）。L1到L9表示TO-GCN中识别的各水平。酶基因之间的边缘未显示。 d) TO-GCN中异丁香酚合成的子网络。较大的节点表示基于TFBS分析预测支持较大的点。 e) RgIGS和大花蔷薇中的潜在调节基因在2 kb上游序列中的基因表达水平（TPM）和转录因子结合位点（TFBS）。源数据文件提供了相关源数据。

在分析中考虑了转录因子（TFs）、酶基因和VOCs之间的时间滞后。使用时间序列基因共表达网络（TO-GCN）分析了芳香化合物的调控。主要的GCN由九个时间序列水平组成（图5c中的L1至L9），匹配了TF基因在六个时间点的表达顺序，热图中沿对角线的黄色方块显示了高表达水平的TPM和VOCs（z值）。在香气释放过程中，明确的发育转换分为三个阶段：初期（对应T00-T08和L1-4）、过渡期（对应T12和L5-6）和末期（对应T16-T20和L7-9）。在TO-GCN中，苯丙烷类/苯甲酸类和萜类途径中超过80%的VOCs在初期释放，而脂肪酸衍生物途径的VOCs贯穿整个过程。TO-GCN展示了大花蔷薇开花过程中挥发物与基因之间的调控关系，揭示了调控主要挥发物的关键基因和TFs（图5c）。RgIGS2与L2中的异丁香酚相关，在异丁香酚合成中起重要作用；然而，其上游调节因子尚不清楚。因此，我们选择RgIGS2来识别其上游调节因子。使用TO-GCN预测了RgIGS2的候选直接调节因子，应该在与RgIGS2相同或之前的时间段中共表达。基于最终的分层网络，bZIP和C2H2是直接调节因子，29个TF基因（包括MYB52、NAC、WRYK和bHLH）是RgIGS2的中间次级调节因子（图5d,e）。

大花蔷薇中特有的VOCs和茶香的调控网络

为了确认香气的差异，比较了RG（图6a）和RC（图6i）与七个玫瑰香气标准（补充图20）。RG表现出比无味的RC更强的茶香气和更高的VOCs积累。香气和VOCs均从花蕾到初开花时上调，并从半开到全开花时下降（图6c，g）。RG的主要芳香VOCs包括丁香酚、DMT、甲基丁香酚、(E)-异丁香酚、2-苯乙醇、沉香醇和(E)-β-紫罗酮（图6b）。相比之下，RC的主要成分是TMB、2-甲基丁醇、β-榄香烯、α-卡地醇、香柠檬烯、γ-卡地烯和1S-β-蒎烯（图6h）。茶香的特征由苯甲酸类/苯丙烷类途径的VOCs决定，这在RG中得到了特异性上调，包括DMT、丁香酚、甲基丁香酚和(E)-异丁香酚，与RG中特有的基因家族扩展一致。

a) 大花蔷薇（RG）的五个花发育时间点（S1-S5）。 b) 大花蔷薇从S1到S5的主要挥发性有机化合物（VOCs）变化。 c) 大花蔷薇（RG）开花过程中香气强度的变化，颜色越深表示强度越大。 d) 大花蔷薇每个开花时间点上TO-GCN（时间序列基因共表达网络）每一水平的平均TPM（z值标准化）热图。根据表达谱识别出与花香相关的三个阶段：初期（S1），过渡期（S2-S3）和末期（S4-S5）。 e) 预测的基因共表达网络以及在苯丙烷类/苯甲酸类（黄色节点）、萜类（粉色节点）和脂肪酸衍生物（紫色节点）生物合成途径中，VOCs（菱形）、酶基因（六边形）和转录因子（圆形）之间的连接。L1至L7表示在三种时间序列基因共表达网络（RG特异性、RC特异性和共识TO-GCN）中识别的各水平。酶基因之间的连接未显示。 f) 月季‘Old Blush’（RC）开花过程中香气强度的变化。 g) RC每个开花时间点上TO-GCN（z值标准化）热图。根据表达谱识别出三个花色阶段：初期（S1），过渡期（S2-S3）和末期（S4-S5）。 h) RC从S1到S5的主要VOCs变化。 i) RC的五个花发育时间点（S1-S5）。源数据文件提供了相关源数据。

分别为RG和RC构建了TO-GCN，以研究与香气差异相关的调控基因【53】。获得了两个物种特异性TO-GCN（RG特异性和RC特异性）以及一个共识TO-GCN（图6e，补充图21）。根据与花香相关的表达模式，时间序列子网络可以分为三个主要过程：初期（S1，对应于RG-GCN的L1-L3和RC-GCN的L1-L2，花瓣未开放，香气较弱），过渡期（S2-S3；对应于RG-GCN的L4-L5和RC-GCN的L3-L5，香气增强），和末期（S4-S5；对应于L6-L7，香气减弱）（图6d，f）。RC的双瓣花比RG的单瓣花释放时间更晚。在初期检测到的VOCs较少，但基因数量较多，表明VOCs释放和基因表达之间存在时间滞后。在初期阶段，许多基因在两种玫瑰中表现出保守的共表达（图7a）。在苯丙烷类/苯甲酸类特异性子网络中，RG特异性GCN中鉴定出18个酶基因，RC特异性GCN中鉴定出21个酶基因，而共识GCN中鉴定出11个酶基因（图7b）。在其他两个阶段，RG和RC之间TO-GCN的相似性有限，有助于识别物种特异性的香气调控机制。在过渡期，RG特异性GCN中的苯丙烷类/苯甲酸类途径中有26个酶基因，远多于RC中的数量。RG中的主要转录因子家族是MYB、bZIP、ERF、bHLH和NAC，而在RC特异性GCN中主要是WRKY、NAC、bHLH和GeBP。

a) 在初期、过渡期和末期，三种时间序列基因共表达网络（TO-GCNs）（RG特异性、RC特异性和共识TO-GCNs）中参与苯丙烷类/苯甲酸类、萜类和脂肪酸衍生物生物合成途径的转录因子（TFs）、挥发性有机化合物（VOCs）和酶基因的数量。 b) TO-GCN中苯丙烷类/苯甲酸类生物合成的子网络。 c) RG特异性TO-GCN中3,5-二甲氧基甲苯（DMT）生物合成的子网络。酶基因之间的连接未显示。源数据文件提供了相关源数据。

通过研究物种特异性网络，全面预测了关键的调控基因和酶基因及其层级调控。酶基因和TFs的差异解释了RG中DMT的高释放量与RC中TMB的特异性高释放。位于RG特异性GCN中的RgOOMT3和RgOOMT1在DMT的生成中发挥了重要作用。通过研究预测网络，RgOOMT3和RgOOMT1展示了层级调控，涉及三个第三层调控TFs（MYB、NAC和B3），四个中间第二层调控TF基因（WRKY、Nin-like、NAC和GeBP），以及两个直接调控TFs（C2H2和MYB）（图7c）。此外，还鉴定了其他潜在的TF家族，包括与MYB相关的三个转录因子、bHLH（碱性螺旋环螺旋）、bZIP等。这些转录因子可能还调控途径中的其他酶基因，如RgEOMT、RgC4H和RgCAD。为了验证网络，研究了结构基因RgOOMT3和RgOOMT1以及参与该网络的四个MYB转录因子。通过qRT-PCR确定的这些基因的表达水平与转录组分析结果一致（补充图22）。RgPOMT和RgOOMT的序列经过检查，显示与基因组序列高度一致，对应于RhOOMT4（补充图23），具有AdoMet_MTases超家族和二聚化域。RgEOBII-like与PhEOBII【54】聚类，后者正向调控ODO1，从而通过调节芒果酸和苯丙氨酸途径的上游前体，影响苯环和苯丙烷挥发物的形成。RgPH4-like与PhPH4【55】聚类，后者在花色和香气中也发挥了重要作用（补充图24）。此外，RgMYB091-like1调控RgOOMT1启动子（补充图25），通过原生质体双荧光素酶试验进一步验证了这一点。总体而言，这些调控网络为进一步研究玫瑰茶香的分子机制提供了参考。

讨论

现代玫瑰是通过中国玫瑰和欧洲玫瑰的结合产生的。在18世纪全球物种交换的高峰期，中国园艺玫瑰改变了全球玫瑰育种的结构【56】。它们不仅表现出明亮的颜色和长时间的开花期，还继承了大花蔷薇的独特茶香和强健的生命力，形成了现代玫瑰的遗传基础【57】。这是否是玫瑰进化的终点？当然不是。先前的研究揭示了如何在过去3000年里从野生玫瑰培育出古代玫瑰，再进化为多样的现代玫瑰。突变和重组的历史创造了花朵更大、繁殖更容易、维护更方便、观赏期更长的谱系。然而，在培育新品种的过程中，许多有益基因仍未得到充分利用【58】。例如，在育种过程中，大花蔷薇的茶香特性被丢失，导致大多数现代玫瑰缺乏显著的香气（图8）。技术进步使得从野生资源进行全新驯化成为可能，为精确作物改良提供了基础【59】。将基因组编辑与选择性育种相结合比单独使用任何一种技术都更快、更高效【60】。成功组装的大花蔷薇T2T无缺口基因组，其连续性、完整性、一致性和准确性在目前的玫瑰基因组中最高，代表了解码所有DNA序列、结构、表观遗传标志和基因功能的重要里程碑【61】。祖先大花蔷薇将作为古代玫瑰与现代玫瑰之间基因交换的桥梁【62】，提供有利基因以改变现代玫瑰的香气，激发玫瑰育种的第二次革命【23】。

左侧的欧洲玫瑰图片参考了皮埃尔-约瑟夫·雷杜特的《玫瑰圣经》。

单一的参考基因组无法充分代表一个物种内的巨大基因组多样性【26】。例如，最近发布的玉米超级泛基因组（约6.71 Gb）中有约4.57 Gb的序列在B73参考基因组中不存在。自2017年首次发布多花蔷薇的基因组草图以来【63】，月季‘Old Blush’【11】、玫瑰【9】和R. wichuraiana ‘Basye’s Thornless’【10】等基因组相继被报道，为分析性状和基因功能奠定了基础。然而，蔷薇属拥有超过200个物种和35000个品种，展示了多样的植株形态、花色和香气类型，单一的参考基因组不足以支持研究【26】。我们对包括新测序的大花蔷薇基因组在内的五个玫瑰基因组的分析显示了大量物种特异性基因家族和结构变异（SVs）。因此，迫切需要构建一个更加全面和复杂的泛基因组数据库，以涵盖多样的性状基因资源。大花蔷薇的T2T无缺口基因组为具有茶香或黄色的玫瑰提供了一个高质量的参考基因组，有助于构建泛基因组【58】。端粒和rDNA在基因组稳定性中发挥着关键作用，作为染色体断裂和大规模染色体重排的热点【63,64,65,66,67】。除了大花蔷薇，一些野生蔷薇物种是二倍体，拥有两个45S rDNA位点【68,69】。还需要进一步研究端粒在近端着丝粒染色体上的进化过程和消失【70】。

遗传资源的保护至关重要，因为许多地区的物种面临灭绝的风险。因此，包含不同器官、时间点、花部组织和开花阶段数据的多维大花蔷薇基因数据库，为保存濒危物种的珍贵信息奠定了基础【71】。此外，通过感官评估和挥发性有机化合物（VOCs）表征的香气映射揭示了关键的芳香化合物、释放节律、最佳收获和传粉时间，促进了新植物精油资源的开发，同时推动了野生种质的应用。

每个组织特有的VOCs反映了植物组织中挥发物多样化的策略。等位基因的自然变异也凸显了花卉产品的多样性【72】。高通量测序技术有助于深入研究生物活性化合物转录调控的分子机制【73】，从而提高玫瑰香气定向改良的效率。茶香的主要成分——丁香酚类同源物的特定分布和调控网络在不同的花部组织中得到了揭示。进一步的研究需要了解植物如何通过高度特化的C6-C3苯丙烷类化合物吸引传粉者【73,74】。此外，DMT是中国玫瑰独特的“茶元素”，在大花蔷薇中含量丰富，而RC中富含结构类似的TMB。嗅觉阈值测试表明，DMT和TMB都是无味的，暗示它们通过促进芳香成分的稳定长效挥发，起到了固香剂的作用，并具有镇静和放松的效果。比较基因组学显示了两种中国玫瑰中OOMT基因数量的差异。因此，在月季‘Old Blush’中发现的如NUDIX这样的新香气合成途径并非在所有玫瑰中都存在。先前研究中报道的RcOOMT1和RcOOMT2并不适用于所有茶香玫瑰。我们发现了新的OOMT基因和用于DMT的调控网络，需进一步进行功能验证。

方法

植物材料

为了进行全基因组组装，选择了一株15年生的大花蔷薇个体（2022年采样，补充图2）。对幼叶进行了染色体分析和基因组测序。为了辅助组装、检查和修正剪接后的基因组，采集了五种器官（根、茎、花、果实和叶）的样本用于Iso-seq分析。为了识别转录组和化学变化，采集了五个花开花阶段（幼芽期（S1）、花蕾期（S2）、初开期（S3）、半开期（S4）和全开期（S5））、一天中的六个时间点（00:00（T00）、04:00（T04）、08:00（T08）、12:00（T12）、16:00（T16）和20:00（T20）），以及六种组织类型（叶、花瓣、雄蕊、雌蕊、花托和萼片）的样本，用于SPME-GC-MS和RNA测序（RNA-seq）。此外，还采集了月季‘Old Blush’的五个开花阶段的样本，作为对照品种用于比较花的性状。除不同时间点的分析外，所有样本均在2021年早上10:00至11:00之间采集，并立即冷冻在液氮中。用于感官测试的新鲜花朵样本从7个玫瑰品种（补充表12）中采集，带有花梗。所有材料均种植在中国云南昆明南热带园（24.86°N, 102.98°E）。

感官测试

为了避免任何自然气味干扰，按照国际标准ISO 11136-2014（2014）的要求，精心准备了一个干净、无气味、无噪音的感官评估室。花朵连同约6厘米长的茎在早上7:30至8:00之间采集，称重至5克，放入装有水的玻璃容器中进行1.5小时的空气循环。室温保持在20°C，相对湿度控制在40%至55%之间。上午9:30，将样本放入丙烯酸盒中收集香气30分钟。基于对香气的观察和测量，香气强度在中午12点前最强。因此，测试安排在上午10:00至12:00之间。测试步骤如下：嗅觉测试、香气比较、感官评分和描述。有关感官调查的更多详细信息，请参见补充说明1。

基因组评估、生成、评估和注释

通过核型分析（补充说明2）和K-mer频率分析（补充说明3）进行了基因组评估。通过不同的平台生成了全基因组序列：Illumina HiSeq X Ten（HiFi）、Oxford Nanopore Technologies（ONT）和HiC测序。有关基因组组装的更多详细信息见补充说明4和补充说明5。通过序列搜索（补充说明6）确定了端粒和着丝粒，并通过荧光原位杂交（补充说明7）进行了验证。质量评估分别考虑了连续性、准确性和完整性，详细信息见补充说明8。基因组注释包括重复序列注释（补充说明9）、蛋白质编码基因结构注释（补充说明10）和非编码RNA预测（补充说明11）。

比较基因组分析

在13个物种的基因组中进行了进化分析，包括被子植物外类群的Apostasia shenzhenica、作为蔷薇目代表物种的葡萄（Vitis vinifera）、6个蔷薇科代表物种（如草莓、苹果、梅子、桃、梨和黑莓）以及5个蔷薇代表物种（如沙漠玫瑰、月季、大花蔷薇、玫瑰和蔷薇）。软件和参数详细信息见补充说明12。还在5种玫瑰中进行了共线性和结构变异分析，包括沙漠玫瑰、玫瑰、大花蔷薇、月季和蔷薇。软件和参数详细信息见补充说明13。