Structural insights into the catalytic selectivity of glycosyltransferase SgUGT94-289-3 towards mogrosides
关于糖基转移酶 SgUGT94-289-3 对罗汉果苷催化选择性的结构洞察
摘要
罗汉果苷是一系列从罗汉果 (Siraitia grosvenorii) 中提取的天然甜味剂。这些罗汉果苷具有不同程度的葡萄糖基化,其中罗汉果苷 V (M5) 和暹罗苷 I (SIA) 是甜度较高的两种罗汉果苷。SgUGT94-289-3 是一种依赖尿苷二磷酸 (UDP) 的糖基转移酶 (UGT),负责通过持续催化罗汉果苷 IIe (M2E) 和随后的中间罗汉果苷产物的葡萄糖基化来合成 M5 和 SIA。然而,其多种底物识别能力和多重催化模式的机制仍不清楚。在此,我们报道了糖基转移酶 SgUGT94-289-3 的多种复合结构及其酶学特征。研究表明,SgUGT94-289-3 在其活性位点采用了双口袋结构,这使得罗汉果苷的两个结构上不同的反应端可以从不同的口袋呈递到活性位点进行葡萄糖基化反应,从而实现底物的多样性和催化区域选择性。我们还确定了一个对催化活性和区域选择性至关重要的结构基序,并通过体外一锅法实验生成了具有显著提高的从 M2E 生产 M5/SIA 的 SgUGT94-289-3 突变体。
引言
罗汉果苷是一类次生代谢产物,主要存在于罗汉果(Siraitia grosvenorii,中文名为罗汉果)的果实提取物中,以其高甜度和低热量而著称。美国食品药品监督管理局(FDA)已批准将罗汉果提取物作为食品的糖替代品,其中罗汉果苷 V (M5) 是主要的甜味成分。罗汉果苷属于三萜皂苷家族,由连接在罗汉果醇苷元上的多个葡萄糖基组成。这些葡萄糖基连接在罗汉果醇苷元的 C24 和 C3 位点的羟基上(分别称为 R1 和 R2 端),形成具有线性和分支糖链的一系列罗汉果苷(图1a 和补充表1)。不同罗汉果苷的甜度强度各异,其甜度不仅取决于葡萄糖基的数量,更取决于其连接方式。M5 含有五个葡萄糖基,其相对甜度强度约为相同浓度蔗糖的 400 倍。另一个含有四个葡萄糖基的罗汉果苷异构体,暹罗苷 I (SIA),则表现出最高的甜度强度,超过蔗糖的 500 倍。
a 各种罗汉果苷的化学结构。葡萄糖基团以不同颜色表示:R1-G1 和 R2-G1 为蓝色,R1-G2(1-6) 为红色,R2-G2(1-6) 为绿色,R1-G3(1-2) 为黄色。这些葡萄糖基团的 O1、O2 和 O6 原子分别标记为 1、2 和 6。 b M5 的生物合成途径。葡萄糖基团以球体形式显示,并使用与 (a) 中相同的颜色表示。SgUGT94-289-3 催化的反应在框内突出显示。分别用红色、绿色和黄色箭头表示 R1 端、R2 端的 β (1–6) 葡萄糖基化反应和 R1 端的 β (1–2) 葡萄糖基化反应。从 M3E 到 SIA 的途径是一个效率较低的次要途径,因此箭头以 50% 透明度显示。负责将 M2E 转化为 M3E 的 UGT 未被鉴定出,因此该过程用虚线箭头表示。
M5 和 SIA 的生产需要通过一系列糖基化反应对罗汉果醇进行修饰,这些反应由一组依赖尿苷二磷酸 (UDP) 的糖基转移酶 (UGTs) 催化。最近,罗汉果苷生物合成的精确步骤被鉴定出来(图 1b)。该途径的前两步由 SgUGT720-269-1 催化,在苷元的 R1 和 R2 端各添加一个葡萄糖分子,生成苦味中间体 M2E。我们将这两个葡萄糖命名为 R1-G1 和 R2-G1。SgUGT94-289-3 负责通过催化后续步骤的糖基化,将葡萄糖基从 UDP-葡萄糖 (UPG) 转移到各种罗汉果苷的 R1-G1 和 R2-G1 上,从而生成 M5 和几个中间产物。先前的研究表明,SgUGT94-289-3 至少以三种不同的模式催化 UPG 末端葡萄糖基 (UPG-Glc) 转移到罗汉果苷上。首先,SgUGT94-289-3 催化 M2E 向 M3 和 M3E 向 SIA 的转化,通过 β (1-6) 糖基化在 R1-G1 的 6-OH 上添加 UPG-Glc。新添加的葡萄糖在此称为 R1-G2(1-6)。SgUGT94-289-3 催化的第二种模式涉及 M3 向 M4A 和 SIA 向 M5 的转化,通过 β (1-6) 连接将 UPG-Glc 安装到 R2-G1 上(新添加的葡萄糖称为 R2-G2(1-6))。此外,当 R1-G1 的 6-OH 已经被占据时,SgUGT94-289-3 还催化 M3 向 SIA 和 M4A 向 M5 的转化,通过 β (1-2) 连接将 UPG-Glc 连接到 R1-G1 上(新添加的葡萄糖称为 R1-G3(1-2))。
SgUGT94-289-3 识别至少五种不同的糖受体底物,并采用不同的催化模式,因此表现出强大的底物多样性。植物 UGTs 中普遍存在底物多样性。最近,报告了能够在其糖受体(甜菊苷)两个反应端上添加葡萄糖的两种植物 UGTs,甜菊 (Stevia rebaudiana) 的 UGT76G1 (SrUGT76G1) 和水稻 (Oryza sativa) 的 UGT91C1 (OsUGT91C1) 的底物结合结构,揭示了底物多样性是酶内大底物结合口袋和非特异性酶-底物相互作用的结果。然而,甜菊苷元表现出伪二重对称性,而罗汉果苷则以不对称结构为特征,R1 端较长且有分支,而 R2 端较短且为线性结构。因此,SgUGT94-289-3 可能采用了不同于 SrUGT76G1 和 OsUGT91C1 的底物识别机制。然而,UGTs 对非对称糖受体的识别和催化的结构基础仍不清楚。
目前罗汉果苷的工业生产完全依赖于从成熟的罗汉果果实中提取。然而,低丰度和杂质限制了 M5/SIA 作为甜味剂的应用。最近,通过工程化生物催化剂,已经实现了罗汉果苷元生产的改进。此外,一项最新研究报告了通过设计糖基化途径,利用三种工程化 UGTs (SgUGT74AC1, OsUGT91C1 和 MS1,后者是 SgUGT94-289-3 的同源蛋白) 从苷元罗汉果醇中生成三种罗汉果苷 (M5, M5A 和 M5X),总转化率达到 99%。先前的研究为通过合成生物学策略提高罗汉果苷的生产提供了关键见解,然而,M5 和 SIA 这两种高甜度罗汉果苷的高效生产仍然具有挑战性。由于 SgUGT94-289-3 负责 M5 和 SIA 生物合成的大多数罗汉果苷糖基化步骤,了解 SgUGT94-289-3 的糖受体识别和催化的分子机制至关重要。
在此,我们旨在研究 SgUGT94-289-3 的糖受体识别和催化机制,并基于结构对 SgUGT94-289-3 进行工程化改造,最终生成了在 M5/SIA 生产效率上显著提高的突变酶。
结果
SgUGT94-289-3 的酶学特性
我们表达并纯化了重组的 SgUGT94-289-3 蛋白(参见补充图 2),并测量了其对参与 M5 生物合成的各种糖受体(M2E、M3、M3E、M4A、SIA)的产物特异性。尽管采用了不同的催化模式,但我们发现 SgUGT94-289-3 在大多数糖受体上主要生成一种特定产物,除了 M4A(图 2a, b)。更具体地说,SgUGT94-289-3 催化 R1-G2(1-6) 的添加(M2E 向 M3 和 M3E 向 SIA 的转化),其产物特异性接近 90%。类似地,添加 R2-G2(1-6)(M3 向 M4A 和 SIA 向 M5 的转化)的产物特异性约为 70%。然而,当我们使用 M4A 作为糖受体时,我们发现没有单一产物占主导地位,其中 M5 的产量(添加 R1-G3(1-2))占所有产物的比例不到 30%。此外,我们的动力学数据(参见补充表 2)显示,当使用 M4A 作为糖受体时,SgUGT94-289-3 未能达到稳态。这些数据表明,该酶在进行 β (1-2) 糖基化时的活性较低且/或特异性较低,而在进行 β (1-6) 连接时则表现更好。此外,我们还发现,酶在 R1 端底物(M2E 和 M3E)上的 Kcat/Km 值高于在 R2 端底物(M3 和 SIA)上的值(参见补充表 2),表明 R1 端的催化效率更高。综上所述,我们的结果表明,尽管 SgUGT94-289-3 展现了对罗汉果苷的多样性识别和催化模式,它更倾向于进行 β (1-6) 糖基化,并且更偏向于罗汉果苷的 R1 端而非 R2 端,因此在反应端和糖苷键连接上表现出相对严格的区域选择性。
a SgUGT94-289-3 对不同罗汉果苷进行单步糖基化反应的 UPLC 色谱曲线,右侧标明了罗汉果苷底物的类型和反应时间。每个反应的目标产物峰由黑色箭头指示。含有相同数量葡萄糖的罗汉果苷(峰)以相同的背景色显示。 b 使用 M2E、M3、M3E、M4A 或 SIA 作为底物的目标产物的转化效率柱状图,基于 (a) 中的曲线计算得出。 c 以 M2E 作为起始底物的体外连续糖基化实验中产物的动态变化。时间过程:720 分钟。由于 SIA 的产量非常低(产率为 2%),因此未包含在计算中。 d 在不同时间点(0、40、300 和 720 分钟)产物的转化率柱状图,基于 (c) 中的曲线计算得出。每种产物的转化率 (%) 由其在总产物中的百分比表示。数据以平均值 ± 标准差 (n=3 生物重复) 形式表示。阴性对照组由不含酶或底物的缓冲液组成。源数据提供于源数据文件中。
我们进一步将纯化的 SgUGT94-289-3 与 M2E 和 UPG 一起孵育,以验证其在体外单锅级联反应中合成 M5 的能力。我们测量了在 720 分钟的时间过程中产生的各种罗汉果苷的量,此时接近达到了稳态(图 2c, d 和补充图 3)。我们发现,在催化过程中,M2E 在大约 40 分钟反应时间后迅速消耗,而 M3 和 M4A 几乎在反应开始后立即出现。M3 在约 20 分钟内达到最大比例,然后缓慢下降至不可检测的水平,而 M4A 在约 100 分钟时达到最大量。M5 在约 60 分钟时出现,并缓慢积累至我们测量结束。副产物(由于缺乏标准罗汉果苷,无法识别的其他异构体)在约 180 分钟时成为最丰富的类型。总体而言,我们的结果清楚地表明,在体外单锅实验中,SgUGT94-289-3 催化了从 M2E 到 M3、再到 M4A,最后到 M5 的顺序转化。然而,在我们的体外实验中,M5 的产量不到 10%,这可能是由于 SgUGT94-289-3 的 β (1-2) 糖基化效率较低,如我们的酶学实验所揭示的(图 2b)。
为了重现从 M3E 生成 M5 的反应,我们将 SgUGT94-289-3 与 M3E 和 UPG 一起孵育。这导致了 SIA 和 M5 的顺序生成,并且副产物的积累要少得多(补充图 4)。这些结果与我们的酶学数据一致,表明 SgUGT94-289-3 对 β (1-6) 连接具有强烈偏好。然而,M3E 在罗汉果果实中的生成量可以忽略不计,表明该途径在体内 M5/SIA 的生物合成中仅起次要作用。
SgUGT94-289-3 的总体结构及其与 UPG 的结合
为了研究 SgUGT94-289-3 的催化机制及其与糖受体/供体的结合模式,我们解析了 SgUGT94-289-3 的十个晶体结构(参见补充表 3、4 和补充图 5、6),包括未结合状态(apo)、结合糖供体 UPG(称为 UPG)和结合 UDP 的两种结构(分别称为 UDP-1 和 UDP-2),以及六种受体结合状态的结构。六种受体结合结构中的两种是野生型(WT)SgUGT94-289-3 分别结合 M3(称为 M3)或 M3E(称为 M3E)获得的,而其他结构是使用本研究中生成的 SgUGT94-289-3 突变体蛋白获得的,包括 V148G、G152S 和 V148W/G152S。这四种结构根据糖受体和蛋白类型分别命名为 SIAV148G、SIAV148W/G152S、M5V148G 和 M5G152A。所有受体结合结构都包含一个位于 SgUGT94-289-3 表面同一浅槽(称为位点 3)中的罗汉果苷分子。此外,我们在 M3E、M3 和 SIAV148G 结构中发现了第二个罗汉果苷分子结合在蛋白分子内部,但位于两个不同的位置。虽然 apo、M3 和 SIAV148G 结构中仅包含一个 SgUGT94-289-3 分子,其他七种结构的晶体不对称单元中包含两个 SgUGT94-289-3 分子(参见补充表 3)。在这七种结构中,每个分子之间的蛋白质和配体均表现出良好的重叠(参见补充图 7)。因此,在以下文本中我们仅描述这些结构中的一个分子。
对我们的结构进行分析显示,SgUGT94-289-3 采用了典型的植物 UGT 折叠结构,其 N 端和 C 端结构域(NTD 和 CTD)分别负责结合糖受体和供体。NTD 由七个 β-链(Nβ1-Nβ7)组成,周围环绕着十个 α-螺旋(Nα1-Nα10),而 CTD 包含六个 β-链和九个 α-螺旋(Cβ1-6 和 Cα1-9)。所有十个结构表现出几乎相同的整体折叠,特别是在 CTD 部分,但在 Nα6-Nα8 片段的构象上有所不同(图 3b)。apo、UDP-1 和 UPG 结构中的 Nα8 螺旋相较于其他结构倾斜了约 30 度。这些构象差异表明 SgUGT94-289-3 中的 Nα6-Nα8 区域本质上是可移动的,这可能与其特定的催化特性有关。
a UPG 结构的卡通和表面表示。NTD 和 CTD 分别以海蓝色和洋红色显示,并标注了二级结构。 b 十个 SgUGT94-289-3 结构的叠合。放大的糖供体和 Nα6-Nα8 区域视图分别显示在左侧和顶部。Nα6-Nα8 区域的构象变化用红色箭头表示。 c UPG 分子的结合。UPG 结构以表面模式显示(与 a 中的视图相同)。UPG 分子以棒球模式显示,参与 UPG 相互作用的残基以棒状表示。UPG-Glc 以棕色填充。
在所有九个复合物结构中,UPG/UDP 分子紧密叠合(图 3b),并容纳在 CTD 中(图 3c)。UPG-Glc 与 E273、D374 和 Q375 通过氢键相结合,并靠近保守的残基 H22 和 D121,这对应于其他 UGT 家族成员中的催化二联体。对这五个残基中的任何一个进行突变都会导致 SgUGT94-289-3 的催化活性完全丧失(参见补充图 8),这强调了它们在结合 UPG 分子和/或催化葡萄糖转移反应中的重要作用。将我们的 UPG 结构与先前报道的结合 UPG 的 VvGT1 结构(PDB 代码:2C1Z)进行比对,显示两种结构中的 UPG 分子位于相同的位点,并采用大致相同的构象。然而,VvGT1 结构中的 UPG-Glc 与 UDP 部分垂直翻转,从而暴露出变旋碳原子 (C1),这代表了 UPG 的生产性构象。相比之下,在我们的结构中,UPG 分子采用放松的构象,UPG-Glc 向催化中心延伸,从而遮蔽了催化 C1 原子,表明 UPG 分子在我们的结构中处于非生产状态。这种构象差异可能是由于我们的 UPG 结构中缺乏糖受体,而 VvGT1 结构中存在糖受体(山奈酚),这可能诱导了 UPG 的特定构象。
SgUGT94-289-3 中糖受体结合的口袋 2
在我们六个受体结合的结构中,有两个(即 M3 和 SIAV148G)具有相同的受体结合模式,一个 M3/SIA 分子结合在位点 3,另一个 M3/SIA 位于由 Nα6-Nα8 区域形成的口袋中(图 4a)。后者 M3/SIA 采用 R2 内向构型,R2 端深入口袋并接近催化中心,因此我们将此位点命名为口袋 2。M3 和 SIA 分子在这两个结构中完美叠合,特别是它们的 R2 端(图 4b),这两个受体分子中的 R2 端是相同的(图 1a)。因此,在以下文本中我们仅描述 M3 结构。
a M3 结构的卡通表示。两个 M3 分子以棒球模式显示,其中一个 M3 分子结合在口袋 2 中,并进一步以表面模式显示,其 R2-G1 的 6-OH (O6) 由红色箭头指示。UDP 和催化残基 H22 以棒状显示。 b M3 和 SIAV148G 的结构比对。M3 结构的 NTD 和 CTD 分别以海蓝色和洋红色显示。SIAV148G 结构以灰色显示。结合在 M3 和 SIAV148G 结构中的底物分别以紫色和橙色显示。 c M3 结构与 OsUGT91C1 复合物的叠合,后者复合了 UDP 和 Reb E(PDB 代码 7ES0)。蛋白质以卡通模式显示,UDP、糖受体和 H22 以棒状显示。M3(绿色棒)和 Reb E(白色棒)分子,包括它们等待被糖基化的氧原子(红色着色并由箭头指示),在口袋 2 中很好地叠合。 d M3 分子在口袋 2 中的结合及其与 SgUGT94-289-3 的相互作用。M3、UDP 和相邻的残基分别以棒球、棒和线的形式显示。氢键相互作用以黑色虚线表示。疏水残基以点表示。
有趣的是,M3 结构与 OsUGT91C1 结构(PDB 代码 7ES0)很好地对齐,该结构也包含一个在对应于口袋 2 位置结合的糖受体(Rebaudioside E, Reb E)(图 4c)。M3 分子在口袋 2 中的 R2-G1 的 6-OH 与 H22 通过氢键相连,并位于 OsUGT91C1 结构中 Reb E 的 1-R2 葡萄糖(催化位点的葡萄糖)2-OH(反应基团)相同的位置,强烈表明口袋 2 中的 M3 分子处于生产状态,并准备通过 β (1-6) 连接进行糖基化以生成 M4A。残基 W17、H96 和 E273 与 M3 分子的 R2-G1 的其他三个羟基相互作用(图 4d),表明这些残基在定位糖受体于口袋 2 并决定 SgUGT94-289-3 的产物特异性方面起着重要作用。此外,M3 分子的 R2-G1 基团被 L123 和 V373 从两侧夹在中间,残基 L197 和 F377 通过疏水相互作用稳定罗汉果苷骨架。Nα6 上的 V148、G152 和 I156 也参与了与 M3 的疏水相互作用。这些结果强烈表明,SgUGT94-289-3 的口袋 2 能够容纳 R2-内向构型的糖受体,从而促进其 R2-G1 基团的 β (1-6) 糖基化。
SgUGT94-289-3 中糖受体结合的口袋 1
接下来,我们分析了 M3E 结构中的糖受体结合模式,发现除了位于位点 3 的一个 M3E 分子外,另一个 M3E 占据了一个与口袋 2 不同的口袋,该口袋由 Nα4 和 Nα8 形成。后者 M3E 分子采用 R1-内向构型,其 R1 端指向催化中心(图 5a)。因此,我们将此结合位点命名为口袋 1。当我们将 M3E 结构与其他 UGT 结构进行比较时,我们发现 M3E 分子位于与 SrUGT76G1 结构(PDB 代码 6O88)中的糖受体类似的位置(图 5b)。然而,M3E 分子的 6-OH 基团距离催化残基 H22 稍远。在结构中,M3E 的非生产性构象可能是由于催化位点中存在 tris 分子(图 5c),这可能是由于在结晶溶液中使用了高浓度的 tris 缓冲液(0.1 M)。在其他 UGT 结构中也观察到催化中心中稳定结合的 tris 分子,这可能是因为 tris 的羟基模仿了葡萄糖部分的羟基,从而稳定了其结合。
a M3E 结构的卡通表示。两个 M3E 分子以棒球模式显示,其中一个 M3E 分子结合在口袋 1 中,并进一步以表面模式显示,其 R1-G1 的 6-OH (O6) 由红色箭头指示。UDP 和一个 tris 分子以棒状显示。 b M3E 结构与复合了 UDP 和产物 Reb A 的 SrUGT76G1 结构(PDB 代码 6O88)的叠合。蛋白质以卡通模式显示,UDP、糖受体和 H22 以棒状显示。M3E 分子(黄色棒)和 Reb A 分子(白色棒)可以在口袋 1 中对齐,M3E 中等待被糖基化的氧原子和 Reb A 中已经被糖基化的氧原子以红色球体显示并由箭头指示。 c M3E 和 tris 分子在口袋 1 中的结合及其与 SgUGT94-289-3 的相互作用。M3E、tris 和 UDP 以棒球模式显示,附近的残基以线条显示。氢键相互作用以黑色虚线表示。 d 分子动力学 (MD) 模拟后 M3E 在口袋 1 中的结合。M3E 和 UPG 以棒球模式显示,附近的残基以线条显示。M3E 的 R1-G1 的 6-OH (O6) 由红色箭头指示。氢键相互作用以黑色虚线表示。疏水残基以点表示。
为了验证 M3E 在 SgUGT94-289-3 中的结合模式,我们使用不含 tris 的 SgUGT94-289-3 模型进行了分子动力学 (MD) 模拟,其中 UDP 分子被 UPG 取代。我们发现 M3E 分子在口袋 1 中稳定结合,并在模拟结束时向 UPG 分子靠近。R1-G1 的 6-OH 向 UPG-Glc 移动了 4.3 Å,并定位在与催化残基 H22 的氢键距离内(3.5 Å)(图 5d 和补充图 10a–c)。此外,我们发现随着 M3E 的靠近,UPG-Glc 翻转并切换到活性构象,类似于在 VvGT1 结构中观察到的情况(PDB 代码 2C1Z)。这些发现表明,MD 模型中的 M3E 分子代表了其生产性构象。基于我们的结构和模拟数据,我们提出,包括 W17、H96、L123 和 V373 在内的几个残基可能参与了 M3E 分子的结合。
虽然我们未能获得与 M2E 或 M4A 结合的 SgUGT94-289-3 复合物结构,但我们能够将这两个糖受体分别对接到 SgUGT94-289-3 结构中并进行 MD 模拟。我们发现这两个糖受体都采用 R1-内向构型,并稳定地结合在口袋 1 中,类似于 M3E。M2E 将其 R1-G1 的 6-OH 暴露在 H22 和 UPG-Glc 附近,支持了我们的酶学结果,即 SgUGT94-289-3 更倾向于催化 M2E 的 β (1-6) 糖基化。此外,UPG 分子在我们的模拟中也采用了活性构象,并且 UPG-Glc 翻转。对于 M4A,虽然其罗汉果苷元位于口袋 1 中,但其 R1-G2(1-6) 基团延伸至口袋 2。此构象使 R1-G1 的 2-OH(以及其他羟基)暴露在 H22 附近。总之,我们的结果表明,SgUGT94-289-3 中的口袋 1 更倾向于以 R1-内向构型结合糖受体,从而可以进一步对 R1-G1 基团进行糖基化。
SgUGT94-289-3 的双口袋催化模式
我们的 M3E 和 M3 结构表明,虽然位于不同的口袋中,但 M3E 和 M3 分子以相似的方式与 SgUGT94-289-3 相互作用,即通过围绕骨架区域的非极性相互作用,以及与不同反应端的额外氢键相互作用。我们进一步将这两种结构叠合,发现 M3E 的 R1-G1 和 M3 的 R2-G1 位于由 SgUGT94-289-3 中的 W17、H22、H96、L123 和 V373 形成功能活性位点的同一位置。虽然 M3E 和 M3 结构中的底物在其稳定性上共享相似的残基,但它们也与酶形成了不同的相互作用。
a M3 和 M3E 结构的叠合。糖受体以线条显示。对糖受体在口袋 1 和口袋 2 中识别和结合起关键作用的残基以棒状模式显示。M3E 中的 R1-G1(绿色)和 SIA 中的 R2-G1(棕色)分别填充为绿色和棕色。 b–e 在反应 40 分钟后,野生型(WT)和突变型 SgUGT94-289-3 的催化活性和特异性。M2E 向 M3 的转化(b),M3E 向 SIA 的转化(c),M3 向 M4A 的转化(d),以及 SIA 向 M5 的转化(e)。活性 (%) 通过底物消耗(空心)测量,特异性 (%) 通过产物产量(实心)测量。b、c 表示 R1-内向底物的情况,而 d、e 表示 R2-内向底物的情况。数据以平均值 ± 标准差 (n=3 生物重复) 表示。野生型酶催化的反应作为阳性对照组,阴性对照组由不含酶或底物的缓冲液组成。源数据文件中提供了源数据。
为了验证双口袋结构在催化中的功能作用,我们分析了针对参与 M3E(口袋 1)和 M3(口袋 2)结合的残基的单点突变的酶活性。我们发现这些残基在不同罗汉果苷底物上的催化活性和特异性贡献不同,这与它们在酶中的具体位置一致(图 6)。残基 W17 紧靠催化残基 H22 和 D121(图 6a),其大侧链可能对稳定和/或正确定向糖受体至关重要。与这一结构观察一致,我们发现 W17A 突变消除了 SgUGT94-289-3 的活性(图 6b–e)。残基 H96 和 V373 靠近两个反应端的 G1 基团(图 6a),因此 H96A 和 V373A 突变形式在所有底物上的活性均下降。此外,H96A 突变极大地降低了 R2-内向底物(M3 和 SIA)的催化特异性(图 6d,e),证实了我们关于 H96 在定位 M3/SIA 的 R2-G1 进行 β (1-6) 糖基化中的关键作用的推测(图 4d)。L123A 和 L197G 突变分别降低了 SgUGT94-289-3 对 R1-内向(M2E 和 M3E)和 R2-内向(M3 和 SIA)底物的催化效率(图 6b–e)。这些结果与我们的结构分析一致,显示 L123 位于口袋 1 中,而 L197 位于口袋 2 中。
综上所述,我们对 SgUGT94-289-3 突变体的酶学实验证实了我们的结构和模拟发现,表明 SgUGT94-289-3 利用双口袋模式进行罗汉果苷的结合和催化。酶在口袋 1 中结合 R1-内向构型的糖受体(M2E、M3E、M4A),而在口袋 2 中结合 R2-内向构型的糖受体(M3 和 SIA)。糖受体在不同口袋中的方向特异性可能由罗汉果苷的不对称结构和两个口袋的不同形状决定。我们的结构分析显示,口袋 1 的开口较宽,而口袋 2 的开口较窄(补充图 12a),因此分支且体积较大的 R1 可能进入较宽的口袋 1,而线性 R2 端则能够进入较窄的口袋 2。此外,糖受体可能更容易进入较宽的口袋 1,这可能解释了我们的酶学结果,即 SgUGT94-289-3 在催化过程中更偏好罗汉果苷的 R1 端(图 2b)。
糖受体结合的位点 3
M3 和 M3E 结构的比较还揭示了 Nα6-Nα8 区域发生的构象变化(补充图 12b)。在 M3E 结构中,Nα8 更靠近 Nα4,但在 M3 结构中远离 Nα6,从而为每个口袋中的底物结合创造了空间。这些结果证实了我们之前的观察,即 Nα6-Nα8 区域是可移动的,并强调了该区域在促进糖受体结合和定向中的重要作用。
有趣的是,在所有受体结合的结构中,我们观察到一个受体分子结合在位点 3,该位点位于分子表面并靠近 Nα8(补充图 13a)。这些受体分子采用相同的方向并很好地叠合,R1 端指向口袋 1,R2 端接近口袋 2。因此,我们推测位点 3 可能促进受体在口袋 1 和 2 之间的穿梭,从而促进糖受体不同末端的交替糖基化。此外,罗汉果苷是非极性化学物质,在水溶液中的溶解度较低,因此它们可能更倾向于附着在蛋白质表面的大部分疏水槽上。位点 3 可能作为一个枢纽,吸引底物并用更疏水的底物交换更亲水的产物。在二磷酸肌醇五磷酸激酶 2 (Diphosphoinositol pentakisphosphate kinase 2) 中发现了一个类似的情况,它在主要催化口袋旁的蛋白质表面具有第二个底物结合口袋,用于捕捉来自散装相的底物。然而,位点 3 距离催化中心较远(补充图 13a),我们的酶学实验表明,位点 3 中残基的突变对 SgUGT94-289-3 的催化活性影响较小(补充图 13b),这表明该位点可能在生理条件下不存在,可能是一个人工构建的结构。
SgUGT94-289-3 的连续催化模型
基于我们的结构和酶学分析,我们提出了一个模型来描述 SgUGT94-289-3 催化从 M2E 到 M5 的连续转化,并解释了 SgUGT94-289-3 在不同罗汉果苷催化过程中表现出的多样性和严格的区域选择性(补充图 14)。最初,糖受体 M2E 因其较宽的开口倾向于进入口袋 1,并采用 R1-内向构型,从而暴露 R1-G1 的 6-OH。同时,UPG 结合到活性位点,在那里它准备将 UPG-Glc 传递给 M2E。通过一系列潜在的构象变化,M2E 在 R1-G1 的 6-OH 处被糖基化,生成主要产物 M3。在 M2E 消耗和 M3 积累后,SgUGT94-289-3 利用 M3 作为其底物。此时,SgUGT94-289-3 可能对 M3 的 R1 端表现出较低的亲和力,因为其 sophorose 基团可能在口袋 1 中引入越来越大的空间位阻,而口袋 2 对其 R2 端表现出更高的亲和力。因此,SgUGT94-289-3 在口袋 2 中以 R2-内向构型结合 M3,使 R2-G1 的 6-OH 暴露在催化位点中。然后,UPG-Glc 通过 β (1-6) 糖苷键形成转移到 M3 的 R2-G1 上,生成 M4A。随后,M4A 进入口袋 1,将其 R1-G1 基团定位于催化位点,并转化为 M5,同时伴有各种额外的副产物。
与 β (1-2) 糖基化活性相关的重要残基
虽然 SgUGT94-289-3 能够对 M2E 进行连续糖基化反应以生成 M5,但由于产生大量不需要的副产物,转化效率较低。为了鉴定可能负责提高 SgUGT94-289-3 区域选择性和活性的潜在位点,我们构建了一系列针对我们结构中鉴定的关键结构元件的单点突变,特别是 Nα6-Nα8 区域,共生成了超过 70 个突变体(图 7a)。然后,我们在连续糖基化实验中筛选这些突变体,以增加 M4A 在 40 分钟后的积累,发现三个突变体,即 V148M、G152A 和 S185L,在与野生型相比时显著增加了 M4A 的生成量(图 7b)。值得注意的是,这三个突变位点均位于 Nα6-Nα8 区域内,其中 V148 和 G152 位于 Nα6 上,S185 位于 Nα7 上。通过将反应时间延长至 720 分钟,由于副产物的更多积累和 M5 生成量的减少,S185L 突变体被排除在进一步分析之外(补充图 15a, b)。
a SgUGT94-289-3 的突变残基(粉红色表面)的映射。 b 在 40 分钟的时间内,以 M2E 为底物时,突变体相对于 WT 的 M4A 产量。阳性结果以红色突出显示并标注。 c-e 在连续糖基化实验中,以 M2E 作为唯一输入的糖受体,并在 40、300 和 720 分钟监测 WT 和突变型 SgUGT94-289-3 对 SIA(c)、M5(d)和总副产物(e)的转化率。表现较好的突变体以红色星号标出。 f 在连续糖基化反应过程中,由 WT 和四个具有改进 M5 生成能力的突变体催化的各种产物的转化率动态。数据以平均值 ± SD 表示 (n = 3 生物重复)。野生型酶催化的反应作为阳性对照组,阴性对照组由不含酶或底物的缓冲液组成。源数据文件中提供了源数据。
接下来,我们针对位于 148 号位置的残基生成了三个额外的突变体,分别是 V148G(无侧链)、V148F 和 V148W(大侧链),并使用 M2E 作为糖受体,在三个时间间隔(40、300 和 720 分钟)计算四个 148-突变体所有中间产物的产量(图 7c-e 和补充图 15c, d)。我们发现,在较长的反应时间(300 和 720 分钟)内,V148G 的活性低于野生型酶。相比之下,V148M 和 V148F 突变体显著增加了 M5 的生成(图 7d),并且在 M4A 向 M5 转化的催化效率(Kcat/Km)方面表现更高(补充表 2),其中 V148F 更为有效。这些结果表明,这两个突变体表现出更高的 β (1-2) 糖基化活性。对野生型(M3 结构)和 148 突变体(SIVV148G、M5V148G 和 SIAV148W/G152S 结构)的结构比较显示,这些突变体与野生型具有相同的构象(补充图 16a),因此 V148 突变对催化的影响应归因于侧链的变化。我们的结构分析显示,V148 位于口袋 2 内,靠近催化位点,因此将 V148 突变为大侧链残基会缩小口袋 2 一侧的活性中心空间。我们的 WT 和 V148F 突变体与 M4A 结合的 MD 模拟模型表明,M4A 的 R1-G2(1-6) 基团延伸到口袋 2 中,这可能有助于将 R1-G1 的 2-OH 基团暴露给催化残基 H22(补充图 16b)。在模拟过程中,V148F 突变体中 R1-G1 的 2-OH 比在野生型中的更靠近 UPG 的 C1(补充图 16c),这可能是因为较窄的口袋 2 限制了 R1-G2(1-6) 的移动性,从而有助于将 R1-G1 的 2-OH 定向到催化残基。相比之下,V148G 突变体创造了一个更大的催化中心空间,从而降低了 M5 的转化率(图 7d)。有趣的是,V148W 具有最大的侧链,但并没有表现出像 V148F/V148M 那样的活性增加。我们对 M3 和 SIAV148W/G152S 结构的叠合显示,W148 的侧链与口袋 2 中的 M3 分子重叠(补充图 16d, e)。因此,罗汉果苷底物可能需要略微的构象变化和/或 W148 侧链的旋转开关才能完全容纳在口袋 2 中。这可能是 V148W 突变未能提高 SgUGT94-289-3 酶活性的原因之一。总之,我们的结果表明,148 号位置的中等大小残基增加了对 M4A 的 β (1-2) 糖基化活性和区域选择性。
对催化效率重要的残基
我们的酶动力学分析表明,G152A 突变体形式相比于野生型表现出显著更高的催化活性(补充表 2),导致 M4A 向 M5 转化的显著增加(图 7d),但也产生了大量不需要的副产物(图 7e)。这些结果表明,G152A 突变大大激发了 SgUGT94-289-3 的酶活性,但对其催化特异性几乎没有影响。G152S 和 G152T 突变体也表现出了类似的结果(图 7c-e)。我们的 M5G152A 和 SIAV148W/G152S 结构表明,将 G152 突变为小侧链残基未能导致与野生型相比的构象变化(补充图 16a)。G152 位于口袋 2 中,与 V148 类似,但与催化中心的距离比 V148 远。因此,将 152 号位置的甘氨酸替换为小侧链残基(A/S/T)可能会影响 SgUGT94-289-3 的酶活性,但不会影响其特异性。有趣的是,与野生型相比,G152A 在 R1-内向底物(M2E 和 M3E)上的催化效率相当(分别为 1.33 和 2.42 倍),但在 R2-内向底物(M3 和 SIA)上的效率显著提高(分别为 11.57 和 368.22 倍)(补充表 2),这表明酶活性得到了刺激,特别是针对 R2 端的反应。这一观察的潜在原因不能仅通过结构数据来解释,其机制需要进一步研究。
高效 M5 生产的 SgUGT94-289-3 突变体
我们进一步基于上述发现生成了双突变体(V148M/F/W 与 G152A 结合),希望结合 148 和 152 号位置的突变效果。如预期的那样,这些双突变体在连续糖基化系统中表现出大大增加的 M5 产量,同时积累的副产物减少(图 7d, e)。特别是,V148M/G152A 突变体表现出最高的 M5 产量(94%),同时我们观察到的副产物量最少(3%)。有趣的是,我们注意到在 300 分钟时间点,V148F 和 V148W 突变体增加了 M3 向 SIA 的转化率。类似地,双突变体 V148F/G152A 和 V148W/G152A 表现出增加的 SIA 产量,伴随着 M3 向 M4A 转化的减少(图 7c, f)。这些实验数据表明,SgUGT94-289-3 的 V148F/G152A 和 V148W/G152A 突变体将其末端选择性从 R2 端转向 R1 端,并增强了 M3 R1 端的 β (1-2) 糖基化活性,从而产生更多的 SIA。M3 向 SIA 转化的增加可能也是这些突变酶中口袋 2 侧的更窄的催化中心的结果。
总之,我们的工作展示了一组 SgUGT94-289-3 衍生的催化剂,如 V148F、V148M/G152A 和 V148W/G152A,在 M5 和 SIA 生产中具有高区域选择性和催化效率(图 7f)。使用主要的罗汉果苷 M2E 作为唯一输入,我们通过单一催化剂在体外一锅合成系统中实现了高达 94% M5(V148M/G152A)和 43% SIA(V148W/G152A)的产量,并且副产物极少。
讨论
UGTs(糖基转移酶)是一大类超家族酶,通常能够催化多种糖受体底物的糖基化,或催化单一底物的不同反应末端的糖基化。糖受体的识别和适当结合是UGTs催化的前提。之前研究报道了两种植物UGTs(SrUGT76G1和OsUGT91C1)与其糖受体结合的结构,显示这两种酶都利用单一的口袋来结合并催化具有两种不同方向的糖苷底物。虽然甜菊醇的几乎对称结构和非特异性疏水性酶-底物相互作用使得SrUGT76G1和OsUGT91C1可以采用单一口袋模式,但罗汉果苷的两个反应末端在结构和大小上存在明显差异。如果SgUGT94-289-3使用单一口袋机制,它可能在较大的口袋尺寸以匹配较大的反应末端和合理的口袋尺寸以维持较小反应末端的区域选择性之间面临权衡。我们在此展示,SgUGT94-289-3采用了一种前所未知的双口袋结构,分别容纳罗汉果苷的两个结构不同的反应末端,从而实现更广泛的底物谱和严格的区域选择性。有趣的是,SrUGT76G1和OsUGT91C1结构中的糖受体结合口袋分别对应SgUGT94-289-3的口袋1和口袋2,这表明SgUGT94-289-3的双口袋结构可能是从单一口袋模式发展而来的,并且可能普遍存在于其他UGTs中。许多三萜皂苷具有各种糖基化修饰,通常表现为不对称结构。它们的不同反应末端上的糖基化需要多个UGTs协同作用。然而,使用多酶途径可能会增加复杂性,使得目标产物的工业合成变得不太实用。开发一种能够独立催化多个反应步骤并生成最终产物的酶构成了定向合成目标产物的有前途的途径。SgUGT94-289-3中发现的双口袋模式可以应用于设计和工程化其他能够催化具有不同/非对称反应末端的糖受体的UGTs。
此外,我们对SgUGT94-289-3的基于结构的工程研究表明,将V148突变为具有中等大小侧链的残基增加了R1末端的β (1-2)糖基化活性,而将G152突变为小侧链残基大大增强了SgUGT94-289-3的催化活性,但对区域选择性影响较小。此外,双突变体V148M/G152A、V148F/G152A和V148W/G152A在M5和SIA生产中相较于野生型表现出大大提高的效率。两个位置(148和152)都位于Nα6,这表明这一结构基序可能在SgUGT94-289-3的区域选择性和催化效率中起到关键作用。总之,我们的研究表明,有可能开发出用于单锅合成M5/SIA产物的高效生物催化剂,并为未来对SgUGT94-289-3及可能的其他植物UGTs的工程化提供了参考。
方法
分子克隆
从罗汉果的cDNA文库中扩增了编码SgUGT94-289-3的基因,并通过Gibson组装方法克隆至pET28a (+) 质粒中。质粒的N端和C端均连接了一个六组氨酸标签。用于将SgUGT94-289-3亚克隆至pET28a的引物序列如下:正向引物5′-ACTGGTGGACAGCAAATGGGTCGCGGAATGGATGCTGCCCAACAAG-3′,反向引物5′-ATCTCAGTGGTGGTGGTGGTGGTGCTCTATTTTAAGCAAGAGAGAAATTTCAGCGAC-3′。所有的点突变均通过Gibson组装方法生成。针对SgUGT94-289-3的结构基础操作,补充表5中提供了一系列突变位置。这些残基被突变为同源UGTs中保守的残基或其他保守残基。
蛋白质表达和纯化
重组质粒转化至E. coli Rosetta(DE3)感受态细胞中。转化的细胞在含有50 µg/ml卡那霉素的Lysogeny Broth培养基中培养,在37°C下以220 r.p.m.的速度摇动,直到O.D.600达到约0.8。通过在培养基中加入0.5 mM IPTG诱导蛋白质表达,并在18°C下以180 r.p.m.的速度继续摇动培养20小时。通过在4°C下以6000 × g离心10分钟收获细胞,并重新悬浮于裂解缓冲液(50 mM Tris-HCl,pH 8.0,500 mM NaCl,5%甘油和10 mM咪唑)中。通过超声波裂解细胞,并在4°C下以18000 × g离心40分钟。上清液加载至预平衡的Ni-NTA柱上(GE Life Sciences),并用50体积的洗脱缓冲液(50 mM Tris 8.0, 500 mM NaCl, 100 mM Imidazole)洗柱,随后用洗脱缓冲液(50 mM Tris 8.0, 500 mM NaCl, 300 mM Imidazole)洗脱目标蛋白。洗脱液通过一个30kD截断的离心过滤器(Merck Millipore, C7719)交换至缓冲液A(20 mM Tris-HCl pH 8.0, 0.1 mM EDTA pH 8.0, 5 mM β-ME),并直接加载至RESOURCE Q阴离子交换色谱柱(Cytiva)上。色谱柱用缓冲液A平衡,并用缓冲液B(补充了500 mM NaCl的缓冲液A)线性梯度洗脱,目标蛋白在约150 mM盐浓度下洗脱。通过使用Superdex 200(Cytiva)的尺寸排阻色谱证实了纯化的蛋白样品的同质性。蛋白样品被去盐并浓缩至15 mg/ml,储存于-80°C以备后用。
结晶
所有用于浸泡或共同结晶的糖受体均溶解于50%DMSO中,制备成80 mM M2E、M3、M3E、SIA和M5的储备溶液。UDP和UPG分别在水中制备成40 mM的储备溶液。所有晶体均通过悬滴蒸气扩散法在16°C下生长。apo SgUGT94-289-3(用于解析apo结构)的晶体是在含有0.1 M Tris-HCl pH 8.0、35%(w/v)聚乙二醇3350、0.2 M NaCl和4%(v/v)聚丙二醇P400的储液中获得的。与UPG复合的SgUGT94-289-3晶体(用于解析UPG结构)通过将apo蛋白晶体在补充有4 mM UPG的相同储液中过夜浸泡获得。与UDP复合的SgUGT94-289-3晶体通过将蛋白与4 mM UPG(用于UDP-1结构)或4 mM UPG和8 mM M2E(用于UDP-2结构)孵育30分钟获得,并在apo蛋白的相同储液条件下结晶。用于解析M3E、M3和SIAV148G结构的晶体通过在结晶前将SgUGT94-289-3蛋白与4 mM UDP和8 mM M3E、M3或SIA孵育获得。M3E结构的晶体生长在含有0.1 M Tris-HCl pH 8.0、35%(w/v)聚乙二醇3350、0.2 M NaCl和4%(v/v)聚丙二醇P400的储液中。M3结构的晶体使用含有0.2 M碘化钠和20%(w/v)聚乙二醇3350 pH 7.0的储液生长。SIAV148G结构的晶体
获得于由4%(v/v)TacsimateTM pH 7.0和12%(w/v)聚乙二醇3350组成的储液中。用于解析其他受体结合复合物结构的晶体均通过在结晶前将蛋白与4 mM UDP和8 mM相应的糖受体孵育,在apo蛋白的相同储液条件下结晶获得。晶体直接在液氮中闪速冷冻,无需额外的防冻保护。使用UDP而非UPG与酶和各种罗汉果苷孵育,是为了避免在长时间的结晶过程中催化反应的进行,从而能够获得SgUGT94-289-3的受体结合复合物。
数据收集和结构解析
X射线衍射数据集在100 K的低温条件下,于上海光源的BL17U1、BL18U1和BL19U1线站收集,使用0.97918Å的波长。衍射数据使用XDS包进行处理和缩放。UDP-1结构使用PHENIX包中的phaser软件通过分子置换法解析,TcCGT1的结构(PDB代码6JTD)被用作搜索模型。其他结构通过使用精炼的UDP-1结构作为初始搜索模型解析。结构通过Coot进行手动调整,并通过Phenix.refine进行精炼。基于每个结构的分析,Ramachandran图统计显示,一个良好质量的模型预期在最有利区域的百分比应超过95%。数据收集和结构精炼统计的总结提供在补充表3中。所有结构图均使用PyMOL制备。
分子对接和分子动力学模拟
使用M3E结构生成无tris的SgUGT94-289-3结构模型,通过手动移除tris和M3E分子。V148F突变模型通过在PyMOL中诱变生成。环区的缺失残基和突变残基通过Rosetta精炼。M2E、M3E和M4A分子分别对接到SgUGT94-289-3结构模型(WT和V148F)中,使用LeDock。LeDock基于模拟退火和配体姿势(位置和方向)及其可旋转键的进化优化的组合,使用基于物理/知识的混合评分方案,该方案来源于前瞻性虚拟筛选活动。使用Openbabel为这些分子添加氢原子。RMSD值和结合姿势的数量分别设置为1和1000。与M2E、M3E或M4A结合的SgUGT94-289-3模型能量最低的模型被选为MD模拟分析的初始模型。
对于MD模拟,模型中的UDP分子被UPG分子取代。所有MD模拟由GROMACS版本2019.6执行,使用Amber14SB_OL15力场。配体(UPG和糖受体)电荷和原子类型分别使用AM1-BCC模型和第二代广义AMBER力场(GAFF2)分配。系统使用带有10Å缓冲区的立方盒,并用钠离子电中和,在显式溶剂模型TIP3P中溶解。系统中涉及的每种分子的数量列在补充表6中。通过最陡下降算法进行能量最小化。平衡化通过对重原子的谐波约束(1000 kJ/mol/nm2)并用逐级平衡化执行。使用100 ps NPT集合,时间步长为2 fs。温度和压力调节分别由V-rescale和Parrinello-Rahman方法控制。短程非键相互作用用1.0 nm的截止距离计算,长程静电相互作用通过粒子-网格Ewald法计算。氢键通过LINCS法约束。生产模拟在NPT集合中进行130 ns。每个生产MD模拟被视为独立动作,并通过随机速度种子重复三次以生成初始速度。生产MD运行的平衡评估相关指标包括蛋白质骨架RMSD、势能、温度和压力变化,见补充图17。所有重复的MD模拟产生相似结果,数据仅提供一个重复作为代表。
体外糖基化分析和产品制备
体外糖基化分析在含有50 mM PBS、pH 6.5和5 mMβ-巯基乙醇的反应缓冲液中进行。罗汉果苷(M2E、M3、M3E、M4A、SIA和M5)溶解于50%DMSO至10 mM浓度。UPG溶解于水至80 mM浓度。
反应设定如下,0.5 mM罗汉果苷、8 mM UPG和10µg纯化酶混合到一个100µl的反应系统中。反应系统在45°C下孵育不同时间段,并通过在系统中加入50µl甲醇并在95°C下孵育5分钟终止。反应系统在12000×g离心10分钟。含有糖基化产物的上清液收集并存储在4°C以备进一步的UPLC或UPLC-ESI-QTOF-MS/MS分析。
超高效液相色谱分析
糖基化产物在Waters ACQUITY UPLC I-Class系统上分析,使用ACQUITY UPLC BEH C18柱(2.1×100 mm, 1.7µm粒子,Waters),流速为0.25 ml/min,注射量为5µl,在30°C下进行。流动相由0.1%甲酸水溶液(v/v,溶剂A)和纯乙腈(溶剂B)组成,梯度洗脱:0–10分钟,21–28%(溶剂B)。检测波长为203 nm。通过比较洗脱时间和质谱与罗汉果苷标准的质谱来鉴定目标产物。产品通过色谱峰面积的额外标准方法进行定量。转化率通过将某些产物的数量除以总产物的数量计算。
质谱分析
糖基化产物的定性分析通过在负模式下使用Xevo G2-XS Q/TOF质谱仪系统进行。解质化气流量设置为600 L/h,温度为250°C。锥气流设置为50 L/h,源温度设置为100°C。毛细管和锥电压分别设置为2.5 kV和40 V。MS/MS碎片信息通过10至45 V的碰撞能量坡度获得。质谱在m/z 50到1500的全扫描模式下进行。精确质量和碎片离子通过MassLynx™软件(版本4.1,Waters)获得。分析了一组样品。