作为生物体的重要组成部分,蛋白质具有不同状态,基于集体运动或无序波动的不同结构组合,采用复杂的三维结构,来执行丰富的生物功能,例如,蛋白质构象变化对转运体、通道和酶的功能至关重要,而平衡组合的特性有助于控制分子相互作用的强度和选择性。
近年来,AlphaFold 等深度学习方法在蛋白质的单态建模上取得了巨大成功,却无法解释构象异质性。所以,对于结构生物学家而言,如何在保障单一结构准确预测的同时,又能揭示潜在结构组合, 是一项亟待突破的难题。
近期,来自麻省理工学院的研究团队结合了 AlphaFold 和 ESMFold 的新型采样方法,通过流匹配 (Flow matching) 技术,提供了一种全新的视角来观察和理解蛋白质的构象空间。
该研究在两个不同的场景中展示了流匹配变体 AlphaFlow 和 ESMFlow 的性能, 模型最终在 PDB 上微调,并在 ATLAS 数据集上进一步训练,均显示出了卓越性能,不仅在预测构象柔韧性和原子位置分布建模方面,超越了传统的 MSA 基线,而且在复制高阶群观测方面也取得了显著的进步。
相关研究以「AlphaFold Meets Flow Matching for Generating Protein Ensembles」为题,已入选 AI 领域顶级学术会议 ICML 2024。
论文地址:
https://openreview.net/forum?id=rs8Sh2UASt
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
数据集:基于 PDB 与 ATLAS 两大数据集,保证实验结果的公允性
众所周知,AlphaFold 是在 PDB 中的结构基础上,以端到端的方式开发和训练的,而 ESMFold 使用了来自蛋白质语言模型 (PLM) 的嵌入作为输入。因此,该研究主要采用的是 PDB 数据集和 MD 数据集。
首先,为了从 PDB 中构建结构异质性的蛋白质测试集,该研究使用 SIFTS 注释数据库,及其从 PDB 链到 UniProt 参考序列的残基级映射,将每个已沉积的链与一个片段相关联。随后,该研究基于 0.75 的 Jaccard 相似性阈值完全连接聚类的所有片段,将每个得到的聚类视为一个独特的蛋白质,从而产生了 75,000 个蛋白质。
此外,该研究还收集了:
-
AlphaFold 训练截止日期前没有提交链条 (chains),但在截止日期后沉积得到 2-30 条链条的蛋白质;
-
长度在 256–768 个残基之间的蛋白质;
-
当链聚集的阈值为 0.85 对称 lDDT-Cα 和完全连接时,至少有 2 个结构聚类的蛋白质。
最终得到了由 2,843 条链表示的 563 个蛋白质,研究人员抽取了由 500 条链表示的 100 个蛋白质形成测试集。
其次,研究人员基于 MD 数据集构建了 ATLAS 数据集,后者由基于 ECOD 域分类法选择的 1,390 个蛋白质组成。 对于每种蛋白质,数据集提供了长度为 100ns 的 3 次重复模拟,每次模拟包含 10,000 个帧。为了在这些轨迹上进行训练和验证,该研究首先使用提供的序列和 ColabFold MMSeqs2 管道为所有 1,390 个 ATLAS 条目生成 MSA。
随后,研究人员从训练管道中随机抽取 300 个构象,分别将 2018 年 5 月 1 日和 2019 年 5 月 1 日作为训练和验证截止日期,最终获得了 1265/39/82 个集合的训练集、验证集和测试集。
PDB 测试集和 ATLAS 测试集序列的长度直方图
模型构建:将 AlphaFold 作为去噪模型,对蛋白质集合进行流匹配
考虑到重新开发与 AlphaFold 具有同等精度和泛化能力的分布模型,具有相当大的挑战,该研究利用生成模型的最新概念进展,将 AlphaFold 作为生成模型几乎直接复用。
作为去噪模型的 AlphaFold
截至目前,从文本到图像的典型扩散模型架构中,几乎都采用的是对以文本提示 s 为条件的图像 x 的条件分布 p(x | s) 进行建模。这些模型的核心是一个去噪神经网络,它通过接收有噪声的图像以及文本提示,从而预测生成干净的图像。
基于这些条件,此类模型通常采用简单的均方误差 (MSE) 目标进行训练。类似地,一个通过类似回归的损失函数(如 AlphaFold 或 ESMFold)训练的蛋白质结构预测器,只需提供额外的嘈杂结构输入,即可转换为去噪模型。通过这些架构调整,该研究可将 AlphaFold 和 ESMFold 进一步插入到任何基于迭代去噪的生成建模框架中。
该研究认为,流匹配生成框架的设计相当于选择了一个条件概率路径 pt(x | x1)及其对应的向量场 ut(x | x1)。因此,该研究通过从 q(x0) 中采样噪声 x0,并与数据点 x1 进行线性插值来定义条件概率路径,进而定义了一个重参数化的神经网络 x1(x, t; θ) ,从而将 AlphaFold 架构用作去噪模型。
为了将流匹配应用于蛋白质结构,该研究还通过其 β-carbons 的 3D 坐标 (α-carbon for glycine) 来描述结构:x ∈ R^N×3。这也确保了神经网络的输入始终是聚合物般的、物理上合理的三维结构。
由于流匹配框架涉及定义 (difining) 和反转 (reversing) 噪声过程,因此它与蛋白质结构的谐波扩散具有许多相似之处,两者都收敛于相同的先验分布。然而,作为一个更通用的框架,流匹配提供了 2 个主要优势:
首先, 谐波扩散仅在无限时间限制下收敛到先验分布,且收敛速度取决于数据维度,即蛋白质大小。这导致在仅对相对较小尺寸的裁剪进行训练时,会出现推理时分布偏移。
其次, 流匹配提供了一种简单的方法来处理 PDB 中非常常见的缺失残基,只需省略即可。相比之下,谐波扩散会在原子位置之间产生依赖关系,因此需要对缺失的残基进行数据插补。
AlphaFLOW / ESMFLOW 概述
最终,该研究基于流程匹配框架在 PDB 上微调了 AlphaFold 和 ESMFold 的所有权重,所使用 AlphaFold 和 ESMFold 的训练截止日期分别为 2018 年 5 月 1 日和 2020 年 5 月 1 日。在这个阶段的训练结束时,该研究得到了 AlphaFold 和 ESMFold 的流匹配变体,并称之为 AlphaFLOW 和 ESMFLOW。
为了评估从 MD 集合中进行学习的能力,该研究进一步在包含全原子 MD 模拟的 ATLAS 数据集上对 2 个模型进行了微调。在分别进行了 4.3 万个和 2.7 万个额外的示例训练后,该研究获得了 MD 专用的模型变体——AlphaFLOW-MD 和 ESMFLOW-MD。
实验结果:性能超越传统,在结构生物学领域具有广泛应用前景
研究人员首先评估了 AlphaFLOW 和 ESMFLOW 在 PDB 中沉积的蛋白质多样构象的能力。
为此,该研究构建了一个测试集,其中包含 100 个在 AlphaFold 训练截止日期(2018 年 5 月 1 日)后沉积的、具有多条链和构象异质性证据的蛋白质,分别针对于精度、召回率、多样性 3 大指标进行了评估。
对所有基准方法的 PDB 曲线的评估
结果表示,AlphaFLOW 与 MSA 的二次采样 (subsampling) 类似,都以牺牲精度为代价增加了预测的多样性,但相对于 MSA 的二次采样,AlphaFLOW 的变体追踪到了显著更优的 Pareto 前沿。
在精度和召回率方面,AlphaFLOW 表现出了与 MSA 二次采样非常相似的行为。 令人有些惊讶的是,这两种方法都不能显著提高相对于基准 AlphaFold 的总体召回率。
总体而言,与 AlphaFold 系列方法相比,ESMFold 和 ESMFLOW 的精度相对更低。然而,ESMFLOW 能够相对于基线 ESMFold 注入大量多样性,并在几乎不牺牲精度的情况下提高召回率。
另外,该研究的 RMWD 分析表明,AlphaFlow 在预测原子平均位置方面略优于 AlphaFold,并且在建模方差方面明显优于 MSA 二次采样。
MD 评估的可视化结果
该研究还进一步评估了 AlphaFLOW 和 ESMFLOW,为 ATLAS 数据库中的 82 个蛋白质测试集生成代理 MD 集合的能力。该研究使用每种方法分别采样,并通过一系列评估来检查采样样本与 MD 群体的相似性。
结果表明,AlphaFLOW-MD 在相似性方面得到了显著改善,远远超过了 MSA 二次采样的性能。
AlphaFLOW 的 MD 复制模拟效率
由于 MD 被视为真实值,但运行到收敛状态很昂贵。因此,该研究进一步分析了在等效的有限计算预算下,例如以 GPU 小时为单位,AlphaFLOW 是否能提供更好的结果。为此,该研究减少了从 AlphaFLOW 中抽取的样本数量(从 250 个大幅减少到了 4 个),并且缩短了 MD 轨迹的长度(从 100ns 调整为 160ps)。
结果表明,AlphaFLOW 集合的质量仍然保持不变,但 MD 轨迹需要更长的时间才能达到或超过相同的质量水平。
蛋白质通用预训练模型三足鼎立,结构生物学领域充满活力
在过去几年,蛋白质与 AI 不断碰撞出全新火花,目前蛋白质的通用预训练已经形成三足鼎立的新局面, 即 DeepMind Alphafold 系列、David Baker 的 RoseTTAFold 系列,以及 Meta ESM 系列。基于这三大模型,相关的科研成果已经开始井喷。仅在 2024 年上半年,就有多篇研究成果登上 Nature、Science 等顶级期刊。
在 2024 年 3 月,来自北卡罗来纳大学医学院、加州大学旧金山分校、斯坦福大学和哈佛大学的研究人员在 Science 上发表了一项研究证实,AlphaFold2 预测结构可以指导未来的药物发现。 研究小组发现,AlphaFold2 在结构生物学、蛋白质设计、相互作用、靶标预测、功能预测和生物机制等方面表现出显著的实用性,能够通过筛选数十亿种化合物并通过将文库与蛋白质结构进行匹配来寻找潜在的新药。
2024 年 5 月,Google DeepMind 团队在 Nature 上重磅发布 AlphaFold 3 ,将技术扩展到蛋白质折叠之外,能以前所未有的精度准确预测蛋白质、DNA、RNA、配体等生命分子的结构及相互作用。这意味着,AlphaFold 3 将进一步加速药物设计和基因组研究, 开启人工智能细胞生物学的新时代。
借由 AlphaFold 3 的发布,Alphafold 系列也终于构建起全原子的基座。 与之相似,RoseTTAFold 系列也在今年上半年成功发布 RoseTTAFold All-Atom,实现了对于蛋白质共价修饰以及多个核酸链和小分子组装进行合理预测的能力。
在 Alphafold3 与 RoseTTAFold All-Atom 的帮助下,研究人员正在充分发挥想象能力。例如,2024 年 6 月,一个国际研究团队在 Nature Biotechnology 上发表了一篇论文,展示了如何利用 AlphaFold 3 和 RoseTTAFold All-Atom 结合的策略,成功设计出一种新型的蛋白质支架,这种支架可以更有效地将药物直接输送到病变细胞,从而提高治疗效果并减少副作用。这一发现标志着 AI 在精准医疗领域的应用迈出了坚实的一步。
遗憾的是,2023 年 8 月,Meta 解散 ESMFold 团队,转而全力推动 AI 商业化。但针对于 ESM 系列的研究并没有停止脚步。例如, 该模型在蛋白质语言建模领域取得了重要进展,提供了一套整合多尺度信息的统一建模方案。值得注意的是,它是首个能同时处理氨基酸信息和原子信息的蛋白质预训练语言模型。
由此可见,在 Alphafold 系列、RoseTTAFold 系列、ESM 系列并驾齐驱的新时代, AI 与蛋白质研究的结合将更加紧密,不仅加速了我们对蛋白质结构和功能的认知,也为疾病治疗、药物开发和生物技术应用带来了革命性的变革。在 AI 技术带来的跨越式发展下,结构生物学领域正在变得更加充满活力,一个属于生物医药领域的新篇章正在徐徐展开。