入选ICML!麻省理工团队基于AlphaFold实现新突破,揭示蛋白质动态多样性

news2025/1/9 2:01:14

作为生物体的重要组成部分,蛋白质具有不同状态,基于集体运动或无序波动的不同结构组合,采用复杂的三维结构,来执行丰富的生物功能,例如,蛋白质构象变化对转运体、通道和酶的功能至关重要,而平衡组合的特性有助于控制分子相互作用的强度和选择性。

近年来,AlphaFold 等深度学习方法在蛋白质的单态建模上取得了巨大成功,却无法解释构象异质性。所以,对于结构生物学家而言,如何在保障单一结构准确预测的同时,又能揭示潜在结构组合, 是一项亟待突破的难题。

近期,来自麻省理工学院的研究团队结合了 AlphaFold 和 ESMFold 的新型采样方法,通过流匹配 (Flow matching) 技术,提供了一种全新的视角来观察和理解蛋白质的构象空间。

该研究在两个不同的场景中展示了流匹配变体 AlphaFlow 和 ESMFlow 的性能, 模型最终在 PDB 上微调,并在 ATLAS 数据集上进一步训练,均显示出了卓越性能,不仅在预测构象柔韧性和原子位置分布建模方面,超越了传统的 MSA 基线,而且在复制高阶群观测方面也取得了显著的进步。

相关研究以「AlphaFold Meets Flow Matching for Generating Protein Ensembles」为题,已入选 AI 领域顶级学术会议 ICML 2024。

在这里插入图片描述

论文地址:

https://openreview.net/forum?id=rs8Sh2UASt

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

数据集:基于 PDB 与 ATLAS 两大数据集,保证实验结果的公允性

众所周知,AlphaFold 是在 PDB 中的结构基础上,以端到端的方式开发和训练的,而 ESMFold 使用了来自蛋白质语言模型 (PLM) 的嵌入作为输入。因此,该研究主要采用的是 PDB 数据集和 MD 数据集。

首先,为了从 PDB 中构建结构异质性的蛋白质测试集,该研究使用 SIFTS 注释数据库,及其从 PDB 链到 UniProt 参考序列的残基级映射,将每个已沉积的链与一个片段相关联。随后,该研究基于 0.75 的 Jaccard 相似性阈值完全连接聚类的所有片段,将每个得到的聚类视为一个独特的蛋白质,从而产生了 75,000 个蛋白质。

此外,该研究还收集了:

  • AlphaFold 训练截止日期前没有提交链条 (chains),但在截止日期后沉积得到 2-30 条链条的蛋白质;

  • 长度在 256–768 个残基之间的蛋白质;

  • 当链聚集的阈值为 0.85 对称 lDDT-Cα 和完全连接时,至少有 2 个结构聚类的蛋白质。

最终得到了由 2,843 条链表示的 563 个蛋白质,研究人员抽取了由 500 条链表示的 100 个蛋白质形成测试集。

其次,研究人员基于 MD 数据集构建了 ATLAS 数据集,后者由基于 ECOD 域分类法选择的 1,390 个蛋白质组成。 对于每种蛋白质,数据集提供了长度为 100ns 的 3 次重复模拟,每次模拟包含 10,000 个帧。为了在这些轨迹上进行训练和验证,该研究首先使用提供的序列和 ColabFold MMSeqs2 管道为所有 1,390 个 ATLAS 条目生成 MSA。

随后,研究人员从训练管道中随机抽取 300 个构象,分别将 2018 年 5 月 1 日和 2019 年 5 月 1 日作为训练和验证截止日期,最终获得了 1265/39/82 个集合的训练集、验证集和测试集。

在这里插入图片描述

PDB 测试集和 ATLAS 测试集序列的长度直方图

模型构建:将 AlphaFold 作为去噪模型,对蛋白质集合进行流匹配

考虑到重新开发与 AlphaFold 具有同等精度和泛化能力的分布模型,具有相当大的挑战,该研究利用生成模型的最新概念进展,将 AlphaFold 作为生成模型几乎直接复用。

在这里插入图片描述

作为去噪模型的 AlphaFold

截至目前,从文本到图像的典型扩散模型架构中,几乎都采用的是对以文本提示 s 为条件的图像 x 的条件分布 p(x | s) 进行建模。这些模型的核心是一个去噪神经网络,它通过接收有噪声的图像以及文本提示,从而预测生成干净的图像。

基于这些条件,此类模型通常采用简单的均方误差 (MSE) 目标进行训练。类似地,一个通过类似回归的损失函数(如 AlphaFold 或 ESMFold)训练的蛋白质结构预测器,只需提供额外的嘈杂结构输入,即可转换为去噪模型。通过这些架构调整,该研究可将 AlphaFold 和 ESMFold 进一步插入到任何基于迭代去噪的生成建模框架中。

该研究认为,流匹配生成框架的设计相当于选择了一个条件概率路径 pt(x | x1)及其对应的向量场 ut(x | x1)。因此,该研究通过从 q(x0) 中采样噪声 x0,并与数据点 x1 进行线性插值来定义条件概率路径,进而定义了一个重参数化的神经网络 x1(x, t; θ) ,从而将 AlphaFold 架构用作去噪模型。

为了将流匹配应用于蛋白质结构,该研究还通过其 β-carbons 的 3D 坐标 (α-carbon for glycine) 来描述结构:x ∈ R^N×3。这也确保了神经网络的输入始终是聚合物般的、物理上合理的三维结构。

由于流匹配框架涉及定义 (difining) 和反转 (reversing) 噪声过程,因此它与蛋白质结构的谐波扩散具有许多相似之处,两者都收敛于相同的先验分布。然而,作为一个更通用的框架,流匹配提供了 2 个主要优势:

首先, 谐波扩散仅在无限时间限制下收敛到先验分布,且收敛速度取决于数据维度,即蛋白质大小。这导致在仅对相对较小尺寸的裁剪进行训练时,会出现推理时分布偏移。

其次, 流匹配提供了一种简单的方法来处理 PDB 中非常常见的缺失残基,只需省略即可。相比之下,谐波扩散会在原子位置之间产生依赖关系,因此需要对缺失的残基进行数据插补。

在这里插入图片描述

AlphaFLOW / ESMFLOW 概述

最终,该研究基于流程匹配框架在 PDB 上微调了 AlphaFold 和 ESMFold 的所有权重,所使用 AlphaFold 和 ESMFold 的训练截止日期分别为 2018 年 5 月 1 日和 2020 年 5 月 1 日。在这个阶段的训练结束时,该研究得到了 AlphaFold 和 ESMFold 的流匹配变体,并称之为 AlphaFLOW 和 ESMFLOW。

为了评估从 MD 集合中进行学习的能力,该研究进一步在包含全原子 MD 模拟的 ATLAS 数据集上对 2 个模型进行了微调。在分别进行了 4.3 万个和 2.7 万个额外的示例训练后,该研究获得了 MD 专用的模型变体——AlphaFLOW-MD 和 ESMFLOW-MD。

实验结果:性能超越传统,在结构生物学领域具有广泛应用前景

研究人员首先评估了 AlphaFLOW 和 ESMFLOW 在 PDB 中沉积的蛋白质多样构象的能力。

为此,该研究构建了一个测试集,其中包含 100 个在 AlphaFold 训练截止日期(2018 年 5 月 1 日)后沉积的、具有多条链和构象异质性证据的蛋白质,分别针对于精度、召回率、多样性 3 大指标进行了评估。

在这里插入图片描述

对所有基准方法的 PDB 曲线的评估

结果表示,AlphaFLOW 与 MSA 的二次采样 (subsampling) 类似,都以牺牲精度为代价增加了预测的多样性,但相对于 MSA 的二次采样,AlphaFLOW 的变体追踪到了显著更优的 Pareto 前沿。

在精度和召回率方面,AlphaFLOW 表现出了与 MSA 二次采样非常相似的行为。 令人有些惊讶的是,这两种方法都不能显著提高相对于基准 AlphaFold 的总体召回率。

总体而言,与 AlphaFold 系列方法相比,ESMFold 和 ESMFLOW 的精度相对更低。然而,ESMFLOW 能够相对于基线 ESMFold 注入大量多样性,并在几乎不牺牲精度的情况下提高召回率。

另外,该研究的 RMWD 分析表明,AlphaFlow 在预测原子平均位置方面略优于 AlphaFold,并且在建模方差方面明显优于 MSA 二次采样。

在这里插入图片描述

MD 评估的可视化结果

该研究还进一步评估了 AlphaFLOW 和 ESMFLOW,为 ATLAS 数据库中的 82 个蛋白质测试集生成代理 MD 集合的能力。该研究使用每种方法分别采样,并通过一系列评估来检查采样样本与 MD 群体的相似性。

结果表明,AlphaFLOW-MD 在相似性方面得到了显著改善,远远超过了 MSA 二次采样的性能。

在这里插入图片描述

AlphaFLOW 的 MD 复制模拟效率

由于 MD 被视为真实值,但运行到收敛状态很昂贵。因此,该研究进一步分析了在等效的有限计算预算下,例如以 GPU 小时为单位,AlphaFLOW 是否能提供更好的结果。为此,该研究减少了从 AlphaFLOW 中抽取的样本数量(从 250 个大幅减少到了 4 个),并且缩短了 MD 轨迹的长度(从 100ns 调整为 160ps)。

结果表明,AlphaFLOW 集合的质量仍然保持不变,但 MD 轨迹需要更长的时间才能达到或超过相同的质量水平。

蛋白质通用预训练模型三足鼎立,结构生物学领域充满活力

在过去几年,蛋白质与 AI 不断碰撞出全新火花,目前蛋白质的通用预训练已经形成三足鼎立的新局面, 即 DeepMind Alphafold 系列、David Baker 的 RoseTTAFold 系列,以及 Meta ESM 系列。基于这三大模型,相关的科研成果已经开始井喷。仅在 2024 年上半年,就有多篇研究成果登上 Nature、Science 等顶级期刊。

在 2024 年 3 月,来自北卡罗来纳大学医学院、加州大学旧金山分校、斯坦福大学和哈佛大学的研究人员在 Science 上发表了一项研究证实,AlphaFold2 预测结构可以指导未来的药物发现。 研究小组发现,AlphaFold2 在结构生物学、蛋白质设计、相互作用、靶标预测、功能预测和生物机制等方面表现出显著的实用性,能够通过筛选数十亿种化合物并通过将文库与蛋白质结构进行匹配来寻找潜在的新药。

2024 年 5 月,Google DeepMind 团队在 Nature 上重磅发布 AlphaFold 3 ,将技术扩展到蛋白质折叠之外,能以前所未有的精度准确预测蛋白质、DNA、RNA、配体等生命分子的结构及相互作用。这意味着,AlphaFold 3 将进一步加速药物设计和基因组研究, 开启人工智能细胞生物学的新时代。

借由 AlphaFold 3 的发布,Alphafold 系列也终于构建起全原子的基座。 与之相似,RoseTTAFold 系列也在今年上半年成功发布 RoseTTAFold All-Atom,实现了对于蛋白质共价修饰以及多个核酸链和小分子组装进行合理预测的能力。

在 Alphafold3 与 RoseTTAFold All-Atom 的帮助下,研究人员正在充分发挥想象能力。例如,2024 年 6 月,一个国际研究团队在 Nature Biotechnology 上发表了一篇论文,展示了如何利用 AlphaFold 3 和 RoseTTAFold All-Atom 结合的策略,成功设计出一种新型的蛋白质支架,这种支架可以更有效地将药物直接输送到病变细胞,从而提高治疗效果并减少副作用。这一发现标志着 AI 在精准医疗领域的应用迈出了坚实的一步。

遗憾的是,2023 年 8 月,Meta 解散 ESMFold 团队,转而全力推动 AI 商业化。但针对于 ESM 系列的研究并没有停止脚步。例如, 该模型在蛋白质语言建模领域取得了重要进展,提供了一套整合多尺度信息的统一建模方案。值得注意的是,它是首个能同时处理氨基酸信息和原子信息的蛋白质预训练语言模型。

由此可见,在 Alphafold 系列、RoseTTAFold 系列、ESM 系列并驾齐驱的新时代, AI 与蛋白质研究的结合将更加紧密,不仅加速了我们对蛋白质结构和功能的认知,也为疾病治疗、药物开发和生物技术应用带来了革命性的变革。在 AI 技术带来的跨越式发展下,结构生物学领域正在变得更加充满活力,一个属于生物医药领域的新篇章正在徐徐展开。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1960192.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 围棋的气(100分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 🍿 最新华为OD机试D卷目录,全、新、准,题目覆盖率达 95% 以上,支持题目在线…

Oracle特有的DECODE函数

Oracle中的DECODE函数是一种条件表达式函数,用于基于给定的条件从一组值中选择一个值返回。它的基本语法如下: DECODE(expression, search1, result1, [search2, result2, ...], [default])expression:要比较的表达式或列。searchN&#xff…

正点原子imx6ull-mini-Linux驱动之pinctrl 和 gpio 子系统(5)

1:pinctrl 子系统 1.1:pinctrl 子系统简介 Linux 驱动讲究驱动分离与分层,pinctrl 和 gpio 子系统就是驱动分离与分层思想下的产物, 驱动分离与分层其实就是按照面向对象编程的设计思想而设计的设备驱动框架 来回顾一下上一章是…

2006年威廉王子提出分手 舞会上凯特一袭护士装令他再次沦陷 迅速和好

虽然威廉王子和凯特米德尔顿是当今最有影响力和最令人心动的情侣之一,但许多人可能忘记了,早在 2006 年,两人还在约会时,他们曾短暂分手。尽管当时他们的分手可能让英国媒体感到意外,但不到一年后,两人就和…

Window部署Ollama+Qwen2.0+Open-WebUI

文章目录 Windows下安装Docker安装Docker检查是否安装成功, 出现版本即为安装成功安装Ollama启动 Ollama 并拉取模型(选做) 修改默认地址和端口(选做) Ollama 进行跨域配置安装open-webui Windows下安装Docker 准备条件 开启Hyper-V,在“启用或关闭Windows功能”里…

全网最强Linux教程 | 万字长文爆肝Linux操作系统

Linux 1.Linux的引言 Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和Unix的多用户、多任务、支持多线程和多CPU的操作系统。伴随着互联网的发展,Linux得到了来自全世界软件爱好者、组织、公司的支持。它除了在服务器操作系统方面保…

【数据保护】微软开源数据保护项目Presidio-匿名器

Presidio是由微软维护的开源数据保护项目,其主要包含三个功能模块,分别是: Presidio analyzer:该模块主要负责文本类数据敏感信息扫描。Presidio anonymizer:该模块主要负责对已检测到的敏感实体进行脱敏处理。Presidio image redactor&…

【深度学习】语音,Tacotron 2 ,TTS合成

图1展示了Tacotron 2系统架构的框图。该系统包含两个主要部分:特征预测网络和WaveNet vocoder。以下是架构的详细说明: 特征预测网络 输入文本:系统从输入文本开始,经过一系列处理生成语音特征。字符嵌入层:输入的字…

ITSS三级认证需要多少钱?

信息技术服务标准(ITSS)认证是评估一个企业在信息技术服务领域能力的标准之一,它涵盖了从基础标准、支撑标准到基于业务的需求侧和供给侧标准的全面内容。 具体条件 独立法人地位:申请单位需要具有独立的法人地位,这是…

[leetcode hot 150]第二百三十题,二叉搜索树中第k小的元素

题目: 给定一个二叉搜索树的根节点 root ,和一个整数 k ,请你设计一个算法查找其中第 k 小的元素(从 1 开始计数)。 二叉搜索树(BST)有一个特性:对于树中的任何节点,其左…

lora网关到底能带多少设备,lora网关容量是多少?

引言:在推广LoRa模块的过程中,我频繁地遇到关于LoRa网关设备承载能力与容量的询问。为了更清晰地解答这些疑问,本文将深入探讨一个LoRa网关能支持的设备数量,以及这些数量如何受不同参数影响。 那么今天我们就详细的看下一个网关能…

如何使用Apache Web服务器提供自定义错误页面?

当您管理网站时,会花费大量时间来定制软件、运行软件以及调整布局和设计以符合您对网站外观的想法。通常我们只考虑网站中我们期望访问者看到的部分。不幸的是,有些常见页面可能会被忽略:错误页面。 错误页面 虽然理想情况下任何人都不应该在…

Codigger 之软件项目体检:提升企业软件交付质量的秘密武器

在当今竞争激烈的商业环境中,企业软件交付的质量直接关系到企业的市场竞争力和客户满意度。高质量的软件不仅能够满足用户需求,还能降低长期的维护成本,提高企业的运营效率。因此,提升软件交付质量已成为企业关注的焦点。Codigger…

【限免】频控阵雷达:概念、原理与应用【附MATLAB代码】

​微信公众号:EW Frontier QQ交流群:949444104 主要内容 PDA、FDA MATLAB代码 %---------------------------------------- %功能:FDA和相控阵天线方向图 %版本:ver1.0 %时间:2017.11.1 %--------------------------------------- clear all; clc; disp…

一文速通GIT版本管理与分支控制

目录 1、了解Git功能 2、第一次使用Git(首次配置好,后续不用再操作) 打开git后端 设置用户签名 结果 3、初始项目架构 创建本地新仓库并初始化 文件添加到本地仓库 a.文件添加缓存区 b.缓存区内容提交到本地仓库 c.改写提交的注释 …

【产品分析】作业帮

​基本信息 作业帮是目前国内最大的 K12 在线教育类 APP,致力于为全国中小学生提供全学段的学习辅导服务,其课程覆盖小学,初中,高中所有学科,并支持在线答题解题、一对一辅导、作文搜索、直播课、题库练习等众多功能&…

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第三篇 嵌入式Linux驱动开发篇-第六十三章 输入子系统实验

i.MX8MM处理器采用了先进的14LPCFinFET工艺,提供更快的速度和更高的电源效率;四核Cortex-A53,单核Cortex-M4,多达五个内核 ,主频高达1.8GHz,2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…

Rpi Zero W做的老头乐声控灯

祭图__|\0>历经各种尝试,最后选了docker 里装个rhasspy,配上paho-mqtt搞出了这个奇葩夜灯。各种曲折就不说了,直接分享捷径思路。 这个绿板子是respeaker hat with 2 mic 用的是seeed-voicecard,跟着github编译,不…

SM2p256v1椭圆曲线点加点减倍点python实现代码

首先给出SM2p256v1椭圆曲线的建议参数如下: default_ecc_table {n: FFFFFFFEFFFFFFFFFFFFFFFFFFFFFFFF7203DF6B21C6052B53BBF40939D54123,p: FFFFFFFEFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF00000000FFFFFFFFFFFFFFFF,g: 32c4ae2c1f1981195f9904466a39c9948fe30bbff266…

基于零极点配置的PID控制系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 4.1 PID控制器的基本形式 4.2 零极点配置原理 5.完整工程文件 1.课题概述 基于零极点配置的PID控制系统simulink建模与仿真,设置不同个数的零极点,对比PID控制器的控制输出效果。…