Distributional Graphormer:从分子结构预测到平衡分布预测

news2024/9/23 13:17:47

编者按:近年来,深度学习技术在分子微观结构预测中取得了巨大的进展。然而,分子的宏观属性和功能往往取决于分子结构在平衡态下的分布,仅了解分子的微观结构还远远不够。在传统的统计力学中,分子动力学模拟或增强采样等是获得平衡分布中采样的常用方法,但这些方法昂贵又耗时。

针对这个长期且艰巨的挑战,微软研究院发布了可用于预测分子结构平衡分布的深度学习框架 Distributional Graphormer (DiG)。DiG 可以快速生成真实多样的构象,进而为实现从单一结构预测到平衡分布预测的突破奠定基础。实验表明,DiG 在蛋白质、蛋白质-配体复合物和催化剂-吸附质系统等采样任务中,展现出了优异的性能和潜力,为分子科学研究打开了新的图景,并为药物设计、材料科学等领域带来新的可能。


结构预测是分子科学中的一个根本课题,因为分子的三维结构决定了分子的特性和功能。近年来,深度学习方法在分子结构预测方面取得了显著进展,并产生了重大影响。例如,深度学习模型 AlphaFold 和 RoseTTAFold 在从氨基酸序列中预测最有可能的蛋白质结构方面达到了前所未有的准确度;由微软研究院研发的 Graphormer 模型可以精准预测催化剂表面分子的吸附构象,并在全球首届公开催化剂挑战赛中夺冠。尽管深度学习方法改变了分子科学的游戏规则,但为分子的静态结构提供单一快照,仅揭开了复杂分子系统的冰山一角。

以蛋白质分子为例,蛋白质并不是刚性物体,它们是动态的分子,在平衡状态下可以呈现不同的结构,每种结构都有特定的出现概率。平衡分布下的结构及其出现的概率决定了分子的宏观属性和功能,从而才能揭示其生物学原理并对现实应用产生影响。而获得这些平衡分布的传统方法,如分子动力学模拟或蒙特卡洛采样都是从分布中顺序采样,由于其计算成本高,并且采样样本之间统计不独立,所以导致该类方法难以轻易用于复杂的实际应用场景中。因此,分子科学领域迫切需要找到全新方法,可以从分子结构预测问题迈进到分子的平衡分布预测。

DiG:预测平衡态下分子结构的分布

微软研究院发布的全新深度学习框架 Distributional Graphormer (DiG)[1][2],可以用于预测平衡态下分子结构的分布,旨在攻克平衡分布预测这一基础性难题,为分子科学研究创造了新的机遇。DiG 实现了从单一结构预测扩展到对平衡分布的整体预测的重要突破。平衡分布预测弥合了由统计力学和热力学控制的分子系统微观结构和宏观特性之间的差距。这是一项非常具有挑战性的任务,因为它需要对高维空间中的复杂分布进行建模,以捕捉不同分子状态的概率。

图1:DiG 的目标是以分子系统的基本描述符(例如氨基酸序列或分子化学式)作为输入,预测符合平衡分布的结构及其概率。

通过对此前研究工作 Graphormer 的扩展,DiG 实现了分布预测的全新解决方案。Graphormer 是一种通用的图 (Graph) Transformer,可以有效地对分子结构进行理解和建模,在分子科学中表现出了优异的性能,在量子化学或分子动力学模拟中也得到了应用[3][4]。现在,DiG 具有更新、更强大的功能——通过深度神经网络直接预测平衡分布。

DiG 受到热力学和优化的经典方法——模拟退火算法(simulated annealing)启发,通过模拟一个随机过程,将一个简单分布逐渐完善,从而产生一个复杂分布。此随机过程的预测在深度学习框架中完成。这也是最近将生成式人工智能推向火热的扩散模型(diffusion models)的模式。DiG 将这一思想又带回了热力学研究,形成了一个灵感和创新的闭环。可以想象在不久的未来,科学家们将可以像使用 AI 作画一样来使用 DiG 生成分子结构:通过输入简单的描述,例如氨基酸序列,DiG 就可以快速生成符合平衡分布的、真实多样的分子结构。这将大大提高科学家的生产力和创造力,使其能够在药物设计、材料科学和催化等领域获得新的发现与应用。

在多种分子体系采样任务中,DiG颠覆传统

DiG 框架已在多个分子采样任务上展现出优异的性能和潜力,这些任务涵盖了广泛的分子系统,如蛋白质、蛋白质-配体复合物和催化剂-吸附质系统等。研究结果显示,DiG 不仅能够以高效率和低计算成本生成真实、多样的分子结构,还可以提供状态密度的估计,这对于使用统计力学计算宏观性质至关重要。DiG 在从统计学角度理解微观分子并预测其宏观特性方面取得了重大进展,为分子科学创造了更多令人兴奋的研究机会。

DiG 的重要应用之一是对蛋白质构象进行采样,这对于理解蛋白质性质和功能是必不可少的。蛋白质是动态分子,在平衡状态下会形成不同的结构且形成的概率各不相同,而这些结构通常又与其生物功能和与其他分子的相互作用有关。但是预测蛋白质构象的平衡分布是一个长期存在且具有挑战性的问题,原因在于构象空间中的概率分布取决于复杂和高维的能量景观图(Energy Landscape)。与昂贵且低效的分子动力学模拟或蒙特卡洛采样方法相比,DiG 可以从氨基酸序列中生成多样化并与功能相关的蛋白质结构,不仅速度快,而且成本显著降低。

DiG 可以从相同的蛋白质序列中产生多种构象。如图2所示,DiG 生成了 SARS-CoV-2 病毒主蛋白酶的结构,并与分子动力学模拟和 AlphaFold2 的预测结果进行了比较。在二维空间中,等高线图(以线条表示)显示了由大规模分子动力学模拟采样的三个簇,DiG 在三个簇中均生成了高度相似的结构。

图2:DiG 生成的结构覆盖了新冠病毒主蛋白酶长时间平稳态动力学模拟在2维投影构象空间中分布的主要区域

图3是将 DiG 在四种蛋白质上产生的结构与实验结构进行对比,每种蛋白质都有两种可区分的构象,对应着独特的功能状态。对于左上的腺苷酸激酶蛋白(Adenylate kinase)有开放和闭合状态,两者都被DiG很好地采样。类似地,对于右上的药物转运蛋白 LmrP,DiG 也生成了对应两个功能状态的结构。值得注意的是,闭合状态是通过实验确定的(第二列下方的棕色示例,PDB ID 6t1z),而另一种状态则是与实验数据一致的 AlphaFold2 预测的模型。对于图3左下的人类 B-Raf 激酶而言,主要的结构差异位于 A 环 (A-loop) 区和附近的螺旋,也被 DiG 很好地捕获到了。另一个有趣的例子是具有两个分离结构域的D-核糖结合蛋白(右下),可以被包装成两种不同的构象。虽然 DiG 完美地生成了垂直构象,但未能预测扭曲/倾斜构象。尽管如此,DiG 还是生成了似乎是中间态的构象。总之,DiG 展示了生成与功能相关状态对应的多样化结构的能力,这在此前专注于结构预测的方法中尚未实现。

图3:DiG 在产生蛋白质多种构象方面的性能。在4种不同蛋白,DiG(薄带状)产生的结构与实验确定的结构(圆柱)高度一致。

DiG 的另一个应用是对催化剂-吸附质系统进行采样,这是多相催化的核心。识别活性吸附位点和稳定的吸附质构型是理解和设计催化剂的关键,但由于复杂的表面分子相互作用,这项工作也非常具有挑战性。密度泛函理论(DFT)计算和分子动力学模拟等传统方法往往非常耗时且成本高昂,特别是对于大型的复杂表面。DiG 提供了快速、准确的解决方案,可以根据基质和吸附质描述符,预测吸附位点和构型及其相应的概率。DiG 还可以处理不同类型的吸附质,如单原子或分子,以及金属或合金等不同类型的基质。

通过 DiG,研究员们预测了各种催化剂-吸附质系统的吸附位点,并将预测结果与 DFT 计算得到的能量进行了比较。如图4所示,DiG 可以找到所有稳定的吸附位点,并产生类似于 DFT 结果的吸附质构型,效率高且成本低。DiG 还可以估算不同吸附构型的形成概率,这与 DFT 能量非常一致。

图4:单个 N 原子和 O 原子在催化剂表面的吸附预测结果。模型预测的催化剂表面吸附质吸附概率分布与量子化学计算得到的相互作用能分部对比图。

DiG还在蛋白-配体采样,逆设计等任务中展现了前所未有的能力。具体内容请参考论文原文。

DiG是如何工作的?

类似于模拟退火过程的模式,DiG 通过使用 Graphormer 模型预测一个扩散过程,将简单分布转换为复杂分布。简单分布通常是标准高斯分布,复杂分布则是分子结构的平衡分布。转换是一步一步进行的,如此建模复杂分布的难度便被拆解到每一步成为较为简单的问题。

图5:DiG 的设计和骨干架构

DiG 可以使用不同类型的数据或信息来进行训练。DiG 首先可以使用模拟数据,例如分子动力学轨迹,来学习分布。DiG 也可以直接使用分子系统的能量函数来训练,因为平衡分布可通过统计力学理论直接由能量函数给出。由于分子体系平衡分布预测不同于传统 AI 任务,其数据生成需要耗费长时间的模拟计算因而难以大规模得到,直接从能量函数学习便是一个缓解对数据严格依赖的手段。

DiG 在许多分子系统上都显示出与基于深度学习的结构预测方法相似的良好泛化能力。这是因为 DiG 继承了先进的深度学习架构,如 Graphormer 的优势,并将其应用于一个新的、具有挑战性的分布预测任务。训练好后,DiG 可以通过反转转换过程来生成分子结构,从一个简单的分布开始,并以相反的顺序调用深度学习模型。DiG 还可以通过计算转换过程中概率的变化来提供每个生成结构的概率估计。可以看到,DiG 是一个灵活而通用的框架,可以处理不同类型的分子系统和描述符。

未来,为分子科学研究开辟更多新机遇

DiG 是从单一结构预测到对平衡分布整体建模的重大进展,为在深度学习框架下连接微观结构和宏观属性奠定了基石。DiG 使用生成式 AI 技术,可以在多种分子系统中对符合平衡分布的分子结构进行采样。研究员们在包括蛋白质在内的不同类别的分子上展示了 DiG 的灵活性,同时也证明了以这种方式生成的单一结构是符合物理化学相互作用规律的。

然而,要获得对任意分子系统平衡分布更精准的预测,仍需要进行更多的研究。微软研究院希望 DiG 能够沿着这一方向激发更多的研究与创新,期待未来能够看到 DiG 和其他方法在分子平衡分布预测问题上带来更多令人兴奋的成果和影响。

相关链接:

[1] DiG 论文:Towards Predicting Equilibrium Distributions for Molecular Systems with Deep Learning (https://www.microsoft.com/en-us/research/publication/towards-predicting-equilibrium-distributions-for-molecular-systems-with-deep-learning/)

[2] Demo页面 (https://distributionalgraphormer.github.io)

[1] KDD Cup 2021 | 微软亚洲研究院Graphormer模型荣登OGB-LSC图预测赛道榜首 (https://www.msra.cn/zh-cn/news/features/ogb-lsc)

[2] 公开催化剂挑战赛冠军模型、通用AI分子模拟库Graphormer开源!(https://www.msra.cn/zh-cn/news/features/graphormer)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/728320.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(7 月 6 日论文合集)

文章目录 一、检测相关(16篇)1.1 Large-scale Detection of Marine Debris in Coastal Areas with Sentinel-21.2 Unbalanced Optimal Transport: A Unified Framework for Object Detection1.3 Detecting Images Generated by Deep Diffusion Models using their Local Intrin…

Oracle单行函数(字符,数值,日期,转换)

Oracle单行函数(字符,数值,日期,转换) 前言 1、字符函数 1.1大小写转换函数 1.2连接字符串X和concat(X,Y) 1.3ASCII码与字符转换 1.4返回字符串索引位置:instr(x,str) 1.5返回字符串长度:length…

使用Plotly创建自定义指标图表

大家好,使用Plotly可以创建和自定义指标图表,本文中将介绍如何使用Plotly库创建指标图表的具体操作步骤。 Plotly简介 Plotly是一个强大的数据可视化工具,允许我们使用Python创建各种交互式绘图和图表。在Plotly提供的无数类型的图表中&…

【MySQL】MySQL里程碑

个人主页:【😊个人主页】 系列专栏:【❤️MySQL】 文章目录 时间表从产品特性的角度梳理其发展过程中了解MySQL里程碑事件 时间表 从产品特性的角度梳理其发展过程中了解MySQL里程碑事件 1995年,MySQL 1.0发布,仅供内…

【LeetCode周赛】2022上半年题目精选集——贪心

文章目录 2136. 全部开花的最早一天(贪心)⭐⭐⭐⭐⭐思路代码语法解析:Integer[] id IntStream.range(0, plantTime.length).boxed().toArray(Integer[]::new); 2141. 同时运行 N 台电脑的最长时间(贪心)⭐⭐⭐⭐⭐解…

一分钟带你创建百万测试数据,玩转软件测试

准备测试数据是软件测试中非常重要的一个环节,无论是手工测试、动化测试还是性能测试,生成大量测试数据以评估性能是一项重要任务。 然而,寻找合适的测试数据并确保其质量常常是一项繁琐且耗时的工作。 先来看一下准备测试数据常见的四类方法…

Vue 实时显示时间

Vue 实时显示时间 getNowTime() {setInterval(() > {const date new Date();var year date.getFullYear();var month (date.getMonth() 1).toString().padStart(2, "0");var day date.getDate().toString().padStart(2, "0");var hours date.ge…

人工智能商业变现途径,并介绍详细公司案列

目录 1. 推荐系统:2. 智能广告和营销:3. 聊天机器人和虚拟助手:4. 自动化和机器人化:5. 数据分析和预测:6. 机器视觉和图像识别:7. 金融科技(FinTech):8. 医疗诊断和健康…

【成长之路】nginx配置https遇到的一系列问题

问题一:拿到手的文件并没有网上说的crt和key,而是一个cer、key和csr 按照网上说的,将cer转成pem文件,配置之后确实好使了 server {listen 443 ssl;ssl_certificate /opt/nginx/conf/域名.cer;ssl_certificate_key /opt/nginx/co…

诚迈科技董事长、统信软件董事长王继平出席全球数字经济大会

7月5日,2023全球数字经济大会“数字未来新一代软件产业高质量发展论坛”在北京大兴隆重举行。论坛以“数字新高地,数创兴未来”为主题,共同探讨产业升级新路径,凝聚数字经济合作新共识,构建数字产业集聚发展新高地。诚…

python接口自动化之DDT数据驱动测试

一、简单介绍 DDT(Date Driver Test),所谓数据驱动测试,简单来说就是由数据的改变从而驱动自动化测试的执行,最终引起测试结果的改变。通过使用数据驱动测试的方法,可以在需要验证多组数据测试场景中&…

YApi-高效、易用、功能强大的可视化接口管理平台——(二)YApi 分组权限

YApi 分组权限 认识 YApi角色划分项目权限分组权限分组操作创建分组项目列表添加成员分组删除 认识 YApi YApi 是一个开源的接口管理平台,可以方便地管理和测试 API 接口,支持接口文档自动生成、Mock 数据生成、接口测试和接口监控等功能。YApi 支持多人…

TCP 协议报文

TCP 提供面向连接的通信传输,面向连接是指在传送数据之前必须先建立连接,数据传送完成后要释放连接。无论哪一方向另一方发送数据之前,都必须先在双方之间建立一条连接。在TCP/IP协议中,TCP协议提供可靠的连接服务,连接…

ATFX国际:大非农数据来袭,美国劳动力市场需求或空前旺盛

ATFX国际:昨日晚间公布的ADP数据震惊市场,新增就业人口高达49.7万人,而预期值仅为22.8万人,前值也只有26.7万人。公布值约为预期值和前值的总和。 ▲ATFX图 ADP数据是非农就业报告的前瞻指标,前者表现亮眼&#xff0c…

vue 表单校验不通过问题

记录 vue element 表单验证有值但验证失败问题 <el-form ref"form" :model"form" :rules"rules" class"baseForm"label-width"160px"><div class"sub-body"><el-row><el-col :span"24…

simulink 查表模块lookup table

一维查表 及样条曲线 或者m脚本 clear; x [1 2 3 4 5]; y [1 3 5 3 1];%二维表格 x1 [1 2 3]; x2 [1 2 3 4 5]; y2 [1 2 3 4 5; 6 7 8 9 10; 11 12 13 14 15];%三维表格 k1 [1 2 3]; k2 [1 2 3]; k3 [1 2 3 4 5];for i 1:1:3for j 1:1:3for k 1:1:5y3(i,j,k) ijk;…

数学建模常用算法之Logistic回归

数学建模常用算法之Logistic回归 目录一元回归一元线性回归一元非线性回归 多元回归逐步回归logistic回归 目录 一元回归 一元线性回归 最小二乘法 设&#xff1a; ybxa即可求得 %% 输入数据 clc, clear all, close all x[23.80,27.60,31.60,32.40,33.70,34.90,43.20,52.80…

Zabbix 的使用

Zabbix 的使用 一、添加 zabbix 客户端主机1.1 环境准备1.2 服务端和客户端都配置时间同步1.3 服务端和客户端都设置 hosts 解析1.4 设置 zabbix 的下载源&#xff0c;安装 zabbix-agent21.5 修改 agent2 配置文件1.6 启动 zabbix-agent21.7 在服务端验证 zabbix-agent2 的连通…

粮油溯源系统源码 全流程可视化质量溯源系统源码

粮油质量溯源系统源码 粮油溯源系统是从种植到加工、包装、库存、物流、销售、售出、异常反馈的全流程可视化质量溯源系统。 粮油安全关系千千万万消费者的健康问题。近年来&#xff0c;许多食品行业安全事故频频涌现&#xff0c;成为社会关注焦点。粮油做为人们生活饮食中的…

jpa使用uuid策略后无法手动设置id的问题

实体对象定义如下&#xff1a; Data Entity Table(name "sys_user") public class UserDO {/** 用户id */IdGenericGenerator(name "uuid", strategy "org.hibernate.id.UUIDGenerator")GeneratedValue(generator "uuid")Column(…