Sci. Rep. | 一个对任意分子体系实现准确且高效几何深度学习的通用框架

news2024/12/24 2:47:52

这篇工作是来自纽约城市大学/康奈尔医学院谢磊团队的一篇论文。作者提出了一个通用框架,PAMNet,可以对任意分子体系实现准确且高效的几何深度学习。在小分子性质、RNA三维结构以及蛋白质-配体结合亲和力的预测任务上,PAMNet在准确性和效率方面都优于最先进的基线模型。这些成果不仅展示了PAMNet在模拟分子体系的通用性,而且强调了其在实际分子科学应用中的潜力。

04bafe90dc37bbd04c90060033a81e18.png

背景

分子类型和大小的多样性给药物发现、结构生物学、量子化学等领域的计算建模带来了许多挑战。为了应对这些挑战,几何深度学习(geometric deep learning, GDL)带来的最新进展变得越来越重要,尤其是图神经网络(GNN)在各种GDL方法中表现出卓越的性能。然而,现有的GNN在分子科学领域的应用仍处于初级阶段。其中一个原因是,当前的GNN通常使用有针对性的归纳偏置来建模特定类型的分子体系,从而不能被直接应用到任意其他体系,尽管所有分子结构及其相互作用都遵循相同的物理法则。此外,考虑分子中丰富几何信息的GNN往往有着高昂的计算成本,使它们难以扩展到涉及海量分子(例如高通量筛选, foundation model预训练)或大分子(例如蛋白质,RNA)的任务中。为了应对这些挑战,本文提出了一个新的通用框架:PAMNet,用于准确高效地学习不同大小和类型的三维分子的表示。PAMNet受到了分子力学的启发,明确的模拟分子中的局部和非局部相互作用及其组合效应。在涵盖不同分子体系的任务上,包括小分子性质、RNA三维结构以及蛋白质-配体结合亲和力的预测,PAMNet在准确性和效率方面都优于最先进的基线模型。近日,该项研究工作在Nature出版集团的Scientific Reports期刊上发表(DOI: 10.1038/s41598-023-46382-8),该工作的源代码已在GitHub平台上开源(https://github.com/XieResearchGroup/Physics-aware-Multiplex-GNN)。

模型概要

PAMNet的框架如图1所示。首先,基于任何分子或分子体系的三维结构,构建一个两层多重图,以分离全局和局部相互作用(图1a)。随后,PAMNet(图1b)采用多重图作为输入,并根据分子力学(图1c)的启发,通过不同的信息传递模块捕获了对应的几何信息(图1d)来模拟全局和局部相互作用。最终基于注意力机制,PAMNet整合了每种相互作用的信息,所得到的特征可用于下游任务(图1b)。此外,PAMNet在预测标量属性时利用E(3)-不变特征和操作,并可被扩展到通过考虑分子结构中的几何向量来预测E(3)-等变矢量属性。

eb9fe63df7055fd4c16fe45a10ef2849.png
图1、PAMNet的整体框架

实验结果

为了全面评估PAMNet的性能,作者在不同分子体系的多种任务中进行了实验,包括小分子性质预测、RNA的三维结构预测,以及蛋白质-配体结合亲和力预测。

在小分子性质预测方面,PAMNet被用于预测QM9数据集中有机小分子的12种分子属性。表1的结果显示,PAMNet 在所有 12 个属性中获得了 4 个最佳结果和 6 个第二好结果。在涉及所有属性的平均绝对误差方面,PAMNet比之前的最佳模型低10%。作者还比较了一个“简单”PAMNet,称为PAMNet-s。PAMNet-s仅利用一跳邻域内的几何信息,也得到了出色的结果。

表1、QM9上的性能比较。最佳结果用粗体表示,第二好结果用斜体表示

711bd6ba49ab71e0097e196ee9e752e2.png

对于RNA三维结构预测,PAMNet的任务是从一组候选的结构模型中,识别出接近真实结构的RNA模型。使用RNA-Puzzles结构预测数据集进行的测试表明,PAMNet显著优于其他四种领先的打分函数,包括ARES、Rosetta、RASP和3dRNAscore(图2)。

4819aac0add641625ac0ca5ed3e00f42.png

图2、RNA-Puzzles的性能比较。给定每个RNA的一组候选结构模型,PAMNet和其他四个打分函数对模型进行排名以进行比较。图中的每个交叉对应一个RNA。(a)比较评分函数预测的每个RNA的最佳评分结构模型。(b)比较前10佳的结构模型。(c)比较每个RNA的最佳近天然结构模型的排名。

关于蛋白质-配体结合亲和力预测,PAMNet的目标是根据每个蛋白质-配体复合物的三维结构预测其结合亲和力。在PDBbind v2016数据集上的测试中,PAMNet在多个评价指标上均优于其他基于机器学习、CNN或者GNN的方法(表2)。

表2、PDBbind上的性能比较

b32b5ee1c8a932c8a127b0ae499ad0e0.png

此外,为了评估PAMNet的效率,作者将其与每项任务中最准确的基准模型对于内存消耗和推理时间进行比较。结果发现,PAMNet所需的内存和推理时间都明显少于所比较的基准模型(表3)。PAMNet的高效来自于对三维分子体系中局部和非局部相互作用的单独建模:在对非局部相互作用进行建模时,作者利用了相对低复杂度的信息传递方式,仅使用原子间距作为几何信息,从而显著减少了计算复杂度。

表3、效率评估结果

559dd492a0a81c2c519385a78eb59da1.png

结论

本研究开发了受到分子力学启发的PAMNet框架,可以对任意分子体系实现准确且高效的几何深度学习。PAMNet在多个任务中都表现出了出色的准确性和效率。这些成果不仅展示了PAMNet在模拟分子体系的通用性,而且强调了其在实际分子科学应用中的潜力。这对于未来的药物发现、结构生物学和量子化学等领域具有重要意义。

参考资料

Shuo Zhang, Yang Liu, Lei Xie. A universal framework for accurate and efficient geometric deep learning of molecular systems. Sci Rep 13, 19171 (2023).

https://doi.org/10.1038/s41598-023-46382-8

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1317554.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络编程-认识套接字socket

文章目录 套接字概念端口号网络字节序 套接字类型流套接字数据报套接字 socket常见APIsocket函数bind函数listen函数accept函数connect函数sockaddr结构 套接字概念 socket套接字是进程之间一种通信机制,通过套接字可以在不同进程之间进行数据交流。在TCP/UDP中&…

将html的radio单选框自定义样式为正方形和对号

将html的radio单选框自定义样式为正方形和对号 背景&#xff1a; 如何能把html的<input type"radio" name"option">改成自定义的样式呢&#xff1f;比如想要把他变成正方形&#xff0c;选中的时候是对号。默认的样式太丑了 默认样式&#xff1a; 自…

[数学]三角形的五心之内心

三角形内心的性质 三角形内切圆的圆心称为三角形的内心。内心也是三角形三个角的角平分线的交点 性质1 1.1 设 I I I为 △ A B C △ABC △ABC内一点&#xff0c;则 I I I为 △ A B C △ABC △ABC内心的充要条件是下列条件之一&#xff1a; 1.1.1 I I I到 △ A B C △ABC △…

【C语言】RDMACM、Verbs API与epoll一起使用的示例

一、epoll介绍 epoll是Linux内核为处理大批量文件描述符而作了改进的poll&#xff0c;是Linux下多路复用IO接口select/poll的增强版本&#xff0c;它能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率。 以下是epoll的主要使用方法和优点&#xff1a; epo…

代码随想录刷题题Day15

刷题的第十五天&#xff0c;希望自己能够不断坚持下去&#xff0c;迎来蜕变。&#x1f600;&#x1f600;&#x1f600; 刷题语言&#xff1a;C Day15 任务 ● 513.找树左下角的值 ● 112. 路径总和 113.路径总和ii ● 106.从中序与后序遍历序列构造二叉树 105.从前序与中序遍历…

整理了上百个开源中文大语言模型,涵盖模型、应用、数据集、微调、部署、评测

自ChatGPT为代表的大语言模型&#xff08;Large Language Model, LLM&#xff09;出现以后&#xff0c;由于其惊人的类通用人工智能&#xff08;AGI&#xff09;的能力&#xff0c;掀起了新一轮自然语言处理领域的研究和应用的浪潮。 尤其是以ChatGLM、LLaMA等平民玩家都能跑起…

广州华锐互动:汽车电子线束加工VR仿真培训与实际生产场景相结合,提高培训效果

随着科技的不断发展&#xff0c;虚拟现实&#xff08;VR&#xff09;技术已经逐渐渗透到各个领域&#xff0c;为企业和个人带来了前所未有的便利。在汽车制造行业中&#xff0c;线束加工作为一项关键的生产工艺&#xff0c;其质量直接影响到汽车的性能和安全。因此&#xff0c;…

LCR 181. 字符串中的单词反转

解题思路&#xff1a; class Solution {public String reverseMessage(String message) {message message.trim(); // 删除首尾空格int j message.length() - 1, i j;StringBuilder res new StringBuilder();while (i > 0) {while (i >…

局域网环境下的ntp对时

服务端&#xff1a; 此处为v4-sp4服务器 安装ntp&#xff0c;apt-get install ntp -y ,若为离线环境&#xff0c;则安装ntp和libopts25两个包。 配置&#xff1a; 在/etc/ntp.conf的配置文件里 加入 restrict default nomodify notrap noquery restrict 127.0.0.1 rest…

时序预测 | Python实现GRU-XGBoost组合模型电力需求预测

时序预测 | Python实现GRU-XGBoost组合模型电力需求预测 目录 时序预测 | Python实现GRU-XGBoost组合模型电力需求预测预测效果基本描述程序设计参考资料预测效果 基本描述 该数据集因其每小时的用电量数据以及 TSO 对消耗和定价的相应预测而值得注意,从而可以将预期预测与当前…

【IDEA】关于快捷键行注释时会从行首开始注释

前言 每次在使用IDEA写代码时&#xff0c;用快捷键进行行注释的时候&#xff0c;//会处于行首位置 但是我们想要的是这种注释效果 修改 IDEA中打开settings 找到Editor - Code Style- Java - 找到Code Genneration&#xff0c;取消勾选Line comment at first column&#x…

如何批量获取CSDN文章数据并进行持久化

自己去看文章数据的话&#xff0c;比较慢&#xff0c;所以一直想通过程序来批量获取CSDN的文章数据&#xff0c;最近研究了一下&#xff0c;发现还是挺简单的&#xff0c;能够直接通过解析json来获取文章数据&#xff0c;跟大家分享一下。 文章目录 一、步骤1、首先我们到自己的…

VUE学习三、前端项目部署

1.前端项目打包 执行命令 npm run build:prod正常命令结束 , 会在前端项目里面出现dist文件夹 2.nginx下载安装 nginx下载 : http://nginx.org/en/download.html Windows 下载版本 Mainline version&#xff1a;Mainline 是 Nginx 目前主力在做的版本&#xff0c;可以说…

【手撕算法系列】BN

BN的计算公式 BN中均值与方差的计算 所以对于输入x: b,c,h,w 则 mean: 1,c,1,1var: 1,c,1,1代码 class BatchNorm(nn.Module):def __init__(self, num_features, num_dims):# num_features&#xff1a;完全连接层的输出数量或卷积层的输出通道数。# num_dims&#xff1a;2表示…

【JavaEE】多线程(4) -- 单例模式

目录 什么是设计模式? 1.饿汉模式 2.懒汉模式 线程安全问题 什么是设计模式? 设计模式好⽐象棋中的 "棋谱". 红⽅当头炮, ⿊⽅⻢来跳. 针对红⽅的⼀些⾛法, ⿊⽅应招的时候有⼀ 些固定的套路. 按照套路来⾛局势就不会吃亏. 软件开发中也有很多常⻅的 "问题…

接口优先于反射机制

在Java中&#xff0c;使用接口通常比反射机制更为优雅和安全。接口提供了一种声明性的方式来定义类的契约&#xff0c;并且能够在编译时进行类型检查&#xff0c;而反射则是在运行时动态获取和操作类的信息。下面是一个简单的例子&#xff0c;说明为什么在某些情况下接口比反射…

基于Java SSM框架实现体育竞赛运动会成绩裁判管系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现体育竞赛运动会成绩裁判管系统演示 摘要 体育竞赛是各种体育体育项目比赛的总称。是在裁判员的主持下&#xff0c;按统一的规则要求&#xff0c;组织与实施的体育员个体或体育队之间的竞技较量&#xff0c;是竞技体育与社会发生关联&#xff0c;并作用于…

鼠标点击展开详情

网页部分&#xff1a; HTML部分&#xff1a; <body><br><div id"nav"><div id"dang"></div><ul id"aaa"><li class"a1"><img src"img/U011.jpg" width"195" heig…

7+PPI+机器学习+实验,非肿瘤结合建模筛选生物标志物,可升级

今天给同学们分享一篇生信文章“Identification of diagnostic biomarkers and therapeutic targets in peripheral immune landscape from coronary artery disease”&#xff0c;这篇文章发表在J Transl Med期刊上&#xff0c;影响因子为7.4。 结果解读&#xff1a; 外周血中…

为什么要用 top_p 做文本生成采样

上一篇文章介绍了在大模型生成文本时&#xff0c;一个可以控制的参数 Temperature 的作用&#xff1a;查看温度参数与 softmax&#xff0c;今天继续来看另一个同样可以控制文本输出效果的参数。 或许你在使用 OpenAI 的接口时&#xff0c;会碰到这个参数&#xff0c;那就是 to…