NeurIPS 2022 | 正则化分子构象场

news2024/11/17 12:31:56

编译 | 于洲

今天我们介绍来自复旦大学的Lihao Wang以及其他来自字节跳动AI实验室与清华大学AI产业研究院的成员发布在NeurIPS 2022会议上的工作,该文章介绍了一种新方法——正则化分子构象场(RMCF),用于从化学结构中预测最有利的三维构象。文章强调了小分子在自然条件下可能出现的复杂动力学,这可能导致高维度的势能面(PES),从而使得从PES中获得多样的样本变得困难。为此,作者们提出了RMCF,该方法利用图神经网络计算分子结构的表示,并通过正则化技术进行优化。文章还详细介绍了RMCF的计算过程,并提供了开源代码。最后,作者提到了RMCF的局限性。

1be5c45eee2875c16079599e779b39ae.png

背景介绍

从分子图中预测有机分子的积极三维构象在计算机辅助药物发现研究中起着重要作用。然而,有效地探索高维构象空间以识别(元)稳定构象绝不是微不足道的。在这项工作中,我们介绍了RMCF,一种新的框架,通过从正则化分子构象场采样来生成多样化的低能分子构象。我们开发了一种数据驱动的分子分割算法,将每个分子自动划分为几个结构构件,以降低建模自由度。然后,我们利用马尔可夫随机场来学习碎片构型和碎片间二面角的联合概率分布,这使我们能够从构象空间的不同低能区域进行采样。

本文的创新与贡献:

  • 本文提出了一种正则化分子构象场的方法,能够从低维输入特征中预测有机分子的三维构象。相较于传统的手工特征提取方法,该方法不需要专业领域知识和人工干预,也能够处理高维度和非线性的输入数据。

  • 本文还提出了一种基于双层编程的构象生成模型,并通过对比实验验证了其在构象生成领域的优越性能。

  • 本文提出的模型可为药物分子设计等领域提供更加准确和高效的工具和方法。

方法介绍

本文提出了一种正则化分子构象场(Regularized Molecular Conformation Fields,RMCF)模型,用于预测有机分子的三维构象。具体来说,RMCF 模型主要由三个步骤组成:

  • 从分子图构建正则化的分子构象空间。在构建分子图方面,采用了分子指纹编码(BRICS)算法,同时对环和侧链进行了切割,防止可能的组合爆炸。具体而言,RMCF 模型通过建立一个分子构象分布,在正则化分子构象空间上进行采样,从而获得多样性的构象样本。

26ddb4023e43260d08578710c5d3c96c.png

图1:乙烷分子的势能示意图。上图显示了三个简并重叠构象的纽曼投影,下图显示了两个能量有利的交错构象。H-C-C-H二面角足以描述势能的变化

  • 预测分子的二面角和片段构象。在预测分子的二面角和片段构象时,RMCF 模型使用了分层嵌套网络(GNN),将分子图的节点和边分别进行训练。最后,根据预测结果,将分子构建出来。

3791f5525519e03196da5add573412d3.png

图2:RMCF的工作流程从二维分子图开始,我们将分子划分为片段内自由度最小的片段。蓝色和红色圆圈分别表示碎片和二面角构型,而黑色方块表示相邻构型之间的相互作用。然后,我们使用MRF来模拟碎片和二面体构型的联合概率分布。最后一步是根据预测的二面角和片段构象组装预测的分子构象。

  • 根据预测结果生成分子构象。

实验介绍

数据集:本文使用了两个数据集,一个是QM9,另一个是GEOM-Drugs。其中QM9数据集包含133,885个分子,每个分子都包含了基本的量子力学信息,如化学成分,原子坐标,电子能量等。而GEOM-Drugs数据集则包含了一系列高质量的有机分子构象。实验中,我们采用了GeoDiff论文中的测试集,并按照9:1的比例划分训练集和验证集。最终数据集中,训练集包含271,539个分子,验证集包含30,171个分子,测试集包含1,034个分子。在对GEOM-Drugs数据集进行分子分割后,我们获得了9,081种二维碎片和30,408种三维碎片。对于二面角角度的离散化,我们将360度的区间均匀划分为72个区间。实验采用了信息传递神经网络(Message-Passing Neural Network,MPNN)作为实现图神经网络的框架。

实验过程:本文实验过程分为三个主要步骤。第一步是构造分子图,采用了最少自由度原则,即对于分子的每个部分选择一个旋转角度来代替其所有自由度,并且使用BRICS算法构造分子的化学结构。第二步是预测分子的二面角度,我们采用了一个基于图神经网络和循环神经网络的模型来预测分子的二面角度值。第三步是装配预测的分子构象,根据预测的二面角度和片段构象来组装原子坐标。我们在多个基准数据集上对我们的模型进行了评估,并且取得了竞争性的结果。我们公开发布了我们的代码和模型以及在我们数据集上的预处理结果。

实验结果:本文的实验结果表明,所提出的正则化分子构象场模型(Regularized Molecular Conformation Fields)能够在有限的样本量下,实现高效、准确地预测有机分子的三维构象。具体来说,在多个数据集上进行的实验表明,该模型在预测分子构象时能够显著优于多个现有模型,且其结果具有较好的可解释性。此外,作者还研究了模型表现的上限和下限,并发现使用分子片段作为构象生成的基本单元,极大地简化了模型,避免了需要生成大量无用的变量。总之,该实验结果验证了所提出模型的可行性和有效性。

a2c8fa0a8be14dfd4b89ff7bc0528c58.png

表1:未进行FF优化的GEOM - Drugs数据集的结果

2a9ca83e2b7efd712befabbbbb5fe78a.png

表2:GEOM - Drugs数据集上RMCF性能的经验上界和下界

1cf734df031372ca07c36996bfa48c7c.png

图3:前三个生成的两个例子分子的构象。上面的面板显示了3D原子排列,其中非刚性片段对齐以帮助可视化。下方面板显示了每个分子的分割位置,如剪刀所示。

结论

我们介绍了RMCF,一种新的三维分子构象生成框架。我们的模型是物理驱动的,其中心思想是有效地模拟在减少的构象空间中控制动力学模式的联合概率分布,以实现能量上有利的构象生成。实验结果表明,RMCF在GEOM - Drugs数据集上优于最先进的模型,可以预测位于相应分子势能表面不同局部极小值的不同构象集。我们的方法可以自然地扩展到更大的生物分子系统,例如蛋白质,其构象预测是生物研究界的一个重要主题。

参考资料

Wang, Lihao, Yi Zhou, Yiqun Wang, Xiaoqing Zheng, Xuanjing Huang, and Hao Zhou. "Regularized Molecular Conformation Fields." Advances in Neural Information Processing Systems 35 (2022): 18929-18941.

代码

https://github.com/leowang1217/RMCF

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/504474.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么聊天机器人界面不是未来

​ 0-1之间有无限多种状态 比如:0 按时上下班,用固定时间长度获取价值1 创业,用非线性时间,获取真实价值0-1 之间有无限多种状态 shadow ChatBot目前的交互界面有非常多值得被改进的体验机会。最近看到一篇非常有启发性的文章&…

【JY】浅析基于性能的抗震分析方法——性能设计

【写在前文】 在阅读此文前,可先看下以下文章: 【JY】基于性能的抗震设计(一) 【JY】基于性能的抗震设计(二) 【JY|理念】结构概念设计之(设计理念进展) 【性能设计】 建筑结构通常使用弹性分析进行抗震设计…

ProbTransformer:应对RNA折叠等自然过程数据模糊的神秘力量

编译 | 于洲‍ 今天我们介绍来自德国弗赖堡大学计算机科学系的Jrg K.H. Franke, Frederic Runge以及Frank Hutter发表在NeurIPS 2022会议上的工作,该文章介绍了一种新颖的基于概率的神经网络架构ProbTransformer,它是Transformer生态系统的一种层级增强&…

wangzherongyao PMO

感谢【五一节】大家的相遇,总结下。 2023年05月02日,【第一组】组队开黑 我总结了下这天为什么打的那么好,首先赛季初段位在王者附近,大家心态重视程度也高,不轻敌,也不盲目,运营好兵线一步一步…

springboot2集成knife4j(swagger3)

springboot2集成knife4j(swagger3) springboot2集成knife4j(swagger3) 环境说明集成knife4j 第一步:引入依赖第二步:编写配置类第三步:放行相关资源 & 保证启动了knife4j第四步&#xff1a…

Lecture 14:Life-long Learning

目录 Catastrophic Forgetting 灾难性遗忘(Catastrophic Forgetting)的克服之道 Selective Synaptic Plasticity Additional Neural Resource Allocation Memory Reply 其他 Catastrophic Forgetting ——为什么今日的人工智慧无法成为天网?灾难性遗忘 Life…

将ssh发布密钥添加到服务器的ssh授权密钥中,但是为什么我仍然无法ssh登录到此服务器?

我已经将ssh发布密钥添加到服务器的ssh授权密钥中,但是为什么我仍然无法ssh登录到此服务器? 即使将ssh公钥添加到服务器的授权密钥中,您也可能无法通过SSH登录到服务器,这有几个原因: 1.服务器的authorized_keys文件的权限不正确…

DAY 56 MySQL数据库的索引

索引的概念 索引是一个排序的列表,在这个列表中存储着索引的值和包含这个值的数据所在行的物理地址(类似于c语言的链表通过指针指向数据记录的内存地址)。 使用索引后可以不用扫描全表来定位某行的数据,而是先通过索引表找到该行…

专业的媒体邀约服务

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 媒体邀约是什么?专业的媒体邀约服务包含哪些内容?怎么选择合适的媒体邀约服务机构? 今天胡老师就跟大家分享下这方面你的经验。 一,媒体邀约…

【Java入门合集】第四章继承(三)

【Java入门合集】第四章继承(三) 博主:命运之光专栏:JAVA入门 学习目标 1.掌握继承性的主要作用、实现、使用限制; 2.掌握this和super的含义及其用法; 3.掌握方法覆写的操作; 4.掌握final关键字…

【Spring MVC】Web程序开发

文章目录 1. 什么是Spring MVC?2. 如何创建Spring MVC项目?3. 简单示例演示4. 路由接口映射4.1 RequestMapping4.2 GetMapping和PostMapping 5. 获取参数5.1 获取单个参数5.2 获取多个参数5.3 获取对象5.4 RequestParam参数重命名5.5 ResquestBody接收JS…

告别PPT手残党!这6款AI神器,让你秒变PPT王者!

如果你是一个PPT手残党,每每制作PPT总是让你焦头烂额,那么你一定需要这篇幽默拉风的推广文案! 我向你保证,这篇文案将帮助你发现6款AI自动生成PPT的神器,让你告别PPT手残党的身份,成为一名PPT王者。 无论…

GoogleOptions命令行参数解析工具

GoogleOptions命令行参数解析工具 GoogleOptions GoogleOptions GoogleOptions是来自 Bazel Project 的命令行参数解析器。将 com.google.devtools.common.options 包拆分为一个单独的 jar&#xff0c;用于通用实用程序。 环境搭建: 引入maven依赖 <dependency><gr…

如何在Windows 10上使用Kali Linux应用程序

Linux操作系统在一些企业中越来越受欢迎。有许多发行版&#xff0c;包括Mint、Ubuntu和Kali。Kali是最著名的Linux发行版之一&#xff0c;渗透测试人员通常使用它。Kali Linux配备了一系列免费的开源软件&#xff0c;成为渗透测试的理想选择。目前&#xff0c;安全专家和渗透测…

【Vue】学习笔记-CLI Todo-List案例

学习笔记-CLI Todo-List案例 Todo-List案例src/App.vuesrc/components/MyHeader.vuesrc/components/MyList.vuesrc/components/MyItem.vuesrc/components/MyFooter.vue Todo-List案例 组件化编码流程 拆分静态组件&#xff1a;组件要按照功能点拆分&#xff0c;命名不要与html…

VSCode 开发flutter 实现设备远程调试

目前只找到了安卓的调试方案&#x1f62c;。 安卓端&#xff1a; 1首先安装 ADB Commanads for VSCode扩展 并且必须确保ADB已经添加到系统环境变量中 如未添加请按照下面的方式添加&#xff0c;如添加请直接跳到下面。 2添加环境变量&#xff08;windows可参考&#xff0c…

【Java系列】深入解析Java多线程

序言 你只管努力&#xff0c;其他交给时间&#xff0c;时间会证明一切。 文章标记颜色说明&#xff1a; 黄色&#xff1a;重要标题红色&#xff1a;用来标记结论绿色&#xff1a;用来标记一级重要蓝色&#xff1a;用来标记二级重要 希望这篇文章能让你不仅有一定的收获&#xf…

sqli-labs通关(十七)

第十七关 这一关跟前面的关卡都不一样&#xff0c;是全新的关卡&#xff0c;页面是一个密码重置页面&#xff0c;需要输入用户名&#xff0c;然后输入新的密码&#xff0c;就会把我们的旧密码替换掉。所以就会用到数据库的update更新数据&#xff0c;不再是前面的查询数据&…

327页16万字市智慧人社项目建设方案(word可编辑)

本资料来源公开网络&#xff0c;仅供个人学习&#xff0c;请勿商用&#xff0c;如有侵权请联系删除 第 1 章 项目建设总体框架设计 1.1 系统总体架构设计 市智慧人社项目从总体逻辑上可分为信息访问层、门户层、应用服务层、应用支撑层、数据资源层和基础设施层等六个层次&a…

华三(H3C)新服务器安装Windows server系统后插拔网线没有反应,华三R4900 G3服务器安装网卡驱动和芯片驱动

官网&#xff08;根据自己的服务器下载驱动&#xff09;&#xff1a;​​​​​​https://www.h3c.com/cn/BizPortal/DownLoadAccessory/DownLoadAccessoryFilt.aspx 在服务器没有光盘槽和U盘不被服务识别的时候的时候&#xff0c;服务器通过在管理口中的KVM控制&#xff0c;进…