Nat. Commun. | 无需参数的几何深度学习,可准确预测蛋白质结合界面

news2024/11/17 2:28:39

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自Matteo Dal Peraro团队的一篇关于预测蛋白质结合的论文。蛋白质是生命的重要分子组成部分,由于其特定的分子相互作用而负责大多数生物功能。然而,预测它们的结合界面仍然是一个挑战。作者提出了一种几何变换模型PeSTo,作用于仅标有元素名称的原子坐标上。此模型可精确预测蛋白质-蛋白质界面,超越了当前最好的相关模型,并且还可以高度自信地预测和区分涉及核酸、脂质、离子和小分子的界面。其低廉的计算成本使得可以处理大量结构数据,如分子动力学集合,从而可以发现静态实验解决的结构中未被注意到的界面。

7f9dcf7975a51d7639f859131f477547.png

分子界面在生物学中是无处不在的,除了它们在建立细胞边界和细胞内组织方面起着核心作用外,在蛋白质周围尤其重要,蛋白质通过与其他蛋白质以及核酸、膜以及各种分子和离子相互作用来执行其功能。预测给定蛋白质可以与其他分子建立的相互作用仍然是生物学中的主要挑战。目前最先进的预测蛋白质相互作用的方法针对的是预测特定的相互作用残基/原子对,强烈依赖于残基-残基共同进化模式的分析,因此仅限于蛋白质-蛋白质相互作用,或仅预测蛋白质哪些区域容易相互作用。即使后者是一个较简单的问题,但仍远未解决,大多数方法主要是发现适用于与其他蛋白质相互作用的蛋白质界面,强调蛋白质表面的特征,在某些情况下也利用它们的序列特征。这些方法是极其耗时的,并且复杂化了其在蛋白质组学规模的高通量应用;此外,它们需要参数化,对3D结构或模型的细节和误差非常敏感。基于从头折叠蛋白质复合物的方法,同时发现相互作用界面和亚基构象,例如AlphaFold-multimer,仅限于蛋白质-蛋白质相互作用,比从结构预测相互作用界面要慢得多,并且受折叠是否成功影响。

为此,作者开发了一种基于旋转等变的transformer神经网络,直接作用于蛋白质原子,预测具有高置信度的相互作用界面,无需对物理系统参数化,运行速度足够快并可以处理大型结构数据集。作者基于这个transformer开发了PeSTo,一种蛋白质结合界面预测器。PeSTo被训练用于预测蛋白质-蛋白质相互作用界面,性能超过了目前的模型。由于该方法不依赖于任何显式的物理化学特征参数化,因此训练以预测其他类型的结合界面是很容易的。

模型(PeSTo)

82cfb194860f92b37e2ca1e912a1ddcc.png

PeSTo,一种无需参数的几何transformer,直接作用于蛋白质的原子上。如上图所示,蛋白质结构被表示为以原子位置为中心的点云,并通过成对距离和相对位移向量描述其几何形状,以保证平移不变性。原子仅使用它们的元素名称和坐标,没有添加任何数值参数化,例如质量、半径、电荷或疏水性。每个原子都与一个编码结构属性的标量状态(q)和矢量状态(p)相关联。作者定义了一个几何transformer操作作用于这些点云,如上图a所示。所有最近邻(nn)的原子之间的相互作用都使用几何形状(即距离和位移向量)和涉及的原子对的状态进行编码。最后,模型利用多头注意力层解码和调节信息的传播。几何transformer操作具有平移不变性、旋转等变性和原子顺序和相互作用顺序的独立性。为了保持向量状态的旋转等变性,几何transformer线性组合来自局部几何和局部状态向量的缩放向量,以基于局部上下文动态传播向量状态信息。注意力操作允许动态数量的最近邻。在实践中,具有固定数量的最近邻比动态操作要高得多的计算效率。与在图像上应用卷积操作的方式相同,链接transformer可以在比单个操作的局部上下文更长的范围内传播信息。因此,模型主要架构基于自下而上的方法,从8个最近邻(≈3.4 Å半径)的小范围上下文开始,一直到64个最近邻(≈8.2 Å半径)的长程相互作用(上图b)。上下文的大小逐渐增加,使模型能够逐步包含更多信息,同时对于深层模型而言,在计算需求和内存方面更便宜。几何变换器之间的残差连接使得可以训练更深的神经网络架构。两个额外的模块在残基水平上独立地汇总基于原子的几何描述,而不考虑残基内的原子数量,并预测每个氨基酸是否处于相互作用界面上(上图c)。

蛋白质-蛋白质结合界面预测

d2cafb7c9f6a0919af6a6b47fbab0ce4.png

作者使用超过30万个来自PDB的蛋白质进行训练。PeSTo的输出值范围从0到1,用于预测哪些残基参与蛋白质-蛋白质界面的形成,值为0表示残基不参与交互,值为1表示残基在界面上(上图a)。文章首先与最近的类似方法ScanNet进行了性能比较,结果表明在一个共有417个蛋白质结构的基准数据集上,PeSTo在无多序列比对的情况下表现优于ScanNet,ROC曲线下面积为0.93比0.87。PeSTo的速度也比ScanNet快两个数量级。此外,PeSTo还在MaSIF-site等其他算法的基准数据集上表现出色,ROC曲线下面积为0.92,预测的界面优于其他算法的预测结果。这些结果表明PeSTo是一种高效而准确的蛋白质-蛋白质界面预测方法。重要的是,该模型所需的运行时间短,能够高效地评估从分子动力学(MD)模拟中提取的大型结构集合中的快照。作者将PeSTo应用于从PPDB5中选择的20个二元复合物的实验推导未绑定和绑定亚单位的1微秒原子级MD模拟的构象进行蛋白质-蛋白质界面预测(上图c)。绑定和未绑定结构以及MD采样构象的中位数ROC AUC分别为0.85、0.82和0.79。

一般蛋白质结合界面预测

鉴于蛋白质-蛋白质相互作用预测的结果,作者扩展了模型以发现和识别更多类型的界面,从而得到了一个通用的PeSTo模型,可以预测蛋白质与其他蛋白质以及核酸、离子、配体和脂质之间的相互作用界面。作者使用包含各种预期相互作用类型的PDB结构训练了一个通用的PeSTo模型。蛋白质-核酸界面的界面预测几乎与蛋白质-蛋白质界面一样好,在测试集上达到了ROC AUC为0.89。该通用模型还可以检测离子、配体和脂质界面,它们在各自的测试集上的ROC AUC分别为0.87、0.86和0.77。在蛋白质-脂质预测方面的较差表现取决于PDB中蛋白质-脂质复合物的数量相对较少(仅占可用数据的0.7%)。作者随后重新处理数据,在训练、验证和测试集之间保持最大化5%的序列同源性而不是30%,然后重新训练模型,作者发现平均ROC AUC内稳定地+-1%,证实了PeSTo在同源性降低方面的稳定性。

预测人类蛋白质组的结合界面的高通量研究

4b019833ea510c6e72996d85f699da69.png

作者研究整个人类蛋白质组,并分析所有潜在的蛋白质界面,这些界面可以与其他蛋白质、核酸、脂质、配体和离子结合。为此,作者获取了AlphaFold-European Bioinformatics Institute(AF-EBI)数据库19,41中所有人类蛋白质的结构和模型,基于它们的pLDDT和PAE分数选择了7464个高质量模型进行进一步分析。模型界面预测的质量非常高,将预测的界面映射到UniProt注释的特征表明,它们与预期的结合界面的功能具有一致性,结果如上图a所示。值得注意的是,47%的UniProt注释的突变位点位于预测的界面中,其中28%对应致病的自然变异位点,14%对应良性自然变异位点,而在随机残基中处于界面内的基线为19%,如上图b所示。除此之外,在预测界面的大规模分析中,作者观察到某些界面类型之间强烈的分离性和部分界面类型之间的相当大的重叠性,如图c所示。前一种情况的例子是易于与蛋白质或离子/配体相互作用的蛋白质界面,它们高度分离。具有相当大重叠的界面对中,其中一个界面是与其他蛋白质相互作用,另一个界面与脂质相互作用,这可能指向可逆的蛋白质二聚体/寡聚体在膜上的存在。

结论

文章表明,通过蛋白质原子坐标的几何变换即可高精度地检测和分类蛋白质结合界面,超越了目前已知的预测能力,而无需显式地描述系统的物理和化学性质。所有这些都可以用较少的计算资源和非常快的速度来实现,可以分析大型结构集合,例如由分子动力学模拟产生的集合,这揭示了研究蛋白质相互作用网络的动态特征的机会。

参考资料

Krapp, L.F., Abriata, L.A., Cortés Rodriguez, F. et al. PeSTo: parameter-free geometric deep learning for accurate prediction of protein binding interfaces. Nat Commun 14, 2175 (2023). 

https://doi.org/10.1038/s41467-023-37701-8

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/504635.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【JS】1676- 重学 JavaScript API - Page Visibility API

在前端开发中,我们经常需要根据页面的可见性来控制资源的使用和提高页面的性能和响应速度。而 JavaScript 中的 Page Visibility API[1] 就提供了一种「检测页面是否可见」的方法。 本文将介绍 Page Visibility API 的概念、使用方法、兼容性和实际应用案例。 什么是…

【负载均衡式的在线oj(1.compile_runner_server模块)】

🎉实战项目:负载均衡式在线OJ 博主主页:桑榆非晚ᴷ 博主能力有限,如果有出错的地方希望大家不吝赐教 给自己打气:成功没有快车道,幸福没有高速路。所有的成功,都来自不倦地努力和奔跑&#xf…

并发编程07:CAS

文章目录 7.1 原子类7.2 没有CAS之前7.3 使用CAS之后7.4 是什么?7.5 CAS底层原理?谈谈对Unsafe类的理解?7.5.1 Unsafe7.5.2 源码分析7.5.3 底层汇编 7.6 原子引用7.7 CAS与自旋锁,借鉴CAS思想7.7.1 是什么?7.7.2 自己实…

K8S管理系统项目实战[API开发]-1

前端: Vueelement plus 后端: gogin kubernetes v1.24.2 golang v1.18.3 后端代码地址GitHub - yunixiangfeng/k8s-platform: K8s管理系统后端: gogin Go 快速入门 Gin Web框架 K8s管理系统项目实战[API开发] 项目背景,整体设计,Client-go&#x…

代码随想录算法训练营day34 | 1005.K次取反后最大化的数组和 ,134. 加油站,135. 分发糖果

代码随想录算法训练营day34 | 1005.K次取反后最大化的数组和 ,134. 加油站,135. 分发糖果 1005.K次取反后最大化的数组和解法一:两次正常排序解法二:一次排序 134. 加油站135. 分发糖果 1005.K次取反后最大化的数组和 教程视频&a…

生态系统服务(InVEST模型应用)

白老师(研究员):长期从事生态系统结构-格局-过程-功能-服务的变化与响应关系等研究工作;重点围绕生物多样性、生态系统服务与价值等,构建生物地球化学模型和评价指标体系,为城市、区域和自然保护区的可持续…

sqli-labs通关(二十三)

第二十三关 这一关是get类型 当输入?id1时,出现报错信息,是由单引号闭合的 但是输入?id1--的时候,还是报错,说明我们的注释符可能被过滤处理了 查看码源,确实是把注释符过滤了 那我们还是根据语句构造 ?id1 or 1…

本地使用3台centos7虚拟机搭建K8S集群教程

第一步 准备3台centos7虚拟机 3台虚拟机与主机的网络模式都是桥接的模式,也就是他们都是一台独立的“主机” (1)kebe-master的配置 虚拟机配置: 网络配置: (2)kebe-node1的配置 虚拟机配…

(二)用Qt实现登录界面——打造简洁、美观的登录体验

文章目录 一、引言1、什么是Qt框架,其主要特点是什么?2、Qt框架的应用范围,如何在不同的平台上开发应用程序?3、Qt框架的优点和劣势,与其他框架的比较。 二、相关技术1、socket编程 三、Qt框架的使用1、Qt框架的基本概…

数据库与身份认证

目录 1.数据库的基本概念 1.1什么是数据库 1.2常见的数据库及分类 1.3传统型数据库的数据组织结构 2.安装并配置MySQL 2.1了解需要安装哪些MySQL相关的软件 2.2 MySQL在 Windows 环境下的安装 3.MySQL的基本使用 3.1使用 MySQL Workbench 管理数据库 3.1.1连接数据库…

CSS 圆锥渐变+MASK遮罩实现WIFI图标

前言 👏CSS 圆锥渐变MASK遮罩实现WIFI图标,速速来Get吧~ 🥇文末分享源代码。记得点赞关注收藏! 1.实现效果 2.实现步骤 定义css变量–bg背景色,–dot弧宽度,–w父元素宽度,–gap&#xff0c…

docker安装elasticsearch

前言 安装es么,也没什么难的,主要网上搜一搜,看看文档,但是走过的坑还是需要记录一下的 主要参考这三份文档: Running the Elastic Stack on Docker docker简易搭建ElasticSearch集群 Running Kibana on Docker …

模型优化-剪枝 (一)非结构化剪枝

环境 python 3.9numpy 1.24.1pytorch 2.0.0+cu117非结构剪枝 特点 1.简单,将满足某些田间的 weight 置为0即可 2.pytorch容易访问所有参数(weight) 3.最精细化 类型 1.细粒度剪枝(fine-grained) …

数据库创建与管理

目录 一、创建数据库 1.准备创建数据库 2.创建数据库实例分析 方法一:使用对象资源或企业管理器创建数据库 方法二:使用Transact-SQL命令创建数据库 二、管理数据库 1.修改数据库 使用SQL命令修改数据库 2&…

珞珈一号夜间灯光数据处理流程

一、前言 “珞珈一号”卫星是长光卫星技术有限公司首次通过商业化订单为武汉大学研制的卫星,是全球首颗专业夜光遥感卫星,主要用于夜光遥感及导航增强技术验证。卫星整星重量仅为20kg,携带的大视场高灵敏夜光遥感相机,具备130m分辨率、260km幅宽的夜光成像能力,为基于夜光…

【全国大学生统计建模大赛】2023年统计建模大赛赛题解读

目录 关于中国式现代化统计测度的几点思考 (一)房祥忠教授——大局层面 一、现代化释义 二、现代化度量的单变量方法 2.1 单一变量情形 2.2 分组评分 三、现代化度量的多变量方法 3.1 问题 3.2 解决方法 四、现代化度量的理想化方法 4.1 问题 …

SSM整合详细教学(中)

SSM整合详细教学(中) 三、异常处理器问题导入1 异常介绍2 异常处理器2.2.1 编写异常处理器2.2.2 RestControllerAdvice注解介绍2.2.3 ExceptionHandler注解介绍 四、项目异常处理方案问题导入1 项目异常分类2 项目异常处理方案3 项目异常处理代码实现3.1…

zookeeper下载安装集群部署

文章目录 一、zookeeper官网下载二、JDK环境安装三、zookeeper安装1.zookeeper解压2.zookeeper配置文件介绍 克隆服务器1.网络检查2.集群配置3.启动集群 一、zookeeper官网下载 下载地址:https://archive.apache.org/dist/zookeeper/找到对应的版本下载 二、JDK环…

Python3.10动态修改Windows系统(win10/win11)本地IP地址(静态IP)

一般情况下,局域网里的终端比如本地服务器设置静态IP的好处是可以有效减少网络连接时间,原因是过程中省略了每次联网后从DHCP服务器获取IP地址的流程,缺点是容易引发IP地址的冲突,当然,还有操作层面的繁琐,…

SpringBoot ( 一 ) 搭建项目环境

1.搭建环境 1.1.创建项目向导 使用idea中的向导创建SpringBoot项目 1.1.1.建立新的项目 位置 : 菜单 > File > New > Project… 1.1.2.选择向导 默认的向导URL 是 https://start.spring.io 建议使用 https://start.aliyun.com 1.1.3.配置项目信息 Group : 组织…