Nat. Commun.2023 | AI-Bind+:提高蛋白质配体结合预测的通用性

news2024/11/24 3:32:23

论文标题:Improving the generalizability of protein-ligand binding predictions with AI-Bind

论文地址:Improving the generalizability of protein-ligand binding predictions with AI-Bind | Nature Communications

代码:

Barabasi-Lab/AI-Bind: Improving the generalizability of protein-ligand binding predictions with AI-Bind | Zenodo

一、问题

虽然分子动力学和对接模拟经常用于识别潜在的蛋白质-配体结合,但模拟的计算复杂性(即运行时间)和缺乏3D蛋白质结构极大地限制了大规模测试的覆盖范围和可行性。因此,人们提出了基于机器学习(ML)和人工智能(AI)的模型来规避现有方法的计算限制。

二元分类的成功训练需要正样本,即已知相互结合的蛋白质和配体对,通常从蛋白质-配体结合数据库中提取,如DrugBank, BindingDB, Tox21, ChEMBL或药物靶标共用(Drug Target Commons, DTC)。训练还需要负样本,即不相互作用或仅弱相互作用的成对。然而,与不同蛋白质和配体相关的正负样本分布不均,一些蛋白质和配体的正样本多于负样本。

ML模型从蛋白质-配体相互作用网络中节点的程度来学习结合模式,而忽略了相关的节点元数据,如配体的化学结构或蛋白质的氨基酸序列。当预测新的(即从未见过的)蛋白质靶点和配体之间的结合时,ML模型的性能会下降。

二部网络将结合信息表示为具有两种不同类型节点的图:一种对应于蛋白质(也称为靶标,例如代表人类或病毒蛋白质),另一种对应于配体(代表潜在的药物或天然化合物)。蛋白质-配体注释(protein-ligand annotation),在二部网络中被表示为蛋白质和配体之间的联系。

连接到蛋白质或配体的注释的数量遵循 fat-tailed分布,这表明绝大多数蛋白质和配体只有少量注释。

此外,通过对解离常数Kd等动力学常数施加阈值来确定正负注释。如果与蛋白质配体对相关的动力学常数小于设定的阈值,将该对视为正样品或结合样品;否则,这对将被标记为负的或非绑定的。Kd在记录中不是随机分布的,这种不平衡促使ML模型在进行结合预测时利用程度信息(正负注释),而不是从分子结构中学习结合模式。

为了研究拓扑捷径的出现,对于具有注释数量ki的每个节点i,通过度的量化可用训练信息的平衡:

由于大多数蛋白质和配体缺乏结合或非结合注释(表1),因此得到的{ρi}接近1或0,这些ρ值代表预测问题中的注释不平衡。

由于许多最先进的深度学习模型,如deepurpose,统一采样可用的正注释和负注释,它们将更高的结合概率分配给具有更高ρ的蛋白质和配体:

因此,interaction预测是由蛋白质-配体网络中的拓扑捷径驱动的,这与训练数据中存在的正注释和负注释相关,而不是表征蛋白质和配体的结构特征。

通过仅利用来自网络度序列的拓扑约束来预测结合的可能性。在配置模型(图3a,方法)中,观察到链路的概率仅由其末端节点的度决定。

在BindingDB的5倍交叉验证中,表现最好的DeepPurpose架构Transformer-CNN5达到AUROC of 0.86 (±0.005) and AUPRC of 0.64 (±0.009),仅依赖于Configuration Model的性能与深度学习模型一样好,证实了蛋白质-配体相互作用网络的拓扑结构驱动预测

测试了三种不同的场景:(i)看不见的边缘(转导测试),当测试数据集中的蛋白质和配体都存在于训练数据中;(ii)看不见的目标(半感应测试),当只有来自测试数据集的配体存在于训练数据中时;(iii)看不见的节点(归纳测试),当测试数据集中的蛋白质和配体在训练数据中都不存在时

发现deepurpose和配置模型在场景(i)和(ii)中都表现良好:

对于诱导测试场景(iii),当面对新的蛋白质和配体时,两者的性能都显着下降:

同时,随机洗牌了训练集中的化学SMILES和氨基酸序列,同时保持每个节点相同的正负注释,这一操作不会改变测试性能:

这些测试证实了deepurpose利用网络拓扑作为学习捷径,无法将预测推广到训练数据之外的蛋白质和配体。

二、模型方法(别人提出的基础模型)

1、Data preparation

基于动力学常数Ki、Kd、IC50和EC50,认为来自BindingDB和DTC的样品是结合的或非结合的。分别使用≤103 nM和≥106 nM的阈值来获得阳性和(绝对)阴性注释,

Positive samples.

认为DrugBank的binding信息是阳性样本。为了获得更多的药物阳性样本,使用InChIKeys在BindingDB中进行了搜索。从BindingDB中获得了4330个与DrugBank中的药物相关的结合注释。总体而言,共收集了28188份药物阳性样本。

Network-derived negative samples.

随机选择了间隔7 hops的蛋白质配体对的子集作为阴性样本,以在训练数据中的阳性和阴性样本之间建立总体类别平衡。对≥11跳的远距离配对进行了测试和验证。此外,通过对动力学常数(Ki、Kd、IC50和EC50)取阈值,在测试和验证中包括了从BindingDB导出的绝对非结合对。

2、Novel deep learning architectures

pipeline与各种神经架构兼容,这里提出三种: VecNet, Siamese和VAENet

VecNet.

VAENet.

将配体嵌入潜在空间。Morgan指纹被直接馈送到卷积层,通过最小化信息损失来创建潜在空间嵌入,同时从潜在表示重建分子。对ZINC数据库中的950万种化学物质以及结合数据集中的所有药物和天然化合物进行了可变自动编码器的训练。使用ProtVec进行target嵌入。

Siamese model.

使用一次性学习方法将配体和蛋白质嵌入同一空间。构建了蛋白质靶标、非结合配体、结合配体形式的三元组,并训练模型以找到一个嵌入空间,该嵌入空间最大化非结合对之间的Euclidean距离,同时最小化结合对的Euclidean距离。

三、AI-Bind and statistics across models

1、输入

配体:将同分异构体SMILES作为输入。考虑了一个由DrugBank中可用的所有药物分子和Natural compounds in Food Database (NCFD)中天然存在的化合物组成的搜索空间,并且可以通过利用更大的化学文库(如PubChem)进行扩展。

蛋白质:使用从蛋白质数据库protein Data Bank (PDB)、Universal protein knowledgebase (UniProt)和GeneCards中检索到的氨基酸序列作为输入。

2、模型获益点

(1)依赖于网络衍生的阴性来平衡每种蛋白质和配体的阳性和阴性样品的数量。具体而言,使用最短路径距离≥7的蛋白质-配体对作为负样本,确保神经网络同时观察到每种蛋白质和配体的结合和非结合示例。

(2)在无监督预训练期间,使用在更大的化学和蛋白质结构集合上训练的节点embedding,而不是已知结合注释的集合。允许AI-Bind学习更广泛的结构模式。事实上,像deepurpose这样的模型是在BindingDB中提供的862337个配体和7504种蛋白质上训练的,或者在DrugBank中提供的7307个配体和4762种蛋白质上训练的,而AI-Bind的VecNet中的无监督表示是在ZINC和ChEMBL数据库中的1990万种化合物上训练的,在Swiss-Prot中的546790种蛋白质上训练的。

3、系统性比较

比较AI-Bind与DeepPurpose的性能以及配置模型在5倍交叉验证上的性能:

配置模型在感应测试中表现不佳(AUROC为0.5,AUPRC为0.464±0.017)。由于网络衍生的负值消除了注释不平衡,DeepPurpose对新蛋白质和配体的识别性能有所提高(AUROC为0.646±0.023,AUPRC为0.576±0.009)。AI-Bind的VecNet在未见节点上表现最佳,AUROC为0.75±0.032,AUPRC为0.718±0.029。

数据集推广到天然存在的化合物,与药物相比具有复杂的化学结构和更少的训练注释:

除了deepurure, AI-Bind的VecNet与MolTrans (AUROC 0.612±0.028,AUPRC 0.478±0.034)相比,始终具有更好的性能(AUROC 0.75±0.032,AUPRC 0.718±0.029)

4、Validation of AI-Bind predictions on COVID-19 proteins

将预测与分子对接模拟、蛋白质-配体结合的体外和临床结果进行了比较。SARS-CoV-2病毒蛋白和332种SARS-CoV-2病毒蛋白靶向的人类蛋白作为验证集。这些蛋白质在AI-Bind的训练数据中缺失,因此代表新的靶标,并允许依靠最近了解的COVID-19知识来验证AI-Bind的预测。从UniProt中检索了16个SARS-CoV-2病毒蛋白和330个人蛋白的FASTA格式氨基酸序列,并将其作为AI-Bind的VecNet输入。

目标是预测药物库中的药物或天然存在的化合物,这些化合物可以结合与COVID-19相关的16种SARS-CoV-2或330种人类蛋白质中的任何一种,从而可能破坏病毒感染

在根据AI-Bind的VecNet (pVecNet ij)预测的结合概率对所有蛋白质配体对进行分类后,我们使用AutoDock Vina进行盲对接模拟,测试预测的前100个和后100个结合相互作用,该模拟通过考虑3D蛋白质结构上所有可能的结合位置来估计结合亲和力。

在前100对和后100对预测对中存在的54个蛋白质中,23个在PDB和UniProt中具有3D结构,59个相关配体结构中有51个在PubChem中可用,允许我们执行128个对接模拟(84个涉及顶部预测,44个涉及底部预测)。发现AI-Bind的84个预测中有74个确实是经过验证的绑定对。此外,发现VecNet预测的中位数结合亲和力为- 7.65 kcal mol-1,而底部的预测为- 3.0 kcal mol-1

第二个测试,使用- 1.75 kcal mol−1的结合亲和值和p上对应于归纳测试集上最高F1-Score的最佳阈值,从对接和AI-Bind预测中获得二元标签(结合或非结合)。在推导的混淆矩阵中,观察到sensitivity= 0.76,代表AI-Bind做出的结合预测中真正结合的部分,即true positive /(true positive + False Negatives)的比率,F1-Score = 0.82。这证实,与随机选择相比,AI-Bind预测提供的rank表与binding affinities获得的rank表具有显著的相似性:

进一步通过在5折设置中随机选择20对蛋白质配体对来检验这些性能指标的稳定性,观察F1-Score = 0.90±0.02。此外,发现AI-Bind的VecNet 预测和对接得到的蛋白-配体结合自由能(ΔG)与rspearman呈反相关,ΔG = -0.51。由于较低的绑定亲和值对应于较强的绑定,这些结果证明了AI-Bind预测和对接模拟之间的一致性。在50个平均结合概率最高的配体中,发现了两种fda批准的药物Anidulafungin (NDA#021948)和Cyclosporine (ANDA#065017)

AI-Bind还提供了几种具有潜在治疗意义的新预测。例如,它预测天然存在的化合物Spironolactone, Oleanolic acid, and Echinocystic acid是COVID-19蛋白的潜在配体,这三种配体都与含有三方基元的蛋白(Trim)结合,后者是SARS-CoV-2病毒蛋白开放阅读框3a (Orf3a)和非结构蛋白9 (Nsp9)结合的人类蛋白。AutoDock Vina支持这些预测。

5、Identifying active binding sites

除了预测结合概率,AI-Bind还可以用于识别氨基酸序列上可能的活性结合位点,即使没有三维蛋白质结构。具体来说,可以用来确定氨基酸序列中哪些氨基酸三元组在结合预测中发挥最重要的作用指示潜在的蛋白质-配体结合位置。通过扰动了序列中的每个氨基酸三元组,并观察了AI-Bind预测的变化,获得的结合概率曲线中的Valleys 值代表了氨基酸序列上最能预测结合位置的三元组。为了验证AI-Bind预测的结合位点,重点研究了人类蛋白质Trim59,已经从多次对接模拟中获得了这种蛋白质的结果。使用PyMOL50可视化了Trim59上的结合口袋,并鉴定了与配体分子结合的氨基酸残基:

发现负责结合的氨基酸残基直接映射到AI-Bind识别的结合概率分布中的Valleys。通过查看Pipecuronium、Buprenorphine和Voclosporin这三种与Trim59上三个不同口袋结合的配体的对接结果,在结合概率分布图上标记了与各自结合位点对应的谷。例如,Pipecuronium结合的口袋1对应于AI-Bind预测的5个谷,标记为1A、1B、1C、1D和1E。

附模拟过程:File preparation for docking simulations.

对AI-Bind预测的前100和后100中128种蛋白质-配体相互作用使用AutoDock Vina对接模拟:

(1)从PubChem获取SDF格式的3D配体结构,并使用PyMOL将其保存为.pdb格式。pdb格式的3D蛋白质结构,去除水分子,添加所有氢原子,并将Kollman电荷添加到蛋白质中。(2)创建包含整个蛋白质结构的对接网格。这种网格选择确保了blind对接设置,以便考虑蛋白质上的所有位置来确定结合亲和力。(3)为每个蛋白质创建包含网格细节的配置文件,并启动对接模拟。作者认为蛋白质分子是刚性的(rigid),而配体分子是柔性的,也就是说,允许配体有可旋转的键。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/964221.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 基础篇

很长时间,因为一些事情,没有更新我的文章这让我很惭愧,于是我将打算在今天更新下自己的文章,我发现一些事情,计算机并不是很难学到可以工作的水平,关键在于是否可以坚持下来,有很多时候我并不是…

TypeScript学习 + 贪吃蛇项目

TypeSCript简介 TypeScript是JavaScript的超集。它对JS进行了扩展,向JS中引入了类型的概念,并添加了许多新的特性。TS代码需要通过编译器编译为JS,然后再交由JS解析器执行。TS完全兼容JS,换言之,任何的JS代码都可以直…

文心一言 VS 讯飞星火 VS chatgpt (85)-- 算法导论8.2 2题

二、用go语言,试证明 COUNTING-SORT 是稳定的。 文心一言: 要证明 COUNTING-SORT 是稳定的,我们需要证明在排序过程中,具有相同值的元素在排序后仍保持其原始的相对顺序。COUNTING-SORT 是一种基于计数的排序算法,其…

生成式人工智能可以比你想象的更快地改变医疗保健行业

作者:Andres Herrera 医疗保健组织可以利用其私有数据、生成式人工智能和 Elasticsearch 实现这六项进步。 生成式人工智能是一股突破性的力量,正在席卷医疗保健行业,有望以人们从未见过的方式带来变革性的进步和个性化的患者护理。 从在症状…

算法通关村——滑动窗口高频问题

1. 无重复字符的最长子串 给定一个字符串 s ,请你找出其中不含有重复字符的 最长子串 的长度。 示例 1: 输入: s “abcabcbb” 输出: 3 解释: 因为无重复字符的最长子串是 “abc”,所以其长度为 3。 1.1 滑动窗口 找到最长字串需要找到字串的首尾位置…

项目(二):智慧教室

一。emWin环境的搭建 1.codeBlock下载 开源免费。 2.使用stm的Cubemx提供的作图软件 (1)在C盘下找到第三方的固件库,旁边有个ST文件夹 注意:我在下载cubemx为默认的路径 (2)STemWin中的Soft提供了绘图…

推荐系统(概要+召回)

推荐系统 一、概要 1.基本概念 用户行为:点击、点赞、收藏、转发消费指标:点击率 (click rate)、交互率 (engagement rate)北极星指标:用户规模、消费、发布实验流程:离线实验、AB测试、推全 2.推荐系统的链路 召回&#xff…

使用DOSBOX运行TurboC2,TC2使用graphics库绘图

Turbo C是由美国Borland公司开发的一套C语言程序开发工具,Borland公司是一家专门从事软件开发、研制的大公司。该公司相继推出了一套Turbo系列软件,如Turbo BASIC、Turbo Pascal、Turbo Prolog,这些软件很受用户欢迎 [1] 。 Turbo C集成了程序…

【rust/egui】(七)看看template的app.rs:Slider

说在前面 rust新手,egui没啥找到啥教程,这里自己记录下学习过程环境:windows11 22H2rust版本:rustc 1.71.1egui版本:0.22.0eframe版本:0.22.0上一篇:这里 Slider 滑块,如下图 定义…

【01背包理论】01背包问题dp[i][j] <动态规划>

【01背包理论】01背包问题 dp[i][j] 有 n 件物品和一个最多能背重量为 w 的背包。 第 i 件物品的重量是 weight[i],得到的价值是 value[i] 。 每件物品只有一个,求解将哪些物品装入背包里物品价值总和最大。 题解 动态规划 确定 dp 数组以及下标的含义…

分布式配置中心 Apollo

文章目录 类似Lion一、Apollo客户端实现原理二、配置更新实现三、架构四大板块 :三个辅助服务发现模块Why Eureka 类似Lion 一、Apollo客户端实现原理 1、客户端和服务端会保持一个长连接,从而第一时间获取配置更新的推送。 2、客户端还会定时从Apollo配…

#FTHR-G0001开发板开箱测评#

最近看到芯查查有这个活动,就申请了这个开发板体验一下,没想到一申请就成功了,哈哈,人人都是天选之子了属于是,下面记录一下使用过程。 1、首先是外观部分 外观板子比较小巧的样子,下面放图,基…

BW常见操作及问题处理(适合小白)

1、如何跑BW处理链 ?TCODE: RSA1 选中要运行的处理链。点击运行就可以。 2、如何改变处理链的运行时间节点与频率。(这是SAP运行后台job的知识点) 选中释放那个条目在选择 菜单 -> 作业-> 修改 点击开始条件 然后就可以修改…

QChart绘制柱状图并修改单个柱状条的颜色

文章目录 前言Qt Chart修改单个柱状图的颜色柱状堆积图利用柱状堆积图实现修改单个柱状条的颜色总结 前言 Qt Charts是Qt官方提供的一个模块,用于在Qt应用程序中创建各种图表和数据可视化。它提供了一组用于绘制和展示统计数据、趋势分析、实时数据等的类和函数。 …

前端Vue仿企查查 天眼查知识产权标准信息列表组件

引入Vue仿企查查天眼查知识产权标准信息列表组件 随着技术的不断发展,传统的开发方式使得系统的复杂度越来越高。在传统开发过程中,一个小小的改动或者一个小功能的增加可能会导致整体逻辑的修改,造成牵一发而动全身的情况。为了解决这个问题…

京东API接口解析,实现获得JD商品评论

要获取京东商品评论,需要使用京东的开放平台API接口。以下是一个基本的示例,解析并实现获取JD商品评论的API接口。 首先,你需要访问京东开放平台并注册一个开发者账号。注册完成后,你需要创建一个应用并获取到API的权限。 在获取…

Jenkins清理构建(自动)

需求背景实现方法 Dashboard-->Project-->配置-->General-->Discard old builds # 注意:自动清理构建历史将在下次构建时进行

JAVA宝典----容器(理解记忆)

目录 一、Java Collections框架是什么? 二、什么是迭代器? 三、Iterator与ListIterator有什么区别? 四、ArrayList、Vector和LinkedList有什么区别? 五、HashMap、Hashtable、TreeMap和WeakHashMap有哪些区别? 六…

光伏太阳花

家庭用电只是电力消费的一部分。工厂里,生产设备的开动离不开电力,生产要持续就不能断电,没有生产也就没有我们生活中的消费品,超市的货架上将空荡荡的,我们生活的世界也就崩溃了。可见,电对我们来说是无论…

Mysql 性能分析 explain、Describe

通常 多表查询 比 子查询效率更高一些, 数据搜索引擎 如果子查询能转换城成多表查询,会自动转换。 explain 、describe 语法结构 explain select_options | update_options | insert_options | replace_options 或 describe select_options | update…