PocketMiner:基于深度学习发现蛋白的隐式口袋

news2025/1/18 19:02:43

文章目录

  • 1. 文章简介
  • 2. 前言
  • 3. 方法
    • 3.1 模型框架
  • 4. 结果
    • 4.1 已知隐式口袋在分子动力学模拟分析迅速打开
    • 4.2 图神经网络模型能够准确预测模拟中口袋的动态变化
    • 4.3 隐式口袋数据集数据集揭示了新的隐式口袋形成的模式
    • 4.4 PocketMiner能够从无配体的蛋白结构中精准预测预测口袋
    • 4.5 PocketMiner预测了人类蛋白组中的数千个隐式口袋。
  • 总结


1. 文章简介

标题:Predicting locations of cryptic pockets from single protein structures using the PocketMiner graph neural network
期刊: Nature communictions
团队:华盛顿大学生物化学与分子生物物理系
DOI:https://doi.org/10.1038/s41467-023-36699-3
在这里插入图片描述

2. 前言

靶点的成药口袋是药物研发的起点,而除了在自然状态下显而易见的”显式口袋“外。还存在一类由于蛋白结构的动态变化而形成的"隐式口袋"。靶向隐式口袋提供了新的药物研发可能,比如说:

  1. 目前因在基本态结构中缺乏口袋而被认为”不可成药“的蛋白,可能经由隐式口袋进行靶向。
  2. 靶向隐式口袋的分子同样能够通过抑制或者激活调控蛋白的功能
  3. 显式位点的口袋往往高度保守,并出现在多类蛋白中。因此相较于靶向显示口袋的分子,靶向隐式口袋的分子具有更高的特异性。
    在这里插入图片描述

虽然隐式口袋是诱人的的药物靶标,但定位和靶向他们仍然非常具有挑战性,大多数已知的隐式口袋的发现都是通过筛选或者优化命中化合物的时候偶然发现。此外,动力学模拟通过计算模拟了蛋白质在溶液中动态结构变化,并提供了蛋白结构的集合,这些结构中所揭露隐式口袋可以作为药物设计的模版。但动力学模拟所需要的计算资源较高,使得其难与用于大规模的隐式口袋筛选。

因此本篇文章提出训练了一个图模型PocketMiner用于预测蛋白中哪一块区域有可能在分子动力学模拟过程中打开,从而形成隐式口袋。


3. 方法

3.1 模型框架

在这里插入图片描述
模型框架采用的是GVP-GNN。相较于传统的GNN,其创新点就是加入了如下图所示的GVP模块:
在这里插入图片描述
GVP的输入包含标量s和向量V,首先对向量V做了一个线性变换得到Vh,之后对Vh进行L2正则化并将之与s拼接到一起。从而使得向量信息和标量信息之间形成一个信息交互。

有兴趣的可以去看看原文:https://arxiv.org/abs/2009.01411

4. 结果

4.1 已知隐式口袋在分子动力学模拟分析迅速打开

对16个已知具有隐式口袋的蛋白进行了动力学模拟,首先每个蛋白口袋进行了10次并行40ns模拟,并基于Fast算法对模拟轨迹进行聚类,取所有轨迹的聚类中心作为下一次模拟的起始构像,并再进行10次并行的40ns模拟。上述过程一共循环了5次,基于LIGSITE计算口袋的体积,如果大于或等于结合态的口袋体积即认为口袋已打开,具备了容纳配体的能力。以下是模拟的结果:
在这里插入图片描述

  • A和B图是一个简单的case展示,可以看到相对于apo态,隐式口袋的体积在经过模拟之后明显扩张了。

  • 图C展示的是GluR2蛋白体系在模拟过程中的隐式口袋体积大小分布情况,横坐标是迭代的次数,纵坐标是口袋体积,结果显示在第一次的迭代后,隐式口袋就已打开。

  • D图是多个蛋白体系的C图的集合,橙色的小提琴图代表的是第一次迭代后的口袋体积,而白色则代表的5次迭代后的口袋体积。横坐标代表的与Holo态相比的口袋倍数。即大于等于1就可以认为隐式口袋已打开。可以看到在15个蛋白体系中(有一个蛋白体系中的口袋在apo情况下比holo态还大,舍弃掉了),有13个体系在第一次迭代口袋就已经打开。另外的两个体系中国中AMPA在第五次迭代中口袋打开了,只有Niemann-PickC2
    Protein体系的口袋一直没打开。

总而言之,对于大多数较小的蛋白质,只要有短暂的模拟就可能足以发现隐蔽的口袋。
这一发现表明,识别APO态上隐式口袋的任务可以简化为训练一个模型去预测在短暂的分子动力学模拟时间窗口内(如40ns),口袋能否能够形成。

4.2 图神经网络模型能够准确预测模拟中口袋的动态变化

模型的训练数据集一共包含37个蛋白。其中16个蛋白是来自上一节种所整理的数据;其余蛋白来自课题组之前关于隐式口袋的动力学模拟数据,包括15个SARS相关蛋白和6个Ebolavirus VP35蛋白。和上一节一样,这些动力学模拟的数据全部由40ns的片段组合而成,一共2400个40ns的片段。从中提取了每个片段的初始构象,共941550个氨基酸标注数据用于模型的训练。
在这里插入图片描述
图A展示的是数据标注的方式。训练的标签为氨基酸是否能够在接下来40ns的动力学模拟任意时刻中参与形成隐式口袋的2进制标签。判断的标准基于ligsite计算每个氨基酸周围5A的网格点参与组成的口袋相对于apo状态的体积变化大于或等于40 A 3 A^3 A3d。

图B和图C展示的是,模型训练采用的五折交叉验证(基于37个蛋白而非MD轨迹)中的最优模型的PR曲线和AUC曲线。可以看到GVP-GNN模型要强于3D-CNN模型,且AUC达到了0.83。这些结果说明,当给定蛋白质的天然折叠状态结构时,无需计算中间状体(例如,使用MD模拟)也可以识别分子动力学模拟中隐式口袋形成的位点

4.3 隐式口袋数据集数据集揭示了新的隐式口袋形成的模式

从PDB数据库和已公布的数据集中提取了38个apo-holo蛋白结构对,包含39个隐式口袋。通过检视这些蛋白结构对,作者发现许多隐式口袋的形成是通过closing motion形成的,而非openning motion。closing motion的蛋白结构在apo态下相隔甚远,因此在apo态下几乎没有口袋,而在holo态下蛋白结构聚拢而成壁(wall)或盖子(lid),从而形成了一个可以供配体结合的空腔 (图D)。作者将这样的口袋命名为“reverse”口袋, 大多数的隐式口袋都由单一的motion形成。而在forward和reverse的口袋中,总共观察到了4种常见的结构重排,如下图所示:
在这里插入图片描述
图A,loops可以移开为进入的配体创造空间,或夹紧在配体上方形成壁(wall)或盖子(lid)
图B,二级结构可以发生偏移或者旋转
图C,二级结构和loops之间可以发生相互转换
图D,interdomain可以创造一个可供配体结合的空腔

4.4 PocketMiner能够从无配体的蛋白结构中精准预测预测口袋

鉴于GVP-GNN能够准确预测模拟中的结合口袋位置,作者接下来进一步研究了这种网络架构是否能够用于预测实验结构中的隐式口袋形成的位置。模型的训练数据就是第二节中的的37个蛋白的apo态,但这次除了ligsite的数据方法,还引入了fpocket的口袋成药性打分。最终的模型经由ligsite标注的数据训练了20个epoch,由经fpockt的标注的数据refine了一个epoch。

模型的测试集由三部分组成,首先是第三节中所获取的正集,以及中这样的高度刚性的蛋白(如下图1B),还有已经经过了大量实验的蛋白。作者认为如果一个蛋白已经有了大量的Holo态,那当这些Holo态聚合到一起时,没有ligand结合的区域就可以认为是无法形成隐式口袋的,可作为训练的负集使用(如下图2)。测试集之后又经历了两次过滤:

  1. 负集全部经由MD检验在40ns能不会参与形成口袋
  2. 所有测试集蛋白序列都与训练集中的蛋白序列做了序列比对,删除了一致性大于百分之55的蛋白结构。

最终测试集一共包含35个蛋白:23个能形成隐式口袋的正集,4个超刚性蛋白,以及7个经过了大量实验筛选的蛋白。总计563个正集氨基酸和1283个负集氨基酸。下图1是模型的性能情况:
residues that do not form cryptic pockets in our test set.
图1:
在这里插入图片描述
A:PocketMiner图形神经网络准确地检测了隐藏口袋形成的高的可能性区域(红色),其中就包括ligand的结合区域。该区域有一个loop在Holo态下打开了,形成了一个隐藏口袋。
B:高刚性蛋白结构的展示
C和D:模型性能的展示,可以看到相对于以前的监督学习方法,PocketMiner的AUC稍有提升。但PR曲线在高回收率(0.6~0.8)下预测的假阳性更少,这说明模型的预测错误率是相对下降了的。特别是针对超刚性蛋白,PocketMinder相对于CryotoSite有一个整体的提升。下表为来给那个算法的准确率:
在这里插入图片描述

在这里插入图片描述

图2
在这里插入图片描述
将所有的holo态结合到一起,如果周围5A内不含ligand。则认定该氨基酸无法形成隐式口袋(灰色),反之标红。

4.5 PocketMiner预测了人类蛋白组中的数千个隐式口袋。

之后作者利用上述模型去预测了超过10000个人体基因组蛋白进行了预测,将预测结果分为了三类:Groud state pocket,Criptic pocket 和No cryptic pocket。 分别对应着同时包含显示口袋或隐式口袋的蛋白,仅包含隐式口袋的蛋白以及未找到相关口袋的蛋白(图A), 可以看到有近百分之三十的蛋白仅仅包含隐式口袋,这说明即使在一个蛋白在自然状态下没有显示出明显的小分子口袋下,对其进行进行药物筛选依旧是有意义的。为了证明这一观点,作者将PocketMiner应用到了癌症相关通路Jak/Stat的几个蛋白上,包括下图中所示的PIM2,PIM2已经有经过drug筛选的正构口袋。
在这里插入图片描述
图A: 人体基因组蛋白的口袋类型比例,Groud state pocket,Criptic pocket 和No cryptic pocket。 分别对应着同时包含显示口袋或隐式口袋的蛋白,仅包含隐式口袋的蛋白以及未找到相关口袋的蛋白
图B: Jak/Stat 信号通路
图C:PIM 2 激酶的Holo态结构
图D:PocketMiner预测的隐式口袋分布
图E:PIM 2的MD结果,显示在PocketMiner预测的隐式口袋处确实出现了相应的口袋


总结

1. Pocket Miner能够基于Apo态的蛋白结构去精准预测其中的隐式口袋位置(AUC: 0.87), 并且实现了相对于传统监督学习方法CryptoSite实现了1个数量级的速度提升(>1000)
2. 基于MD能够有效发现已知的隐式口袋,并且并不需要长时间的模拟,400ns的模拟即可。
3. 在人体基因组蛋白的PocketMiner预测中发现了大量的仅含隐式口袋的蛋白,说明目前的药物发现的靶标范围是能进一步扩充的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/951624.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2007-2022年上市公司污染排放数据/2007-2022年上市公司污染排放水平、污染排放量数据

2007-2022年上市公司污染排放数据/2007-2022年上市公司污染排放水平、污染排放量数据 1、时间:2007-2022年 2、指标:证券代码、year、化学需氧量、氨氮排放量、总氮、总磷、水体综合污染当量对数、二氧化硫、氮氧化物、烟尘、空气综合污染当量对数、总…

小游戏分发平台如何以技术拓流?

2023年,小游戏的发展将受到多方面的影响,例如新技术的引入、参与小游戏的新玩家以及游戏市场的激烈竞争等。首先,新技术如虚拟现实(VR)、增强现实(AR)和机器人技术都可以带来新颖的游戏体验。其…

滑动窗口实例1(长度最小的子数组)

题目: 给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其和 ≥ target 的长度最小的 连续子数组 [numsl, numsl1, ..., numsr-1, numsr] ,并返回其长度。如果不存在符合条件的子数组,返回 0 。 示例 1: …

VC++使用Microsoft Speech SDK进行文字TTS朗读

Microsoft Speech SDK下载地址 https://www.microsoft.com/en-us/download/details.aspx?id=10121 需要msttss22L.exe、SpeechSDK51.exe、SpeechSDK51LangPack.exe三个,下载后全部安装 使用VS2005建立一个win32控制台项目 朗读"hello word"、中文“你好”的程序 …

百科有不需要的信息怎么删除?

百科词条的权威性众所周知,所以百度百科的内容审核也非常严格,百科营销成为目前网络营销工作中一个难点,很多企业无法得到自己完全满意的百度百科词条 ,这其实也是合理的。小马识途营销顾问分析,百科词条内容是提供给广…

10、【WebGIS实战】图层篇——通用服务图层加载全流程(适用于全部图层)

大家好,我是X北辰北。本文是「WebGIS实战」系列,关注这个标签,阅读所有文章,成为WebGIS开发高手。 图层可以理解为添加到地图上面的数据,比如我们要在地图上展示成都市所有大型公园的位置,那么当前地图中除了初始化地图时添加的底图之外,在底图的上面我们还叠加了一份关…

HuggingFace中的 Files and versions 如何优雅下载到本地?(Python requests,tqdm)

前言 在使用huggingface把玩各种大模型时,如果选择从远程加载模型,这个过程可能因为网络问题而非常耗时甚至直接失败,所以把模型、分词器等相关文件下载到本地,再直接从本地加载就成了不可回避的流程。 在进入具体版本的模型后&…

新版Mongodb(6.0以上)找不到mongo.exe

安装目录下/bin目录中,没有mongo.exe文件,只有mongod和mongos,以及一个powershell命令脚本。 原因在于,mongodb6.0以后做出了重大改变,mongodb已经不再默认为你安装shell工具,因此需要安装一个额外的shell…

二十二、迭代器模式

一、什么是迭代器模式 迭代器(Iterator)模式的定义:迭代器模式是一种对象行为型模式,它提供一个对象来顺序访问聚合对象中的一系列数据,而不暴露聚合对象的内部表示。   迭代器模式包含以下主要角色: 抽象聚合&…

字符串匹配的Rabin–Karp算法

leetcode-28 实现strStr() 更熟悉的字符串匹配算法可能是KMP算法, 但在Golang中,使用的是Rabin–Karp算法 一般中文译作 拉宾-卡普算法,由迈克尔拉宾与理查德卡普于1987年提出 “ 要在一段文本中找出单个模式串的一个匹配,此算法具有线性时间的平均复杂度&#xff0…

【XAMPP】启动数据库Error: MySQL shutdown unexpectedly.

问题: 启动MySQL时报错如下: Error: MySQL shutdown unexpectedly. This may be due to a blocked port, missing dependencies, improper privileges, a crash, or a shutdown by another method. Press the Logs button to view error logs and check…

SQL-子查询

SQL 子查询 是指将一个SELECT查询(子查询)的结果用括号括起来作为另一个SQL语句的数据来源或者判断条件

RK3399平台开发系列讲解(入门篇)内核模块详细加载/卸载过程

🚀返回专栏总目录 文章目录 一、 ko文件的文件格式二、内核模块加载过程三、内核模块卸载过程沉淀、分享、成长,让自己和他人都能有所收获!😄 📢 本篇将介绍内核模块详细加载/卸载过程。 一、 ko文件的文件格式 “KO” 文件通常是指 Linux 内核模块文件,这些文件包含…

现货黄金走势图中的止盈点

对平仓时机的把握能力,是衡量现货黄金投资者水平的重要标志,止盈点设置得是否合理,在行情兑现的时候能否及时地离场,是事关投资者账户浮盈最终能否落袋为安的“头等大事”,要在现货黄金走势图中把握止盈点,…

【LeetCode-中等题】230. 二叉搜索树中第K小的元素

文章目录 题目方法一:层序遍历 集合排序方法二:中序遍历(栈 或者 递归 )方法三(方法二改进):中序遍历(栈 ) 题目 该题最大的特点就是这个树是二叉树: 所以…

自然语言处理(六):词的相似性和类比任务

词的相似性和类比任务 在前面的章节中,我们在一个小的数据集上训练了一个word2vec模型,并使用它为一个输入词寻找语义相似的词。实际上,在大型语料库上预先训练的词向量可以应用于下游的自然语言处理任务,为了直观地演示大型语料…

C语言:递归思想及实例详解

简介:在计算机科学中是指一种通过重复将问题分解为同类的子问题而解决问题的方法。通过函数的自调用化繁为简。 递归可以说是编程中最神奇的一种算法。因为我们有时候可能不能完全明晰代码的运行过程,但是我们却知道代码可以跑出正确的结果。而当我们使…

docker打包vue vite前端项目

打包vue vite 前端项目 1.打包时将测试删除 2.修改配置 3.打包项目 npm run build 显示成功(黄的也不知道是啥) 打包好的前端文件放入 4.配置 default.conf upstream wms-app {server 你自己的ip加端口 ;server 192.168.xx.xx:8080 ; } server { …

Vulnhub: Ragnar Lothbrok: 1靶机

kali:192.168.111.111 靶机:192.168.111.226 信息收集 端口扫描 nmap -A -sC -v -sV -T5 -p- --scripthttp-enum 192.168.111.226 作者提示修改hosts文件 目录爆破 gobuster dir -u http://armbjorn -w /usr/share/wordlists/dirbuster/directory-l…

自动驾驶攻城战,华为小鹏先亮剑

点击关注 文|刘俊宏 编|苏扬、王一粟 本文为光锥智能x腾讯科技联合出品 2023年过半,城市NOA(城市领航辅助驾驶)的元年如预期中到来了吗? 8月25日,成都车展开幕,与4个月之前的上海…