人工智能辅助药物发现(2)苗头化合物筛选

news2024/9/20 16:38:14

目录

  • AI辅助苗头化合物筛选概述
  • AI辅助CPI
    • CPI数据库
    • 蛋白质和化合物的特征表示
    • 深度学习CPI预测
      • 经典Y型架构
      • 基于注意力的架构
      • 基于复合物的架构
      • CPI性能评估
  • 苗头化合物筛选的发展前景
    • 挑战与趋势
    • 实际应用

AI辅助苗头化合物筛选概述

新型小分子药物的开发通常从生物学家确定疾病靶标开始,然后再成千上万的化合物中挖掘出一组可抑制或激活特定疾病靶标的活性分子。之后,再进行一系列的药代动力学,药效学,毒性测试以及结构修改获得苗头化合物(先导化合物)。接着,经过多阶段临床试验后筛选出最佳候选药。经过药监局审批,候选药物上市。

新药研发需要大量实验且具有极高失败率,完成一个新药的研发需要花费10-20年以及5-26亿美元。

高通量筛选(HTS)和虚拟筛选(VS)是获得苗头化合物的两种技术。HTS难以涵盖更多化合物,VS需要众多高质量的三维结构数据。深度学习具有强大的表征能力,可用于苗头化合物筛选中的重要步骤:化合物-蛋白质相互作用预测(CPI,compound-protrin interaction)。

AI加速CPI基于两个方面:

  • 大量CPI数据可用,目前各种数据库中小分子和蛋白质之间的相互作用已经收集了数十亿条。
  • 对于CPI,化合物可以表示为序列或分子图,蛋白质可以表示为序列或三维网格。这些数据结构可以被深度学习模型处理。CPI可以被视为一个图,包含两类节点:化合物和蛋白质,节点之间的边代表相互作用关系。

AI辅助CPI

CPI数据库

目前,生物实验已经积累了大量CPI数据,不仅包含小分子与蛋白质的相互作用,还包括由IC50,Ki,Kd和EC50等指标度量的结合亲和力。

STITCH是目前最大的CPI数据库,包含16亿对相互作用。BindingDB是第二大CPI数据库,包含200万个结合亲和力数据。PDBbind是中型CPI数据库,提供17000个实验确定的化合物-蛋白质复合物结构和亲和力数据,并额外包含结合位点数据。此外,KIBA,Davis,DUD-E是普遍使用的三个小型数据库。


靶点蛋白相关的数据库为KEGG,DrugBank,TTD。另外,PubChem和ChEMBL是两个综合性化合物数据库。


蛋白质和化合物的特征表示

传统的特征工程将化合物和蛋白质编码为高维特征向量,每个维度反映了化合物和蛋白质的特定属性。根据化学结构的维度,化合物的特征描述包括基于结构的1D,2D,3D表示。

另外,分子指纹是经典的化合物特征表示方法。化合物的分子指纹分为:基于子结构,基于路径,圆环,药效团。
fig1

  • 化合物结构表示及其定量描述(分子指纹)

从特征工程衍生出的蛋白质描述符包括基于序列和基于结构的描述符:

  • 基于序列的描述符分为基于k-order氨基酸组成和基于物理化学性质的描述符。基于k-order氨基酸组成的描述符反映了蛋白质序列中k个氨基酸组成短肽的频率。基于物理化学性质的描述符利用每个氨基酸的物理化学性质(疏水性,范德华力,极性)将氨基酸序列映射为实值序列。
  • 基于结构的描述符分为基于拓扑结构,基于几何的描述符。基于拓扑结构的描述符根据从分子图生成的原子连接指数描述氨基酸。基于几何的描述符反映了与形状,大小,空间中原子位置等相关的蛋白质结构特征。

深度学习CPI预测

目前主要的方法分为三类:经典Y型,基于注意力,基于绑定复合物。

经典Y型架构

这是最早的深度学习在CPI上的应用。DeepDTA就是Y型架构,其中一个分支使用SMILES编码化合物(1D),另一个使用1D序列作为蛋白质表示编码蛋白质,然后由两个独立的卷积网络分别编码为相应的embedding。再将化合物和蛋白质embedding拼接后输入到一个或多个全连接层。最后输出亲和力预测结果。此外,化合物和蛋白质的更多特征表示也可以被整合到Y型框架。

化合物可以直接表示为分子图,因此GNN在小分子表征方面可以发挥作用。比如GraphDTA使用混合GNN(GCN,GAT,GIN图同构网络)获得化合物的图表征,采用多层1D CNN获得基于序列的蛋白质表示。

关于蛋白质,也可以通过distance map或contact map表示。比如DGraphDTA通过PconsC4从蛋白质序列生成contact map,然后构建蛋白质graph,节点为氨基酸,边表示其相邻关系,最后在小分子graph和蛋白质graph上采用GNN获得embedding。

基于注意力的架构

Y型架构实现了CPI预测,但不能指出哪些因素对相互作用有贡献,以及相应的贡献程度。将注意力整合到Y型架构有利于解释化合物与蛋白质形成的相互作用:蛋白质的关键子序列(残疾或n-gram氨基酸)与化合物的关键子结构的相互作用。

大多数基于注意力的模型分别针对化合物和蛋白质设计注意力模块。DeepCDA将化合物SMILES字符串,蛋白质序列分别传入一个LSTM和一个CNN,然后通过注意力机制表明化合物子结构和蛋白质残疾之间的相互作用强度。

一些研究设计了联合注意力模块(co-attention),AttentionDTA使用两个1D CNN提取化合物和蛋白质的表征,然后应用联合注意力模块捕获化合物子序列和蛋白质子序列,帮助寻找结合位点

基于复合物的架构

通常,大量的蛋白质结构是难以获取的,但当有化合物-蛋白质复合物时,设计基于复合物的模型有助于CPI预测。

在早期,AtomNet直接采用3D CNN,将化合物-蛋白质复合物离散成三维网格,获得活性复合物和非活性复合物的表征。由于3D网格计算复杂,近期一些工作关注化合物-蛋白质结合口袋的特征表示(蛋白质的结合口袋是指蛋白质表面或内部具有适合与配体结合的空腔),而不是整个复合物的特征表示
fig2

  • a:Y型架构;b:结合注意力;c:基于复合物建模。

关于CPI预测
我个人认为,结合口袋建模(基于复合物的方式)可能是更合理的方法,因为基于复合物的方法从几何视角描述了化合物子结构与蛋白质子序列的相互作用。
fig3

  • 化合物(配体)节点从其共价和非共价邻居接收信息,其中非共价相互作用应当在CPI中主导计算。

CPI性能评估

CPI预测分为二元预测任务(分类,区分化合物是否与蛋白质结合)和亲和力预测任务(回归,推断化合物与蛋白质结合的强度)。通常,亲和力预测比二元分类预测更困难。此外,可以注意到一个集成模型DeepPourse。

  • 对于二元预测,可以使用三个常用的数据集:DUD-E,Davis和Human。用AUC衡量,AUC越大,表明预测效果越好。
  • 对于结合亲和力预测,通常使用Davis数据集。亲和力预测的性能使用一致性指数(Consistency index,CI)和均方误差(Mean square error,MSE)衡量,CI越大,MSE越小,预测效果越好。

苗头化合物筛选的发展前景

挑战与趋势

深度学习在CPI预测上展示了良好性能,但依然存在挑战:

  • 如何利用大量未标记的化合物和蛋白质。无监督学习DeepCPI,半监督学习GANsDTA,预训练策略DeepAffinity的成功应用表明,利用丰富的未标记数据(序列)可以增强化合物和蛋白质表示。
  • 由于具有标记的化合物表示数据较为稀缺,可以通过自监督学习对未标记数据预训练,然后迁移下游任务。最近工作利用自监督学习提取基于SMILES或分子图的表示。
  • 虽然3D结构可以增强化合物和蛋白质的表示,但需要高额算力,而且基于复合物的模型与利用化合物和蛋白质序列以及分子图的模型相比并没有显著性能提升。
  • 对于化合物-蛋白质结合对的表征,非共价相互作用的表示很重要。结合位点有助于理解非共价相互作用。目前DeepSite,DeepSurf已经将深度学习用于结合位点预测。
  • 利用注意力的解释不够全面,在大规模数据集中会出现不一致的解释结果。

实际应用

CPI预测是寻找苗头化合物的第一步。为了加快苗头化合物的发现过程,DeepScreening根据结合亲和力针对特定靶标进行大规模化合物筛选。深度学习可以加快发现新的活性化合物,推进药物发现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/172540.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

oracle数据库初始化问题及处理方法记录

环境: 服务器装机是redhat7.9+oracle19,用户是oracle,用户组dba 装机后进行初始化: 1.配置oracle用户环境变量:~/.bash_profile export ORACLE_SIDxxx export ORACLE_BASE/oracle/app/oracle export OR…

海康visionmaster-在WPF中使用Winform控件的方法

描述 环境:VM4.0.0 VS2013及以上 现象:在算子SDK开发过程中,用户如何使用封装好的Winform模板匹配等控件? 解答 首先添加对如下两个dll文件的引用:WindowsFormsIntegration.dll,System.Windows.Forms.…

深入MySQL字符编码与对照规则

前言 本篇和大家一起深入MySQL的字符集与对照规则,剖析下我们存储在MySQL中的字段是如何进行存储和校验比对的。 先看问题:unique key为什么失效了?拉齐共识:回顾下字符编码的基础知识,回炉下ASCII和Unicode。深入了解…

算法训练营 day22 二叉树 二叉搜索树的最近公共祖先 二叉搜索树中的插入操作 删除二叉搜索树中的节点

算法训练营 day22 二叉树 二叉搜索树的最近公共祖先 二叉搜索树中的插入操作 删除二叉搜索树中的节点 二叉搜索树的最近公共祖先 235. 二叉搜索树的最近公共祖先 - 力扣(LeetCode) 给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。 百度…

第三章 逻辑与推理

命题逻辑谓词逻辑知识图谱推理因果推理 3.1 命题逻辑 逻辑和推理是基于知识的操作。 命题逻辑是应用一套形式化规则对以符号表示的描述性陈述进行推理的系统。在命题逻辑中,一个或真或假的描述性陈述被称为原子命题,对原子命题的内部结构不做任何解析。…

UnityC#的lock用法简记

UnityC#的lock用法简记简述代码实例一、单线程二、多线程无lock三、多线程使用lock死锁注意拓展lock->InvokeMonitor参考链接简述 多线程环境中,不使用lock锁,会形成竞争条件,导致错误。 使用lock锁可以保证当有线程操作某个共享资源时&a…

【ONE·C || 操作符详解】

总言 C语言:各种操作符的使用介绍。 文章目录总言1、算术操作符2、移位操作符2.1、整体介绍2.2、左移操作符2.3、右移操作符(逻辑右移、算术右移)3、位操作符3.1、整体介绍3.2、演示实例3.2.1、按位与3.2.2、按位或3.2.3、按位异或3.2.4、按位…

离线文章画像计算--Tfidf计算

2.4.2 Tfidf计算 2.4.2.1 目的 计算出每篇文章的词语的TFIDF结果用于抽取画像 2.4.2.2TFIDF模型的训练步骤 读取N篇文章数据文章数据进行分词处理TFIDF模型训练保存,spark使用count与idf进行计算利用模型计算N篇文章数据的TFIDF值 2.4.2.3 实现 想要用TFIDF进行…

【数据结构初阶(Java)】认识时间复杂度和空间复杂度

目录 前言: 1、算法效率 2、时间复杂度 1、大O的渐近表示法(不是一个准确的) 2、时间复杂度练习题(没有明确要求,计算的时间复杂度就是最坏情况下) 3、空间复杂度 前言: 如何衡量一个算法的…

Java中多线程wait和notify的用法

目录 一、wait和notify/notifyAll的由来 二、wait()方法 三、notify方法 3.1 notify的作用 3.2 wait和notify的 相互转换代码图 3.3 notifyAll 四、为什么需要notify和wait都需要上锁? 五、wait和sleep的对比 前言:由于线程之间是抢占式执行的&a…

Linux常用命令——tftp命令

在线Linux命令查询工具(http://www.lzltool.com/LinuxCommand) tftp 在本机和tftp服务器之间使用TFTP协议传输文件 补充说明 tftp命令用在本机和tftp服务器之间使用TFTP协议传输文件。 TFTP是用来下载远程文件的最简单网络协议,它其于UDP协议而实现。嵌入式linu…

RTMP协议封装H264和H265协议详解

RTMP协议封装H264和H265协议详解 文章目录RTMP协议封装H264和H265协议详解1 RTMP和FLV2 RTMP协议封装H264视频流2.1 RTMP发送AVC sequence header2.2 RTMP发送AVCC视频帧数据‘3 RTMP协议封装H265视频流1 RTMP和FLV 有关RTMP和FLV格式详细介绍可查看如下文章: http…

2022 Moonbeam的点点滴滴离不开社区支持

Moonbeam成为首个上线波卡的平行链已经有一周年🎂啦,这是一段疯狂的旅程🏍。 为了纪念这一时刻,我们通过公开数据来回顾这一年的众多里程碑、更新和整体发生的一切。 让我们来回顾一下Moonbeam在2022年取得了哪些成就吧。 &…

GIS二维电子地图开发总结

二维平面地图,目前支撑设备渲染,真实场景,后期电子围栏,运动轨迹等业务需求做铺垫 一、所涉及的技术栈: 1.Openlayers,加载渲染地图 2.Geoserver 发布wms和wfs()服务 3.Arcgis,Arcmap,进行源文件…

3.1、Ubuntu20桌面版远程连接SSHMobaXterm远程连接编辑器

连接SSH 安装系统完成并登陆后,输入 修改源码地址 进入apt文件夹 cd /etc/apt 备份文件 cp sources.list sources.list.bak 修改源码地址 vi sources.list # See http://help.ubuntu.com/community/UpgradeNotes for how to upgrade to # newer versions of…

数据结构初级<排序>

本文已收录至《数据结构(C/C语言)》专栏! 作者:ARMCSKGT 你的阅读和理解将是我极大的动力! 目录 前言 排序的概念 常见排序简述 正文 直接插入排序 原理 代码实现 分析 希尔排序 原理 代码实现 分析 直接选择排序 原理 代码…

类加载的时机与过程

------ 摘自 周志明 《深入理解Java虚拟机》类加载的时机一个类型从被加载到虚拟机内存中开始,到卸载出内存为止,它的整个生命周期将会经历加载(Loading)、验证(Verification)、准备(Preparati…

6、数组的常见运算

目录 一、数组的算术运算 二、数组的关系运算 三、数组的逻辑运算 一、数组的算术运算 (1)数组的加减运算:通过格式AB或A-B可实现数组的加减运算。但是运算规则要求数组A和B的维数相同。 示例1: A[1 2 3 4]B[2 4 6 8]C[1 1 …

三种简洁易行的方法解决基于Vue.js的组件通信

在总结Vue组件化编程的数据通信方面,看了网上的很多资料,都是讲父子组件的数据交互也就是参数传递,在组件的通信方面分几种情况,比如父子组件、非父子的兄弟组件、非父子的其他组件等等,这样看来,基于Vue.j…

STC15系列单片机EEPROM读写示例

STC15系列单片机EEPROM读写示例🌼STC15手册有关EEPROM描述 🌾STC15系列单片机内部集成了大容量的EEPROM,其与程序空间是分开的。利用ISP/IAP技术可将内部DataFlash当EEPROM,擦写次数在10万次以上。EEPROM可分为若干个扇区&#xf…