Briefings in Bioinformatics2021 | 从头药物设计的深度生成模型的综合性评估

news2025/1/9 16:56:21

论文标题:Comprehensive assessment of deep generative architectures for de novo drug design

论文地址:Comprehensive assessment of deep generative architectures for de novo drug design | Briefings in Bioinformatics | Oxford Academic

一、传统药物设计

传统的药物从头设计方法可以分为两类:基于结构的和基于配体的。基于结构的从头药物设计方法可以进一步分为基于原子基于片段的方法。

1、基于结构

基于原子的方法的一个明显优势是可以有效地利用广阔化学空间中的各种化学骨架。然而,基于原子的方法的缺点是生成的化合物难以合成。为了提高生成分子的SAScore,通常将预先定义的片段放置在结合位点内作为片段连接和片段生长的初始结构

片段连接:将多个小片段放入结合位点,根据蛋白质与配体的相互作用,通过linker相互连接。片段和连接剂是从现有的化学数据库中选择的,因此生成的化合物的多样性与数据库中结构的新颖性有关。

片段生长:只有一个小片段种子被放置在结合位点,作为化合物生长的锚点。与片段连接相比,片段生长技术在每个阶段都提供了更大的结构自由度,因为它不依赖于一组linker来弥合两个起始片段之间的差距。基于片段的药物设计方法,如LUDI、PROLIGAND、SPROUT和CONCERTS

2、基于配体

基于配体的方法,如BREED和TOPAS,使用已知与靶标结合的化合物集合来指导新结构的生成。基于配体的方法的主要问题是合成的可达性,在生成过程中不能很好地控制,可能导致合成的可达性较差的结构

所生成化合物的高合成可行性和可行的合成规则的可用性是这些基于反应的方法的主要优点。

然而,规则和反应物数量的限制可能会限制这些算法探索更大的化学空间,因此生成的化合物可能具有有限的结构新颖性和多样性

3、遗传算法

遗传算法(GA)已被证明是成功的传统新药设计。遗传算法是一种著名的基于群体优化的进化算法,它受到生物进化的启发,如繁殖、突变、重组和选择。在基于GA的从头药物设计中,随机生成一组母分子,然后每个母分子使用遗传算子进行随机转换,生成一组新结构的群体,称为“子”。使用评分函数来评估每个“子”结构的质量。根据这些分数,从第一代“父母”和第一代“孩子”的总和中选出新一代。许多传统的从头药物设计方法,如LigBuilder、GANDI、GB-GA、ChemGE等,都在分子生成过程中使用了GA。

传统的从头药物设计方法往往存在结构新颖性与生成分子性质之间的冲突。换句话说,与现有化合物库中的化合物相比,生成的分子确实具有新颖的结构/骨架,但不具有良好的物理化学性质或合成可达性,反之亦然

4、DL模型

基于DL的生成模型在现实世界药物设计场景中的表现还没有得到很好的评估。此外,这些方法还存在分子对接计分函数预测精度较低或用于生成分子计分的绑定自由能计算和/或实验分析时间较长等问题。

现有度量标准和基准:基于Fréchet Inception distance开发了一个度量Fréchet ChemNet distance (FCD)来检测生成的分子是否具有与训练数据集相似的生化性质。分子集(MOSES)的基准测试平台,通过集成一组指标来评估生成分子的多样性和质量。Guacamol 基准以衡量生成模型的能力,用于活性化合物的重新发现、优化和骨架跳跃数。

二、模型测试

系统评估基于dl的生成方法的性能,包括VAE-base(即VAE、SDVAE、GrammarVAE、CGVAE和JT-V AE)、GAN-base(即AAE、LatentGAN、ORGAN和ORGANIC)、RNN(即SMILES-base和Graph-base的RNN)和RL(即REINVENT, GENTRL,ChemTS和DrugEX)。在评估过程中,每个深度生成模型的参数都保持到已发布的版本

基于传统的方法:RECAP、BREED和两种基于GA的方法。

1、Quality of the generated molecular set and performance in goal-directed tasks

相同的体系结构具有相似的总体性能,但是不同基于DL的体系结构的性能指标差异很大。例如,基于rnn的模型的一些指标通常是优秀的,而基于GAN的模型的指标则相对较差。此外,基于Kullback-Leibler (KL)散度和FCD值普遍优于baseline,这意味着基于DL的方法生成的分子性质与训练集的分子性质更一致。

Table2概述了不同方法在目标导向任务中的性能,包括生成与目标分子相同或相似的分子(重新发现和相似),优化目标分子(Hop)和多属性优化(MPO和Median)

基于gan的方法表现出比其他生成方法更差的性能,这是由于它们在Median,MPO和Hop参数方面的性能较差。这是由基于gan的方法生成的分子的低有效性引起的。除了基于gan的方法外,其他基于dl的模型在不同的任务中产生了类似的性能,但基于dl的模型与基于GA的baseline相比并没有明显的优势。

2、Assessing the stability of different DL methods

评估不同模型的稳定性,应检查样本量的影响。5组不同样本量(5 × 10000, 5 × 20000,…, 5 × 1000000)重复生成,(BREED和RECAP一次只能生成固定数量的分子,因此这两种方法不适合进行稳定性研究)。

有效性、唯一性、新颖性和多样性指标表示分子集的整体质量:随着样本量的增加,分子集的有效性变化不大,但其唯一性、新颖性和内部多样性变化较大。当样本量小于阈值时,不同样本量的分子集结构特征是不同的。当样本量大于阈值时,分子集的质量趋于稳定。两种基于ga的基线也可以观察到类似的趋势,但阈值为~ 300000。然后评估生成分子的质量,当样本量达到阈值时,所有模型生成的分子的多样性指标(即唯一性、新颖性和内部多样性)下降,表明模型生成的重复分子更多。基于dl的模型和基线模型的阈值分别为~ 10万和~ 30万,表明基于dl的模型产生多样化分子的能力比基线模型差。

KL、FCD、骨架和片段相似性指标表示生成的分子与训练集的一致性:DL模型生成的分子集的KL、FCD、骨架和片段相似性不随样本量的变化而波动,而两种ga基线生成的分子集的KL、FCD、骨架和片段相似性在所有样本量下都有较大波动。基于DL的模型在模拟训练集属性方面比基线模型更有优势。

3、The scaffolds within the generated datasets for different DL generative models

“生成分子集的质量和目标导向任务中的性能”和“评估不同DL方法的稳定性”小节中的指标并不能完全反映生成分子的结构性质。具有相同骨架的六个分子具有较低的多样性,但它们具有上述理想的指标。因此,需要单独研究生成集合中的骨架,以评估生成分子的多样性:

所生成分子的骨架编号和骨架结构分别如下图,当样本量达到阈值时,骨架数量趋于稳定,但多样性开始急剧下降,同时在阈值之后方差尤其小:

计算相同样本量下五种生成分子集的平均骨架。平均骨架图显示了每个样本量的五个分子集之间的骨架相似性。对于所有生成模型,scafsim随着样本量的增加略有增加,当样本量达到阈值时,生成的分子集的相似性不再发生变化。在阈值之前所生成分子的骨架有较大的差异,而在阈值之后不容易生成新的骨架:

生成模型生成的化学骨架的最大值与上面的“阈值”有关。因此,当样本量小于阈值时,骨架数量没有达到最大值,导致平均骨架数量相对较低;当样本量高于阈值时,骨架数量达到最大值,骨架特征数量趋于稳定。

4、Analysis of the properties of molecules generated by different methods

通过比较“生成分子集的质量和目标导向任务中的性能”、“评估不同DL方法的稳定性”和“生成数据集中的不同DL生成模型的骨架”小节中所示的不同基于DL的模型的性能,每种架构中的一个代表性模型被选择用于下面的属性分析和特定目标任务,不同理化性质的分布:

对于药物(QED)、天然产物(NP)、LogP和合成物可及性(SA)的定量估计,大多数基于dl的方法都能生成与训练数据分布相似的分子,这表明基于dl的模型比基线方法具有更好的学习训练数据性质分布的能力。

5、The performance of different methods in target-specific generation tasks

基于对p38和CDK2的对接VS识别出的潜在抑制剂与现有抑制剂具有中度相似性,而基于DL和GA的方法生成的分子与已知的p38和CDK2抑制剂具有较高的相似性。此外,与VS结果相比,BREED生成的分子与已知抑制剂的相似性较低。

基于支持向量回归(SVR)模型的V AE、GENTRL和LatentGAN(颜色较深)可以生成更多的活性分子,生成分子的分布与已知抑制剂的分布重叠,这表明生成模型可以重新创建训练分子的某些属性。GENTRL和LatentGAN生成的化合物与p38和CDK2抑制剂有较大的重叠,表明这两种方法在分子性质重建方面具有理想的性能:

四、总结

对于具有相同深度学习架构的生成模型,无论是使用不同的分子表示还是引入一些改进的深度学习架构,在相同的架构中,没有一个模型表现出明显的优点或缺点。这表明,一些复杂的分子表征或结构中的技巧可能对从头开始的药物设计的整体性能并不十分关键。对于具有不同DL架构的生成模型,基于RL和gan的生成模型在与目标属性的一致性方面优于其他生成模型,更适合于特定目标任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/75516.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JMeter的三种参数化方式

一、 用户定义的变量 1.线程组-配置元件添加用户定义的变量 2.引用变量 ${变量} 二、 csv Data Set config (1)csv Data Set config之.CSV 1.造.csv格式文件的数据 2.设置CSV数据文件 3.消息体数据,引用变量名.{变量名} 4.设置线程组&…

关于Elasticsearch查询(match、match_phrase、query_string和term)

由上图看出, QueryBuilder 是整个查询操作的核心,决定了查询什么样的数据和期望得到什么结果这些核心的问题。 QueryBuilder 只是一个接口,需要具体的实体类才可以。那么如何创建 QueryBuilder 的实例呢?有两种方式 通过 QueryB…

AOP开发明确的的事项

12.2. AOP开发明确的的事项 12.2.1、需要编写的内容 编写核心业务代码(目标类的目标方法) 编写切面类,切面类中有通知(增强功能方法) 在配置文件中,配置织入关系,即将哪些通知与哪些连接点进行结合 12.2.2、AOP 技…

什么是MinIO

本文为joshua317原创文章,转载请注明:转载自joshua317博客 什么是MinIO - joshua317的博客 什么是MinIO? MinIO 是一款高性能、分布式的对象存储系统. 它是一款软件产品, 可以100%的运行在标准硬件。即X86等低成本机器也能够很好的运行MinIO。 MinIO提…

容灾演练月报 | 福莱特集团核心系统完成“跨云”容灾切换演练

11月,美创科技携手福莱特集团、金华银行、稠州银行、慈溪市卫健委及医疗行业等总计19家用户完成容灾切换演练,其中完成2次灾难切换,有效验证了各用户单位容灾系统的可靠性及高可用性! 本月典型案例:福莱特集团 福莱特集…

CANoe.DiVa简单配置

🍅 我是蚂蚁小兵,专注于车载诊断领域,尤其擅长于对CANoe工具的使用🍅 寻找组织 ,答疑解惑,摸鱼聊天,博客源码,点击加入👉【相亲相爱一家人】🍅 玩转CANoe&…

RK3588核心板显示资源分配实操竟如此简单!飞凌嵌入式

前言 眼睛作为人类最重要的感觉器官,通过“视觉”帮助我们接收了大部分的外界信息,“视觉效果的好坏”直接影响着我们日常生产和生活质量的高低,因此“显示能力”成为了评价产品优劣的一项重要指标。在影音、游戏、智慧办公、工业自动化和交通…

OpenAI ChatGPT微信接入教程

OpenAI ChatGPT微信接入教程 OpenAI ChatGPT 接入 个人WeChat(微信),让AI互动更方便! 准备工作 Ⅰ,OpenAI 账号,参考ChatGPT注册试用全攻略 Ⅱ,微信账号(需要绑定支付方式,需支持网页登录&am…

JVM篇之牛刀小试(三)年轻代参数优化探索

前言 在JVM 篇之 牛刀小试 (一)我们谈到了关于年轻代参数的问题,就是当我没有设置-Xmn的时候,gc时间居然比我设置了500m的时候,时间还短,然后当时我就停止了探索。 后来我在公司飞书文档写了一篇文章分享&…

Java的注解和注解解析器是什么,运行方法如何,架构师必会知识体系

文章目录什么是[元数据](https://so.csdn.net/so/search?q元数据&spm1001.2101.3001.7020)(metadata)什么是注解(Annotation)?元注解自定义注解注解处理器什么是元数据(metadata) ​ 元数据由metadata译来,所谓的元数据就是“关于数据的数据”,更通俗的说就是…

网络篇汇总

路由器:属于网关设备,通过路由器可以将各种局域网、城域网、广域网连接起来,一般工作于网络层。它会根据信号的情况自动选择和设定路由,以最佳路径,按照前后顺序发送信号。路由器可连接多个逻辑上分开的网络&#xff0…

2023最新SSM计算机毕业设计选题大全(附源码+LW)之java随骑共享系统m7i8o

要对当前自己的学校对于计算机毕业设计的要求以及严格程度有所了解,这个主要是借助上一届已经毕业的学长学姐了解一下,但是有一点要注意的是,对于每一届毕业生的毕业设计的处理,学校都有很大的调整,这一点尤其重要。其…

静态HTML个人博客主页 简单个人网页设计作业 DW个人网站模板下载 大学生简单个人网页作品代码 个人网页制作 学生个人网页设计作业

🎉精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

力扣(LeetCode)139. 单词拆分(C++)

字符串哈希&动态规划 一眼暴力,发现根本做不了,想着想着,发现 dpdpdp 很好想,来试试。 枚举字符串 sss 的所有位置作为起始点,如图状态转移。 规定 : f[0]f[0]f[0] 表示空字符的集合,可以用空串组成…

【数据结构与算法】模拟实现LinkedList类

文章目录LinkedList简介头插法创建链表尾插法创建链表任意位置插入,第一个数据节点为0号下标查找是否包含关键字key是否在链表当中删除第一次出现关键字为key的节点删除所有值为key的节点得到链表的长度打印链表清空链表完整代码:总结:LinkedList简介 Java LinkedLi…

SAP PS 第6节 项目产成品产出

SAP PS 第6节 项目产成品产出及差异处理1 模拟场景说明1.1 拖拽负库存1.2 发料原材料及报工1.3 执行副产品入库migo发预留1.4 CNS0交货1.5 后面开票产生收入按照项目结算即可项目上有一类比较另类的玩法,就是舍弃PP,依靠网络活动的负库存,实现…

Android Edittext密码类型显示字符串修改实现

Android Edittext密码类型显示字符串修改实现 文章目录Android Edittext密码类型显示字符串修改实现一、前言:二、效果三、实现1、系统级设置2、应用级设置3、单个EditText设置(1)自定义显示符合类(2)EditText使用自定…

认识一下 Kubernetes 多集群服务 API

由于各种原因,采用 Kubernetes 的企业内部存在着几个、几十甚至上百个集群。比如处于研发流程上的考虑,不同环境下都存在独立的集群;监管层面的考虑,就地存储的用户数据需要搭配应用集群;单个集群的容量限制&#xff0…

(四)Redis的持久化

一 什么是redis持久化 因为Redis数据是基于内存读写,为防止Redis服务器关闭或者宕机造成数据的丢失,我们通常需要对redis做持久化,即:把内存中的数据(命令)保存一份到磁盘中来做一份备份,当redis服务关闭或宕机后,在Redis服务器重启后将数据从磁盘加载到内存中,不至于造成数据…

一招教你轻松使用公网远程访问公司内网

企业远程访问需求 众多企业都会在总部搭建各类项目管理办公系统(如OA、ERP、CRM、财务系统等等),以提高员工的办公及管理效率。 不少出差在外或者居家办公的员工需要从外部网络访问内网来登录各类系统,以满足办公协作管理的需…