论文标题:Comprehensive assessment of deep generative architectures for de novo drug design
论文地址:Comprehensive assessment of deep generative architectures for de novo drug design | Briefings in Bioinformatics | Oxford Academic
一、传统药物设计
传统的药物从头设计方法可以分为两类:基于结构的和基于配体的。基于结构的从头药物设计方法可以进一步分为基于原子和基于片段的方法。
1、基于结构
基于原子的方法的一个明显优势是可以有效地利用广阔化学空间中的各种化学骨架。然而,基于原子的方法的缺点是生成的化合物难以合成。为了提高生成分子的SAScore,通常将预先定义的片段放置在结合位点内作为片段连接和片段生长的初始结构
片段连接:将多个小片段放入结合位点,根据蛋白质与配体的相互作用,通过linker相互连接。片段和连接剂是从现有的化学数据库中选择的,因此生成的化合物的多样性与数据库中结构的新颖性有关。
片段生长:只有一个小片段种子被放置在结合位点,作为化合物生长的锚点。与片段连接相比,片段生长技术在每个阶段都提供了更大的结构自由度,因为它不依赖于一组linker来弥合两个起始片段之间的差距。基于片段的药物设计方法,如LUDI、PROLIGAND、SPROUT和CONCERTS
2、基于配体
基于配体的方法,如BREED和TOPAS,使用已知与靶标结合的化合物集合来指导新结构的生成。基于配体的方法的主要问题是合成的可达性,在生成过程中不能很好地控制,可能导致合成的可达性较差的结构
所生成化合物的高合成可行性和可行的合成规则的可用性是这些基于反应的方法的主要优点。
然而,规则和反应物数量的限制可能会限制这些算法探索更大的化学空间,因此生成的化合物可能具有有限的结构新颖性和多样性
3、遗传算法
遗传算法(GA)已被证明是成功的传统新药设计。遗传算法是一种著名的基于群体优化的进化算法,它受到生物进化的启发,如繁殖、突变、重组和选择。在基于GA的从头药物设计中,随机生成一组母分子,然后每个母分子使用遗传算子进行随机转换,生成一组新结构的群体,称为“子”。使用评分函数来评估每个“子”结构的质量。根据这些分数,从第一代“父母”和第一代“孩子”的总和中选出新一代。许多传统的从头药物设计方法,如LigBuilder、GANDI、GB-GA、ChemGE等,都在分子生成过程中使用了GA。
传统的从头药物设计方法往往存在结构新颖性与生成分子性质之间的冲突。换句话说,与现有化合物库中的化合物相比,生成的分子确实具有新颖的结构/骨架,但不具有良好的物理化学性质或合成可达性,反之亦然
4、DL模型
基于DL的生成模型在现实世界药物设计场景中的表现还没有得到很好的评估。此外,这些方法还存在分子对接计分函数预测精度较低或用于生成分子计分的绑定自由能计算和/或实验分析时间较长等问题。
现有度量标准和基准:基于Fréchet Inception distance开发了一个度量Fréchet ChemNet distance (FCD)来检测生成的分子是否具有与训练数据集相似的生化性质。分子集(MOSES)的基准测试平台,通过集成一组指标来评估生成分子的多样性和质量。Guacamol 基准以衡量生成模型的能力,用于活性化合物的重新发现、优化和骨架跳跃数。
二、模型测试
系统评估基于dl的生成方法的性能,包括VAE-base(即VAE、SDVAE、GrammarVAE、CGVAE和JT-V AE)、GAN-base(即AAE、LatentGAN、ORGAN和ORGANIC)、RNN(即SMILES-base和Graph-base的RNN)和RL(即REINVENT, GENTRL,ChemTS和DrugEX)。在评估过程中,每个深度生成模型的参数都保持到已发布的版本
基于传统的方法:RECAP、BREED和两种基于GA的方法。
1、Quality of the generated molecular set and performance in goal-directed tasks
相同的体系结构具有相似的总体性能,但是不同基于DL的体系结构的性能指标差异很大。例如,基于rnn的模型的一些指标通常是优秀的,而基于GAN的模型的指标则相对较差。此外,基于Kullback-Leibler (KL)散度和FCD值普遍优于baseline,这意味着基于DL的方法生成的分子性质与训练集的分子性质更一致。
Table2概述了不同方法在目标导向任务中的性能,包括生成与目标分子相同或相似的分子(重新发现和相似),优化目标分子(Hop)和多属性优化(MPO和Median)
基于gan的方法表现出比其他生成方法更差的性能,这是由于它们在Median,MPO和Hop参数方面的性能较差。这是由基于gan的方法生成的分子的低有效性引起的。除了基于gan的方法外,其他基于dl的模型在不同的任务中产生了类似的性能,但基于dl的模型与基于GA的baseline相比并没有明显的优势。
2、Assessing the stability of different DL methods
评估不同模型的稳定性,应检查样本量的影响。5组不同样本量(5 × 10000, 5 × 20000,…, 5 × 1000000)重复生成,(BREED和RECAP一次只能生成固定数量的分子,因此这两种方法不适合进行稳定性研究)。
有效性、唯一性、新颖性和多样性指标表示分子集的整体质量:随着样本量的增加,分子集的有效性变化不大,但其唯一性、新颖性和内部多样性变化较大。当样本量小于阈值时,不同样本量的分子集结构特征是不同的。当样本量大于阈值时,分子集的质量趋于稳定。两种基于ga的基线也可以观察到类似的趋势,但阈值为~ 300000。然后评估生成分子的质量,当样本量达到阈值时,所有模型生成的分子的多样性指标(即唯一性、新颖性和内部多样性)下降,表明模型生成的重复分子更多。基于dl的模型和基线模型的阈值分别为~ 10万和~ 30万,表明基于dl的模型产生多样化分子的能力比基线模型差。
KL、FCD、骨架和片段相似性指标表示生成的分子与训练集的一致性:DL模型生成的分子集的KL、FCD、骨架和片段相似性不随样本量的变化而波动,而两种ga基线生成的分子集的KL、FCD、骨架和片段相似性在所有样本量下都有较大波动。基于DL的模型在模拟训练集属性方面比基线模型更有优势。
3、The scaffolds within the generated datasets for different DL generative models
“生成分子集的质量和目标导向任务中的性能”和“评估不同DL方法的稳定性”小节中的指标并不能完全反映生成分子的结构性质。具有相同骨架的六个分子具有较低的多样性,但它们具有上述理想的指标。因此,需要单独研究生成集合中的骨架,以评估生成分子的多样性:
所生成分子的骨架编号和骨架结构分别如下图,当样本量达到阈值时,骨架数量趋于稳定,但多样性开始急剧下降,同时在阈值之后方差尤其小:
计算相同样本量下五种生成分子集的平均骨架。平均骨架图显示了每个样本量的五个分子集之间的骨架相似性。对于所有生成模型,scafsim随着样本量的增加略有增加,当样本量达到阈值时,生成的分子集的相似性不再发生变化。在阈值之前所生成分子的骨架有较大的差异,而在阈值之后不容易生成新的骨架:
生成模型生成的化学骨架的最大值与上面的“阈值”有关。因此,当样本量小于阈值时,骨架数量没有达到最大值,导致平均骨架数量相对较低;当样本量高于阈值时,骨架数量达到最大值,骨架特征数量趋于稳定。
4、Analysis of the properties of molecules generated by different methods
通过比较“生成分子集的质量和目标导向任务中的性能”、“评估不同DL方法的稳定性”和“生成数据集中的不同DL生成模型的骨架”小节中所示的不同基于DL的模型的性能,每种架构中的一个代表性模型被选择用于下面的属性分析和特定目标任务,不同理化性质的分布:
对于药物(QED)、天然产物(NP)、LogP和合成物可及性(SA)的定量估计,大多数基于dl的方法都能生成与训练数据分布相似的分子,这表明基于dl的模型比基线方法具有更好的学习训练数据性质分布的能力。
5、The performance of different methods in target-specific generation tasks
基于对p38和CDK2的对接VS识别出的潜在抑制剂与现有抑制剂具有中度相似性,而基于DL和GA的方法生成的分子与已知的p38和CDK2抑制剂具有较高的相似性。此外,与VS结果相比,BREED生成的分子与已知抑制剂的相似性较低。
基于支持向量回归(SVR)模型的V AE、GENTRL和LatentGAN(颜色较深)可以生成更多的活性分子,生成分子的分布与已知抑制剂的分布重叠,这表明生成模型可以重新创建训练分子的某些属性。GENTRL和LatentGAN生成的化合物与p38和CDK2抑制剂有较大的重叠,表明这两种方法在分子性质重建方面具有理想的性能:
四、总结
对于具有相同深度学习架构的生成模型,无论是使用不同的分子表示还是引入一些改进的深度学习架构,在相同的架构中,没有一个模型表现出明显的优点或缺点。这表明,一些复杂的分子表征或结构中的技巧可能对从头开始的药物设计的整体性能并不十分关键。对于具有不同DL架构的生成模型,基于RL和gan的生成模型在与目标属性的一致性方面优于其他生成模型,更适合于特定目标任务。