论文标题:De novo generation of dual-target ligands using adversarial training and reinforcement learning
论文地址:https://academic.oup.com/bib/article/22/6/bbab333/6354720
代码:https://github.com/lllfq/DLGN
一、模型结构
RNN + GAN + Reinforcement Learning
1、Recurrent neural network
通过使用SMILES编码,可以将分子表示为对应于原子、键和循环的符号序列,该编码能够捕获分子图的拓扑结构,在每个SMILES的开始和结束处插入一个开始令牌<BOS>和一个结束令牌<EOS>。
作为生成器Generator:LSTM,该神经网络由输入层、300个神经元的embedding层、每层1024个神经元的LSTM层和512个神经元的全连接层组成,最后一层的输出被输入到另一个完全连接的层,该层具有34个(我们任务中的SMILES字母表的大小)神经元和一个softmax激活函数,该函数为每个时间步骤生成所有可能令牌的概率分布。
作为判别器Discriminator:GRU,两个判别器都由一个输入层、一个包含100个神经元的embedding层、两个每层包含300个神经元的GRU和一个包含300个神经元的全连接层组成。最后一层的输出被输入到另一个具有一个神经元和一个sigmoid激活函数的完全连接层,该层输出输入SMILES为真实数据的可能性。
2、GAN
在D的指导下,训练G从D中生成能够使接收到的概率分数最大化的数据,生成的数据与真实数据高度相似。这两个模型轮流训练,遵循极大极小对抗博弈:
3、Reinforcement learning
RNN框架中的SMILES生成器可以被视为强化学习设置中的随机策略,然后可以通过策略梯度[41]进行更新。在强化学习中,给定一个环境状态s∈S,策略将选择a∈A,其中A是包括所有可能被选择的动作的动作空间。然后在此操作的影响下更新状态。这些状态转换过程连续地交替进行,直到任务结束。从这个角度来看,时间步t中的状态st是当前生成的令牌X(1:t),可以表示为ht, 下处动作a(t+1)是下一个token xt+1,它是从f (ht)采样出来的. 给定开始令牌BOS的隐藏状态为初始状态s0,将采取操作并重复更新状态,直到对结束令牌EOS进行采样。一个动作轨迹,即一个分子微笑,然后在这个过程中产生。策略被训练为最大化所有可能轨迹X的期望回报:
因此,有梯度更新为:
在对抗训练中生成器的训练步骤中,为了鼓励生成器生成能够欺骗鉴别器的数据,轨迹X的奖励R(X)为鉴别器D提供的估计为真实D(X)的概率。
4、Dual-target ligand generative network
Ptarget A(x)上的对目标A具有生物活性的小分子数据集和另一个分布在Ptarget B(x)上的对目标B具有生物活性的分子数据集。假设双目标分子位于这两个分布Pdual(x)的交叉点。在此,我们提出DLGN从两个没有相互分子的生物活性化合物数据集中学习潜在的双靶点分子分布Pdual(x)。
在对抗性训练和强化学习设置之后,引入了两个基于RNN的鉴别器DA和DB,来引导生成器G搜索Pdual(x)中的潜在分子。DA和DB以生成器G生成的SMILES为负样本,各自的生物活性化合物数据集为正样本进行训练。
除了DA(X)、DB(X)的和外,还将DA(X) 、DB(X)的差值的绝对值作为正则化项纳入奖励函数中:
有了这个奖励函数作为指导,生成器将学会生成能够同时最大化两个鉴别器的正向概率分数的分子。
三、实验
多巴胺受体D2 (DRD2)和5-羟色胺受体1A (HTR1A)与精神分裂症和重度抑郁症有关,在临床和临床前观察中,对这两种受体具有部分激动剂(拮抗剂)活性的化合物是有效的双靶点抗精神病药物。利用DLGN设计了针对DRD2和HTR1A的生物活性分子,作为新的抗精神病药物候选物
1、Baselines
RationaleRL、CMolRNN
2、Datasets
ChEMBL、ExCAPE-DB
选择ChEMBL对DLGN进行预训练,学习生物活性化学空间的基本语法。将escape-db中对DRD2和HTR1A活性值(IC50、EC50、Kd、Ki)<0.1 μM的分子分别作为各自的生物活性化合物库。使用DRD2数据集和HTR1A数据集通过对抗学习和强化学习来训练DLGN。
ChEMBL数据集中有344 184个生物活性分子,DRD2有2156个生物活性分子,HTR1A有2787个生物活性分子
3、Training DLGN
首先使用Teacher's forcing在ChEMBL数据集上预训练一个先验生成器,它使用字符串中先前的地面真相令牌,而不是之前网络预测的令牌作为输入,并在每一步最大化下一个ground-truth令牌的预测概率。然后使用DRD2和HTR1A训练数据集,通过DLGN框架对这个先验生成器进行微调,以设计针对两个相应目标的生物活性分子。
4、MOSES benchmarking
根据一种常用的化学信息学方法,具有相似化学结构的分子在大多数情况下具有相似的生物活性。如果生成的分子的化学结构与DRD2生物活性数据集和HTR1A生物活性数据集相似,那么这些生成的分子可能对DRD2和HTR1A都具有相似的生物活性
由于基于图形的生成模型在分子设计方面的优势,RationaleRL和CMolRNN的有效性值都接近于1,而DLGN的有效性较低,这是由于SMILES中一个令牌的微小变化可能导致很大的变化,甚至导致生成的分子无效。由RationaleRL生成的分子在所有结构相似性指标中得分最低。总体而言,DLGN在结构相似性度量方面表现最好。
5、Distribution of physicochemical property
LogP、QED和SAscore
DLGN生成的分子的性质分布更接近于两个测试数据集的性质分布。此外,与RationaleRL和CMolRNN相比,DLGN生成的分子数量更多,QED值更高,SA分数更低,logP值合适,但这三个特性与DLGN的奖励函数无关。
6、Ablation study
仅使用DDRD2和DHTR1A训练的生成器生成的分子显然与相应的生物活性测试集具有最高的结构相似性,但与其他生物活性测试集的结构相似性最低。另一方面,使用奖励函数DDRD2 + DHTR1A训练的生成器在DRD2和HTR1A之间具有平衡的结构相似性得分:DRD2和HTR1A之间的每个结构度量的差异很小。与使用奖励函数DDRD2 + DHTR1A训练的生成器相比,使用DLGN奖励函数训练的生成器几乎在每个指标上都得到了进一步的改进。
7、Evaluation by bioactive SVM models
重新使用两个SVM分类器来分别估计生成的分子是否对DRD2或HTR1A具有生物活性。如果生成的分子同时被DRD2 SVM和HTR1A SVM分类为生物活性,则该化合物很可能是双靶点候选分子。我们应用先验生成器、DLGN、RationleRL和CMolRNN分别生成10000个有效化合物。然后我们使用两个支持向量机对其进行评估,并将两个支持向量机预测的生成分子的概率绘制在平面直角坐标系中(图3和图4),以便更直观地观察。
8、Compare generated library with FDA approved drug
从DrugBank收集了所有fda批准的小分子药物(总共2621种),以及DRD2\HTR1A训练集中也存在的分子。
然后利用DLGN生成10000个有效的、独特的、新颖的分子。我们基于2048位半径3 ECFP计算每个生成的分子与FDA批准的所有药物之间的Tanimoto相似性,然后挑选出前50对来研究其药理作用。下面得分子相似且为新分子。
对比实验:
确实论文的思想值得学习,模型结构简单,有很多可借鉴之处。