Communications chemisty|德睿智药工作-用于分子性质预测的药物约束异构图Transformer模型

德睿智药的分子性质预测任务

题目： Pharmacophoric-constrained heterogeneous graph transformer model for molecular property prediction

文献来源：COMMUNICATIONS CHEMISTRY | (2023) 6:60 |

代码：https://github.com/stardj/PharmHGT/

内容：分子的信息表征是人工智能驱动的药物设计和发现的关键前提。包括了官能团和化学反应的药效团信息可以表明分子性质，而这尚未被先前的基于原子的分子图表示充分利用。为了获得更丰富的分子表示，以更好地预测分子性质，作者提出了药物约束异质图Transformer（Pharmacophoric-constrained Heterogeneous Graph Transformer，PharmHGT）。作者设计了一个药效学约束的多视图分子表示图，使PharmHGT能够从功能子结构和化学反应中提取重要的化学信息。通过精心设计的药物约束多视图分子表示图，PharmHGT可以从分子功能亚结构和化学反应信息中学习更多的化学信息。大量的下游实验证明，PharmHGT的性能显著优于最先进的模型，模型的ROC-AUC中高达1.55%，在RMSE中比最佳基线模型高出0.272。消融研究和案例研究表明，本文提出的分子图表示方法和异构图Transformer模型可以更好地捕获药效学结构和化学信息特征。进一步的可视化研究也表明，模型具有更好的表征能力。

1.背景介绍

药物发现的目标是找到具有理想性质的新分子，而准确地预测分子的性质一直是关键问题之一。分子性质预测的关键步骤是如何表示将分子信息映射到特征向量的分子。近几十年来，深度学习方法已经显示出了与传统方法相当、甚至超越传统方法的强大潜力。图神经网络（GNNs）由于其对图结构数据的建模能力而越来越受欢迎。在生物网络数据的关联预测任务中，异构图神经网络算法取得了显著的效果。分子可以自然地表示为图结构，因此gnn方法可以有效地捕获分子结构信息，包括节点（原子）和边（键）。

虽然将片段信息纳入图形结构有利于一些分子性质估计任务，GNN在这个领域的使用仍存在两个问题： (1)这些模型没有提供一个全局化学视角方法来更好地整合原子和片段碎片信息，都忽略了碎片之间的反应信息；(2)缺乏原子、碎片和键的不同类型和特征维度的泛化能力。为了解决这两个问题，需要嵌入来自不同层次的更全面的信息，因此需要开发一个异构GNN模型进行分子性质预测的任务。

在本研究中，作者提出了一种药物约束异质图Transformer模型（PharmHGT）来全面学习异构分子图特征的不同角度从而提高分子性质预测能力。首先，作者利用BRICS的反应信息将分子划分为包含官能团的片段，并保留这些片段之间的反应信息，构建了包含两种节点和三种边的异构分子图（图1）。然后，为了全面考虑分子的多视图和多尺度图表示以及连接片段的反应信息，作者提出了一种新的基于消息传递的异构图Transformer模型。具体来说，他们使用两种不同的Transformer分别学习异构图中的边和节点的特征，并通过消息传递对这些边和节点的特征进行聚合和更新，以获得异构分子图的表示。

图1 是分子分割过程的概述和异构分子图的构建。在底部的异构分子图中，绿色节点表示带有药效团信息的片段，蓝色节点表示分子的原子。绿色的边是碎片之间的反应信息，红色的虚线边是连接碎片的原子的相关信息，原子之间的边是键合的。

2. 结果及讨论

2.1 数据以及baseline模型

为了更好地比较和证明PharmHGT的有效性，作者选择了9个基准分子数据集进行实验，包括血脑屏障通透性（BBBP）、BACE、ClinTox、Tox21、内幕和HIV进行分类任务，以及ESOL、Freesolv和亲脂性进行回归任务。

作者将其模型与3种不同类型的8个基准模型进行比较:

基于片段的方法：AttentiveFP是一种图的神经网络架构，它使用图的注意机制从相关的药物发现数据集中学习。FraGAT利用面向片段的多尺度图注意网络进行分子性质预测；MGSSL通过引入一种新的自监督主题生成框架，设计了基于主题的图自监督学习（MGSSL）。

MPNN类方法：MPNN将现有的几个最有前景的神经模型之间的共性抽象到一个单一的公共框架中，并专注于通过消息传递模块和消息更新模块获得有效的顶点（原子）嵌入；DMPNN：使用与定向键相关的消息，而不是与顶点相关的消息；CMPNN引入了一个新的消息增强模块来丰富消息生成过程。

图Transformer方法：CoMPT采用Transformer架构，通过加强节点和边缘之间的信息交互，学习了更专注的分子表示； GROVER模型通过精心设计的节点级、边缘级和图形级的自我监督任务，从大量的未标记分子数据中学习分子的丰富的结构和语义信息。此外，Graphormer模型也基于Transformer，但Graphormer是一个三维模型，它需要每个小分子的三维构象。

2.2 结果

表1 在分子性能预测分类任务上与最新方法的性能比较。

在分类任务：模型的工作特征曲线（ROC-AUC）的面积。Clintox、Tox21、ToxCast和SIDER都是多任务学习任务，其中包括总共658个分类任务。与传统的基线和几种基于gnn的模型相比，PharmHGT在所有数据集中都实现了ROC-AUC的大幅增加.PharmHGT的设计目的是为了更关注药效团的作用，这使得该模型更易于解释。值得注意的是，PharmHGT的计算成本优于训练前的方法。

表2 在分子性能预测回归任务上与最新方法的性能比较。

在回归任务：溶解度和亲脂性是基本的物理化学性质，这对于解释分子如何与溶剂和细胞膜相互作用至关重要。表2将PharmHGT结果与其他最先进的模型结果进行了比较。PharmHGT模型对ESOL、FreeSolv和亲脂性的最佳情况RMSE为0.680 ± 0.137、1.266 ± 0.239和0.583 ± 0.063，支架分裂为0.839 ± 0.049、1.689 ± 0.516和0.638 ± 0.040。这些结果表明，更好地表示包含更多信息的分子图可以显著提高模型对下游任务的性能。

2.3 消融实验

作者对PharmHGT进行了消融研究，以探讨原子水平视图、药物水平视图和结水平视图的影响。在相同的实验设置下，我们在两个基准上实现了PharmHGT的7个简化变体：

(1) PharmHGT_α：只保留原子级图。

(2) PharmHGT_β：只保留带有反应信息的水平图。

(3) PharmHGT_γ：只保留连接级图。

(4) PharmHGT_βα：通过将药物级图的特征与反应信息聚合到原子级图中。

(5) PharmHGT_γα：通过将连接级图的特征聚合到原子级图中。

(6) PharmHGT_βγ：通过将药物水平的特征与反应信息聚合到连接级图中。

(7) PharmHGT_γαβ：通过将结级图的特征与原子级图进行聚合，然后聚合到分支级图中。

如图3所示，考虑到来自所有视图的异构特征信息的PharmHGT在所有架构中显示出最好的性能。排除原子级、ἧ级或连接级视图都会导致性能下降，而当仅保留具有反应信息的ἧ级图时，PharmHGT_β表现最差。这表明，缺乏来自原子的信息并不能有效地代表分子的特征。当结合两种特征信息时，PharmHGT_γα将结级图聚合成一个原子级图，在具有一个或两个视图的模型中性能最好。这证明了整合来自分子片段的特征信息可以提高预测性能。PharmHGT的研究结果表明，进一步整合反应信息可以获得最有效的分子表征。

图3 在BBBP和ESOL数据集上的消融结果。“X”代表PharmHGT，“X_”代表聚合原子级、连接级和物理级特征的不同PharmHGT变体。

2.4 可视化

为了研究PharmHGT的分子表示学习能力，作者使用具有默认超参数的t-分布随机邻域嵌入（t-SNE）来可视化图4中Tox21数据集的分子表示。对于这个结果，我们将所有标记为0的分子定义为无毒化合物，将任何标记为1的分子定义为有毒化合物，并且具有相似毒性的分子往往具有更多相似的特征空间。因此，我们通过t-SNE可视化它们的嵌入，并评估模型是否可以通过有毒和无毒分子是否有明确的边界来学习有效的分子表示。DMPNN在Tox21任务中能力排名第二，并在有毒和无毒分子之间实现了合理的区分（图4a），但PharmHGT对有毒和无毒化合物的分类有更明显的边界（图4c）。此外，单视图（图4b）的性能远远低于多视图PharmHGT（图4c），这也证明了考虑分子多视图信息的必要性。