预测PLA是药物发现中的核心问题。最近的进展显示了将ML应用于PLA预测的巨大潜力。然而,它们大多忽略了复合物的3D结构和蛋白质与配体之间的物理相互作用,而这对于理解结合机制至关重要。作者提出了一种结合3D结构和物理相互作用的几何相互作用图神经网络GIGN,用于预测蛋白质-配体的结合亲和力。具体来说,作者设计了一个异构相互作用层,将共价和非共价相互作用统一到消息传递阶段,以更有效地学习节点表示。异构相互作用层还遵循基本的生物学定律,包括复合物的平移和旋转的不变性,从而避免了昂贵的数据增强策略。GIGN在三个外部测试集上实现了最先进的性能。
来自:Geometric Interaction Graph Neural Network for Predicting Protein−Ligand Binding Affinities from 3D Structures (GIGN)
目录
- 背景概述
- 方法-不变性
-
- 定义
- GIGN的不变性分析
背景概述
药物发现中的一个关键问题是蛋白质-配体结合亲和力的预测,PLA描述了候选药物与蛋白质之间结合相互作用的强度。为了确定对某一特定蛋白质有效而安全的药物,药理学家必须测试数千种化合物。然而,实验测量PLA既费时又耗资源。计算机方法能够根据PLA的预测对候选药物进行排序并优先考虑更好的药物,从而加快药物筛选的过程。
随着高质量实验确定的蛋白质-配体结构及其结合亲和力的增加,ML方法已被广泛用于通过从数据中识别有用的模式来预测蛋白质-配体的结合亲和力或相互作用。根据模型是否依赖物理相互作用做出决策,现有的基于ML的PLA预测方法可分为无交互和基于交互两类,如图1所示。
无相互作用方法隐含地假设ML模型可以从不显示物理蛋白质-配体相互作用的数据中预测PLA。因此,配体通常用SMILES或二维graph表示,蛋白质用序列表示,而为了简单起见,省略了原子相互作用。例如,DeepDTA使用SMILES字符串和蛋白质序列作为输入,然后使用两个CNN从中提取特征。另一方面,GraphDTA和MGraphDTA将配体表示为二维分子graph,以保留二维结构信息。无相互作用的方法可以用于预测没有三维结构和物理相互作用信息的配合物的结合亲和力。然而,三维结构和物理相互作用已被证明是提高模型泛化能力的必要条件(Structure-aware interactive graph neural networks for the prediction of protein-ligand binding affinity)。
相比之下,基于相互作用的模型基于复合物的三维结构和蛋白质与配体的物理相互作用进行预测。在基于相互作用的模型中,3D-CNNs和相互作用图神经网络IGNNs是最常用的基于原子相互作用信息的三维结构结合亲和力预测模型。3D-CNNs针对复合物的3D grids提取特征,这是效率较低的,因为grid中的大多数体素不包含结构相关的有用信息。此外,由于每个体素的位置不是旋转不变的,旋转原子坐标会改变结合亲和力的预测值,这与生物学事实不一致。另一方面,IGNNs将蛋白质-配体复合物表示为相互作用图,其中节点对应原子,边缘对应共价键或非共价键/相互作用。向IGNNs中注入结构信息的最常见方法是使用从它们的3D坐标计算的成对原子-原子距离,这确保了IGNNs对复合物的平移和旋转的不变性。
尽管IGNNs在PLA预测方面具有巨大的潜力,但由于其泛化能力不足,导致还没有为实际应用做好准备。作者总结了现有IGNNs在结合亲和力预测方面存在的两个潜在问题。首先,现有的IGNNs通常将共价相互作用和非共价相互作用视为同一类型的相互作用。在这种情况下,配体节点可以在信息传递过程中同时接收来自其共价和非共价邻居的信息,如图2a所示。尽管这种假设简化了建模,但它有一个明显的缺点。非共价相互作用的数量远远大于共价相互作用的数量,因此非共价相互作用将主导计算,即共价相互作用的信息可能被非共价相互作用的信息所吞没。其次,几何先验(对称先验)是一种重要的inductive bias,可以利用问题的对称性将神经网络限制在相关函数上,从而提高模型泛化能力。例如,对于具有不同初始位置,例如不同位置和方向的相同蛋白质-配体复合物,预测的结合亲和力应该保持不变,如图2b所示。然而,这种不变性仍然没有得到充分的研究,例如,很少有研究试图证明IGNNs可以从考虑不变性中受益。
- 图1:PLA方法总结。
- 图2:动机和方法。
为了解决上述问题,作者提出了一种几何相互作用图神经网络GIGN,该网络结合了三维结构和物理相互作用以及不变性约束来预测蛋白质-配体的结合亲和力。GIGN的主要贡献包括:
- GIGN使用异构交互层,将共价和非共价交互统一到消息传递阶段,以更有效地学习节点表示。异构交互层将共价交互和非共价交互视为不同类型的交互,并在消息传递期间独立处理它们,从而避免了图2a中描述的缺点。
- GIGN强制神经网络满足关于输入平移和旋转的不变性。研究表明,考虑模型的不变性可以大大提高模型的泛化能力。
- 实验结果表明,GIGN在三个外部测试集上达到了最先进的性能,且计算成本较低,更易于适用于大规模数据库。
- 可视化结果表明,GIGN可以捕获与binding相关的基本特征。
方法-不变性
定义
令 T : X → X T:X\rightarrow X T:X→X为一个变换集合(比如,旋转,平移,反射,排列)。GNN f : X → Y f:X\rightarrow Y f:X→Y对于 T T T是不变的,前提是: f ( T ( X ) ) = f ( X ) f(T(X))=f(X) f(T(X))=f(X)。
GIGN中探讨了两种不变性:
- 平移不变性: f ( X + g ) = f ( X ) f(X+g)=f(X) f(X+g)=f(X)
- 旋转不变性: f ( Q X ) = f ( X ) f(QX)=f(X) f(QX)=f(X)
GIGN的不变性分析
异构交互层 F F F对于平移和旋转是不变的。形式上, F F