Nat. Commun. | 无需参数的几何深度学习，可准确预测蛋白质结合界面

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自Matteo Dal Peraro团队的一篇关于预测蛋白质结合的论文。蛋白质是生命的重要分子组成部分，由于其特定的分子相互作用而负责大多数生物功能。然而，预测它们的结合界面仍然是一个挑战。作者提出了一种几何变换模型PeSTo，作用于仅标有元素名称的原子坐标上。此模型可精确预测蛋白质-蛋白质界面，超越了当前最好的相关模型，并且还可以高度自信地预测和区分涉及核酸、脂质、离子和小分子的界面。其低廉的计算成本使得可以处理大量结构数据，如分子动力学集合，从而可以发现静态实验解决的结构中未被注意到的界面。

分子界面在生物学中是无处不在的，除了它们在建立细胞边界和细胞内组织方面起着核心作用外，在蛋白质周围尤其重要，蛋白质通过与其他蛋白质以及核酸、膜以及各种分子和离子相互作用来执行其功能。预测给定蛋白质可以与其他分子建立的相互作用仍然是生物学中的主要挑战。目前最先进的预测蛋白质相互作用的方法针对的是预测特定的相互作用残基/原子对，强烈依赖于残基-残基共同进化模式的分析，因此仅限于蛋白质-蛋白质相互作用，或仅预测蛋白质哪些区域容易相互作用。即使后者是一个较简单的问题，但仍远未解决，大多数方法主要是发现适用于与其他蛋白质相互作用的蛋白质界面，强调蛋白质表面的特征，在某些情况下也利用它们的序列特征。这些方法是极其耗时的，并且复杂化了其在蛋白质组学规模的高通量应用;此外，它们需要参数化，对3D结构或模型的细节和误差非常敏感。基于从头折叠蛋白质复合物的方法，同时发现相互作用界面和亚基构象，例如AlphaFold-multimer，仅限于蛋白质-蛋白质相互作用，比从结构预测相互作用界面要慢得多，并且受折叠是否成功影响。

为此，作者开发了一种基于旋转等变的transformer神经网络，直接作用于蛋白质原子，预测具有高置信度的相互作用界面，无需对物理系统参数化，运行速度足够快并可以处理大型结构数据集。作者基于这个transformer开发了PeSTo，一种蛋白质结合界面预测器。PeSTo被训练用于预测蛋白质-蛋白质相互作用界面，性能超过了目前的模型。由于该方法不依赖于任何显式的物理化学特征参数化，因此训练以预测其他类型的结合界面是很容易的。

模型(PeSTo)

PeSTo，一种无需参数的几何transformer，直接作用于蛋白质的原子上。如上图所示，蛋白质结构被表示为以原子位置为中心的点云，并通过成对距离和相对位移向量描述其几何形状，以保证平移不变性。原子仅使用它们的元素名称和坐标，没有添加任何数值参数化，例如质量、半径、电荷或疏水性。每个原子都与一个编码结构属性的标量状态（q）和矢量状态（p）相关联。作者定义了一个几何transformer操作作用于这些点云，如上图a所示。所有最近邻（nn）的原子之间的相互作用都使用几何形状（即距离和位移向量）和涉及的原子对的状态进行编码。最后，模型利用多头注意力层解码和调节信息的传播。几何transformer操作具有平移不变性、旋转等变性和原子顺序和相互作用顺序的独立性。为了保持向量状态的旋转等变性，几何transformer线性组合来自局部几何和局部状态向量的缩放向量，以基于局部上下文动态传播向量状态信息。注意力操作允许动态数量的最近邻。在实践中，具有固定数量的最近邻比动态操作要高得多的计算效率。与在图像上应用卷积操作的方式相同，链接transformer可以在比单个操作的局部上下文更长的范围内传播信息。因此，模型主要架构基于自下而上的方法，从8个最近邻（≈3.4 Å半径）的小范围上下文开始，一直到64个最近邻（≈8.2 Å半径）的长程相互作用（上图b）。上下文的大小逐渐增加，使模型能够逐步包含更多信息，同时对于深层模型而言，在计算需求和内存方面更便宜。几何变换器之间的残差连接使得可以训练更深的神经网络架构。两个额外的模块在残基水平上独立地汇总基于原子的几何描述，而不考虑残基内的原子数量，并预测每个氨基酸是否处于相互作用界面上（上图c）。

蛋白质-蛋白质结合界面预测

作者使用超过30万个来自PDB的蛋白质进行训练。PeSTo的输出值范围从0到1，用于预测哪些残基参与蛋白质-蛋白质界面的形成，值为0表示残基不参与交互，值为1表示残基在界面上（上图a）。文章首先与最近的类似方法ScanNet进行了性能比较，结果表明在一个共有417个蛋白质结构的基准数据集上，PeSTo在无多序列比对的情况下表现优于ScanNet，ROC曲线下面积为0.93比0.87。PeSTo的速度也比ScanNet快两个数量级。此外，PeSTo还在MaSIF-site等其他算法的基准数据集上表现出色，ROC曲线下面积为0.92，预测的界面优于其他算法的预测结果。这些结果表明PeSTo是一种高效而准确的蛋白质-蛋白质界面预测方法。重要的是，该模型所需的运行时间短，能够高效地评估从分子动力学（MD）模拟中提取的大型结构集合中的快照。作者将PeSTo应用于从PPDB5中选择的20个二元复合物的实验推导未绑定和绑定亚单位的1微秒原子级MD模拟的构象进行蛋白质-蛋白质界面预测（上图c）。绑定和未绑定结构以及MD采样构象的中位数ROC AUC分别为0.85、0.82和0.79。

一般蛋白质结合界面预测

鉴于蛋白质-蛋白质相互作用预测的结果，作者扩展了模型以发现和识别更多类型的界面，从而得到了一个通用的PeSTo模型，可以预测蛋白质与其他蛋白质以及核酸、离子、配体和脂质之间的相互作用界面。作者使用包含各种预期相互作用类型的PDB结构训练了一个通用的PeSTo模型。蛋白质-核酸界面的界面预测几乎与蛋白质-蛋白质界面一样好，在测试集上达到了ROC AUC为0.89。该通用模型还可以检测离子、配体和脂质界面，它们在各自的测试集上的ROC AUC分别为0.87、0.86和0.77。在蛋白质-脂质预测方面的较差表现取决于PDB中蛋白质-脂质复合物的数量相对较少（仅占可用数据的0.7%）。作者随后重新处理数据，在训练、验证和测试集之间保持最大化5％的序列同源性而不是30％，然后重新训练模型，作者发现平均ROC AUC内稳定地+-1％，证实了PeSTo在同源性降低方面的稳定性。

预测人类蛋白质组的结合界面的高通量研究

作者研究整个人类蛋白质组，并分析所有潜在的蛋白质界面，这些界面可以与其他蛋白质、核酸、脂质、配体和离子结合。为此，作者获取了AlphaFold-European Bioinformatics Institute（AF-EBI）数据库19,41中所有人类蛋白质的结构和模型，基于它们的pLDDT和PAE分数选择了7464个高质量模型进行进一步分析。模型界面预测的质量非常高，将预测的界面映射到UniProt注释的特征表明，它们与预期的结合界面的功能具有一致性，结果如上图a所示。值得注意的是，47%的UniProt注释的突变位点位于预测的界面中，其中28%对应致病的自然变异位点，14%对应良性自然变异位点，而在随机残基中处于界面内的基线为19%，如上图b所示。除此之外，在预测界面的大规模分析中，作者观察到某些界面类型之间强烈的分离性和部分界面类型之间的相当大的重叠性，如图c所示。前一种情况的例子是易于与蛋白质或离子/配体相互作用的蛋白质界面，它们高度分离。具有相当大重叠的界面对中，其中一个界面是与其他蛋白质相互作用，另一个界面与脂质相互作用，这可能指向可逆的蛋白质二聚体/寡聚体在膜上的存在。

结论

文章表明，通过蛋白质原子坐标的几何变换即可高精度地检测和分类蛋白质结合界面，超越了目前已知的预测能力，而无需显式地描述系统的物理和化学性质。所有这些都可以用较少的计算资源和非常快的速度来实现，可以分析大型结构集合，例如由分子动力学模拟产生的集合，这揭示了研究蛋白质相互作用网络的动态特征的机会。

参考资料

Krapp, L.F., Abriata, L.A., Cortés Rodriguez, F. et al. PeSTo: parameter-free geometric deep learning for accurate prediction of protein binding interfaces. Nat Commun 14, 2175 (2023).

https://doi.org/10.1038/s41467-023-37701-8