论文解读:GBPNet:蛋白质结构的通用几何表示学习

news2024/11/27 22:30:30

GBPNet: Universal Geometric Representation Learning on Protein Structures

DOI:https://doi.org/10.1145/3534678.3539441

Github:GBPNet/gbpnet/datamodules at main · sarpaykent/GBPNet · GitHub

摘要:

蛋白质3D结构的表示学习对于例如计算蛋白质设计或蛋白质工程的应用是具有挑战性的并且是必不可少的。近年来,几何深度学习在非欧几里得领域取得了巨大成功。尽管蛋白质可以自然地表示为图形,但主要由于在建模复杂的表示和捕捉3D结构建模中的固有相关性方面存在重大挑战,因此它仍然没有得到充分的探索。几个挑战包括:1)在学习过程中提取和保存多级旋转和翻译等变信息是一项挑战。2) 难以开发适当的工具来有效地利用输入的空间表示来捕捉空间维度上的复杂几何图形。3) 难以结合各种几何特征并保留固有的结构关系。在这项工作中,我们引入了几何瓶颈感知器,以及一个一般的SO(3)-等变消息p

数据集

蛋白质结构分类数据集:CPD中使用的数据集是基于蛋白质结构分级分类(CATH)构建的[29]。具有相同CATH拓扑分类的测试集中的所有链都从训练和验证拆分中删除,以避免不平衡的数据集偏差。在实验中,我们在之前的工作[10]之后使用了80%、10%、10%的分割来测试我们的模型。过滤后,训练集中有18024个链,验证集中有609个链,测试集中有1120个链。

蛋白质结构排名数据集:PSR数据集是提交给CASP[18]竞赛的预测3D模型的集合。

预测的模型通过全局距离检验(GDT_TS)相对于实验观察到的天然蛋白质结构进行评估。

该数据集包含在九场CASP竞赛中提交的预测和目标。我们遵循与先前工作相同的数据集分割[30]。

配体结合亲和力预测数据集:LBA数据集是属

Benchmarks The proposed method is compared with the state-of-art methods for all three tasks.

• To validate the significance of the proposed GBP for PSR task, the proposed model is compared with 3DCNN [11], ProQ3D [31], VoroMQA [24], RWplus [36], SBROD [14], Ornate [26], DimeNet [17], GraphQA [3], and GVP [11].

• For the LBA task, we compared the proposed model with Cormorant [2], 3DCNN [11], DeepAffinity [15], DGIN [23], DGAT [23] , DGAT-GCN [23] and GVP [11].

• To validate the superiority of the proposed GBP for the classification task CPD, the proposed method is compared with STran [10], SGNN [10], and GVP [12].

实验

在本节中,我们评估了我们提出的GBPNet在蛋白质3D结构的几何表示学习中的三个核心任务:CPD、PSR和LBA。除了在所需任务输出和真实世界用例中的多样性外,这三个任务还跨越了我们提出的几何消息传递框架的不同用例:CPD是一个分类任务,PSR和LBA是回归任务。

实验是在具有24GB内存的4x Nvidia 3090 GPU上进行的。在补充材料中进一步讨论了设计选择和超参数

 

 模型结构

学习复杂蛋白质结构的几何性质是一个具有挑战性的问题。我们的研究旨在学习表象𝐹 嵌入几何结构信息的图,并满足分析和执行下游任务的几个方面,包括强判别力和等变性质。要实现这一目标,需要解决几个挑战,包括:1)难以利用节点/边和图谱中不同类型和级别的几何信息。2) 难以在空间维度上捕捉复杂的几何图形。3) 为广泛的几何表示学习任务设计通用框架的困难。

为了纠正上述挑战,我们提出了一种新的基于几何瓶颈感知器的图神经网络(GBPNet)来对蛋白质的3D结构进行建模。如图2所示,整个体系结构由三个主要组件组成。我们首先构造t中的几何图

结果

7.1.1计算蛋白质设计。表1显示了GBPNet与CPD任务基线的比较。我们提出的方法在困惑和恢复分数方面都优于基线方法。此外,所提出的模型将Short和Single子集的困惑增加了15%以上。所有结构的回收率提高了8%以上。平均而言,我们的模型将性能提高了8%。

7.1.2蛋白质结构分级。表2显示了GBPNet在PSR任务上的性能比较。我们将结果分为两部分,即局部和全局。局部表示每个目标计算评估度量,并对结果进行平均以获得最终值。全局表示应用于测试集中所有样本的评估度量。与所有基线方法相比,我们的模型在每个指标上都取得了最佳性能。平均而言,与最佳基线方法相比,局部指标的改进超过5%。

 

 消融实验

在本节中,我们对GBP的两种变化进行了消融实验,以研究影响模型性能的因素。表4显示了我们的评估结果。Δt表示以秒为单位完成一个训练时期的平均时间。

7.2.1 GBP表达路径的影响。我们比较了GBP表达式路径对𝑠 和𝑉 如表4的第一行所示。仅标量变体删除(𝑉 ) 节点和边的路径。模型性能在困惑和恢复分数上都严重下降。因此,与标量相互作用的向量表达式路径对于几何图表示学习至关重要。矢量投影变化删除上的瓶颈缩小和放大操作𝑉 路径(如果可能)。结果表明,具有瓶颈的载体表达路径成功地帮助模型学习了蛋白质的几何结构。Vector Identity变量删除了用于计算的逐元素乘法𝑉 ′ 英镑板块。尽管这种变化在困惑得分方面与我们提出的模型表现相似,但恢复得分平均下降了3%。

 

 

 结论

本文的重点是学习蛋白质结构的几何表示。我们提出了GBPNet,一种新的SO(3)-等变信息传递神经网络,用于学习蛋白质结构的几何表示。此外,我们还提出了一个名为“几何瓶颈感知器”的插件模块,以集成几何特征并捕捉三维结构中复杂的几何关系。我们提出的GBP是一个功能强大且通用的模块,用于学习和表示几何特征。我们展示了GBPNet在三个任务上的性能,实验结果验证了所提出架构的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/628873.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

单链表OJ题:LeetCode--160.相交链表

朋友们、伙计们,我们又见面了,本期来给大家解读一下LeetCode中第160道单链表OJ题,如果看完之后对你有一定的启发,那么请留下你的三连,祝大家心想事成! 数据结构与算法专栏:数据结构与算法 个 人…

Lecture 19 Question Answering

目录 introductionIR-based QA (dominant approach)Knowledge-based QAHybrid QAConclusion introduction Definition: question answering (“QA”) is the task of automatically determining the answer for a natural language questionMostly focus on “factoid” quest…

牛客网论坛最具争议的Linux内核成神笔记,GitHub已下载量已过百万

原文地址:牛客网论坛最具争议的Linux内核成神笔记,GitHub已下载量已过百万 1、前言 Linux内核是一个操作系统(OS)内核,本质上定义为类Unix。它用于不同的操作系统,主要是以不同的Linux发行版的形式。Linu…

网红如何创建百度百科词条?

随着互联网的发展,越来越多的人开始从事网红行业。对于网红来说,提升自己的个人形象至关重要,一个提升品牌形象的快速方式就是创建百度百科词条。网红如何创建百度百科词条?如何创建一个高质量的百度百科词条?下面伯乐…

万维网服务器

一、域名解析gethostbyname函数 struct hostent {char *h_name; /* 官方域名 */char **h_aliases; /* 别名*/int h_addrtype; /* 地址族(地址类型) */int h_length; /* 地址长度 */char **h_addr_list; …

Qt扫盲-Qt事件系统概述

Qt事件系统概述 一、概述二、事件类型 - Event Types三、事件处理程序 - Event Handlers四、事件过滤器 - Event Filters五、发送事件 - Sending Events1. sendEvent()2. postEvent() 一、概述 在Qt中,事件是由抽象的QEvent类派生而来的对象,表示发生在…

凌恩全新育种分析流程!助力种质资源高分文章发表!

种质资源又称遗传资源。种质是指生物体亲代传递给子代的遗传物质,它往往存在于特定品种之中。如古老的地方品种、新培育的推广品种、重要的遗传材料,野生近缘植物以及利用上述繁殖材料创造的各种遗传材料,都属于种质资源的范围,是…

为什么要使用微软的 Application Framework?

我是荔园微风,作为一名在IT界整整25年的老兵,今天来看一下我们为什么要使用微软的 Application Framework? 虽然Application Framework 并不是新观念,它们却在最近数年才成为 PC 平台上软件开发的主流工具。面向对象语言是具体实…

【Spring Boot 初识丨三】starter

Soring Boot 初识 【Spring Boot 初识丨一】入门实战 【Spring Boot 初识丨二】maven 本篇来讲一讲 starter 依赖项 Starter 一、定义二、启动器2.1 应用启动器2.2 生产启动器2.3 技术启动器 一、定义 启动器是一组方便的依赖关系描述符,它包含了一系列可以集成到应…

并行事务会引发的三个问题

并行事务是指同时运行多个事务,每个事务独立地执行,并且不会相互影响。在数据库管理系统中,当多个用户同时对同一个数据集进行读取或者写入的时候,使用并行事务可以提高系统的吞吐量和响应时间。同时,由于并行事务可以…

c++学习之继承

目录 一,为什么需要继承 二,继承的基本概念 三,派生类的定义 四,继承中的析构预构造 1,子类中的构造与析构的顺序 2,子类调用成员对象,父类的有参构造 五,子类与父类的同名处理…

防雪崩利器之Hystrix

Hystrix作为一个容错组件,本文从它的作用、熔断设计、工作流程和应用方面一一道来,帮助大家了解如何使用。 1、什么是灾难性雪崩效应 要讲Hystrix,我们就要讲一种场景,在微服务架构中,如果底层服务出现故障&#xff0…

Ubuntu搭建APM固件编译环境

文章目录 前言一、下载源码二、配置编译环境三、编译固件 前言 Ubuntu20.04 APM 4.2.3 参考链接: https://ardupilot.org/dev/docs/building-setup-linux.html 一、下载源码 git clone https://github.com/ArduPilot/ardupilot.git下载完之后 cd ardupilotgit s…

Lecture 18 Information Extraction

目录 Named Entity RecognitionRelation ExtractionOther IE TasksConclusion information extraction Given this: “Brasilia, the Brazilian capital, was founded in 1960.”Obtain this: capital(Brazil, Brasilia)founded(Brasilia, 1960) Main goal: turn text into str…

Linux基本指令详细介绍 【Linux】

文章目录 ls 指令( list directory contents)ls -als -alls -dlls -l (ll)ls -alF文件的类型 : pwd命令(Print Working Directory)cd 命令 (change directory)cd ..cd ~cd - touch指令mkdir指令mkdir -p ( parents) treermdir指令&#xff08…

【数据结构】哈希应用

目录 一、位图 1、位图概念 2、位图实现 2.1、位图结构 2.2、比特位置1 2.3、比特位置0 2.4、检测位图中比特位 3、位图例题 3.1、找到只出现一次的整数 3.2、找到两个文件交集 3.3、找到出现次数不超过2次的所有整数 二、布隆过滤器 1、布隆过滤器提出 2、布隆过…

javaScript蓝桥杯----商城管理系统

目录 一、介绍二、准备三、目标四、代码五、完成 一、介绍 在商城管理系统中,超级管理员和普通管理员因为权限不同,登录进入后看到的菜单也会是不同的。 本题需要你完成商城管理系统中权限数据的处理。 二、准备 开始答题前,需要先打开本…

2023年,千万不要裸辞....

作为IT行业的大热岗位——软件测试,只要你付出了,就会有回报。说它作为IT热门岗位之一是完全不虚的。可能很多人回说软件测试是吃青春饭的,但放眼望去,哪个工作不是这样的呢?会有哪家公司愿意养一些闲人呢?…

硬件设计电源系列文章-LDO基础知识

文章目录 概要整体架构流程技术名词解释技术细节小结 概要 提示:这里可以添加技术概要 例如: 本文主要开始讲述电源的发展 整体架构流程 提示:这里可以添加技术整体架构 AC/DC转换基础。为什么需要AC需要DC 技术名词解释 提示&#x…

车载测试很难吗?我靠着这套面试资料拿下了16k车载测试offer!

目录 如何写简历 项目经验 如何准备面试 车载项目的实施 常见面试题 总结: 车载测试通常包含以下三个方面: 系统测试:对整车系统进行测试,如车载电子系统、底盘系统、动力系统等。系统测试主要是评估整车各项性能指标是否达到…