Briefings in bioinformatics2021 | MolGNet+:基于分子全局表征的高效自监督框架,用于药物发现

news2024/11/28 8:34:13

原文标题:An effective self-supervised framework for learning expressive molecular global representations to drug discovery

代码:https://github.com/pyli0628/MPG.git

一、问题提出

(分子性质预测的背景都是老生常谈的)

药物发现是一个药物从发明到实际市场的漫长过程。同时,由于生物系统的复杂性和大量的实验,药物的发现很容易失败,并且固有的昂贵。为了解决这些问题,许多研究者在早期临床前研究的不同阶段提出了各种计算机辅助药物发现(CADD)方法,用于小分子药物设计,从命中识别和选择,命中先导优化,到临床候选药物。尽管传统的基于分子模拟技术的CADD方法在辅助药物发现方面取得了成功,但其计算成本高、过程耗时长,限制了其在制药工业中的应用。

人工智能与药物发现之间的跨学科研究因其卓越的速度和性能而受到越来越多的关注。许多AI技术已成功应用于药物发现的各种任务中,如分子性质预测、药物-药物相互作用(DDI)和药物-靶点相互作用(DTI)预测。

基本挑战是如何从分子结构中学习表达的信息

由于GNN的优越性能,一些研究者开始研究分子图数据的预训练策略。然而,由于分子图的拓扑结构多变,图数据往往比图像和文本数据更复杂,这给直接采用自监督学习方法的分子图带来了挑战。

受语言模型的启发,一些简单的自监督的大规模数据集预训练方法被提出,如Ngram, AttrMasking, ContextPredict和MotifPredict。然而,这些方法主要集中在节点级表示学习上,并没有显式地学习全局图级表示,导致在图级任务(如分子分类)中的收获有限。

二、模型方法

MolGNet是由n = 5个相同的层组成的堆栈;每个层循环执行T = 3次的共享消息传递操作,以支持更大的接收字段和更少的参数。

Self-supervised strategies

目前针对大规模分子图的预训练策略主要集中在节点级表示学习上。提出了一种自监督预训练策略,称为PHD,它明确地在图级预训练GNN。关键思想是学会比较两个半图(每个半图都是从一个图样本中分解出来的),并区分它们是否来自同一来源(二进制分类)。如果假设来自同一来源的两个半图可以组合成一个有效的分子,而来自不同来源的两个半图不能组合成一个有效的分子,PHD就是通过组合两个半图来识别分子的有效性,这可能会教会网络捕捉到一些分子的内在模式。如果假设来自同一来源的两个半图可以组合成一个有效的分子,而来自不同来源的两个半图不能组合成一个有效的分子,PHD就是通过组合两个半图来识别分子的有效性,这可能会教会网络捕捉到一些分子的内在模式。

1、MolGNet model

Neighbor attention module

原子、键集合为:

neighbor attention module将第i个原子的邻居节点j和对应的键eij相加,得到节点i的邻居信息:

在给定邻居信息和原子表示的情况下,该模块对所有原子执行scaled dot-product attention:

Ni表示i的邻居节点。利用归一化注意系数和邻居值Vj进行加权求和运算,得到每个节点的消息表示:

邻居注意模块也采用多头注意来稳定自我注意的学习过程,即K个独立注意机制对式(9)进行变换,然后将它们的特征进行串联,线性变换,得到如下输出表示:

Feed-forward network

σ为GELU激活函数。实验中,维度dff是d的4倍,即3072 (d = 768)。

Vertex update function(GRU)

PHD strategy

PHD任务的设计目的是区分两个半图是否来自同一来源。如图1所示,首先将the图分解为两个半图,其中一个半图有0.5的可能性被另一个半图所取代,采用交叉熵函数:

Graph decomposition and negative sampling

图表示为:G = (V, E),将其划分为Gs,1,Gs,2。G1结点有{v0, v1, v2}、G2结点有 {v3, v4, · · · , v7},这两个半图中的边分别对应邻接矩阵的左上子矩阵和右下子矩阵。为了得到大小均衡的半图,边界节点指数在节点总数的1/3 ~ 2/3范围内随机抽样。

对于负抽样,对数据集中的另一个图进行随机抽样,并使用上述方法将其分离为两个半图,将Gs,2替换为这两个半图中的一个,生成负抽样。负样本的生成方式对学习到的嵌入质量有很大的影响。它可以驱动模型来估计两个图是否可以组合成一个有效的图。通过这种方式,模型可以从节点和边中学习到图的有价值的图级特征,这些特征对下游任务至关重要。

Virtual collection node

半图对是两个互不关联的独立图。将这两个半图连接成一个完整的图,并引入一个虚拟集合节点,通过聚合每个节点的信息来获得全局图级表示。收集节点的特征可以掌握半图对的全局表示,并将其输入前馈神经网络进行最终预测。

Input representation

由Feature embedding + Segment embedding组成。Feature embedding是一组节点特征和边缘特征经过embedding transformation得到,Segment embedding是对每个节点和每条边进行学习后的segment,表示它属于哪个半图,不同的颜色代表不同的分段。

三、实验

MoleculeNet

可视化:

1)区分是否具备区分度。从ZINC数据集中随机选择1000个分子,通过打乱原子特征来扰乱分子结构,生成无效分子。对于每个有效和无效的分子,我们从预训练的最后一层MolGNet中提取集合节点的嵌入作为分子表示。(这个应该是需要可区分的,因为大量预训练了)

得到有效分子和无效分子的表示形式后,通过UMAP在投影二维空间中可视化:

2)是否预训练。与未经过预训练的MolGNet相比,经过预训练的MolGNet显示出与这10个分子支架相对应的更有特色的簇。

3)案例研究。以更细粒度的方式研究MPG的解释。用从预训练的MolGNet的最后一层获得的收集节点上的注意权值对所选分子的每个原子进行着色。注意力权重表示原子对全局特征的贡献。

MPG predicts the drug–drug interaction accurately and rationally

MPG boosts the performance of drug-target interaction prediction

Ablation studies

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/41922.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

loam 框架流程描述

前端流程(scanRegistration.cpp) 多线激光雷达即有多个激光发射器同时工作,如常见的 Velodyne16,就是共有 16 个激光发射器,一般这些发射器竖排排列,然后一起水平旋转。 激光雷达在一定的时间内旋转一圈,即一帧的点云数据。值得注…

Flutter教程之使用不同的方法维护 Flutter 应用程序状态

在开发应用程序时,主要关注的是当我们使用Tabs或Bottom Navigation Bar类的Widgets (Flutter 中几乎所有东西都是 widgets)时我们的应用程序将如何执行。 至于示例,让我们考虑一下我们有三个选项卡 UsersTab2Tab3在BottomNavBar和第一个索引上,我们有一个API 调用请求,它…

高效!启科量子线路模拟器 QuSprout 与 Amazon HPC 集成,赋能量子计算

KY1, Bertran Shao2, Adam Sun Amazon HERO;2.开发者生态负责人;3.Solutions Architect2022.11.17,启科量子正式开源其内部团队研发的量子线路模拟器:QuSprout 软件。结合早前其开源的启科量子编程框架 QuTrunk,开发者…

能源与经济面板数据集(中国能源统计年鉴面板数据+区域经济、人口与二氧化碳排放量面板数据)

一、中国能源统计年鉴面板数据 1、数据来源:中国能源统计年鉴 2、时间跨度:1991-2020 3、区域范围:全国 4、指标说明: 部分数据如下: 能源平衡表: 部分指标如下: 国内生产总值增长速度&am…

HTML网页设计制作——响应式网页影视动漫资讯bootstrap网页(9页)

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置,有div的样式格局,这个实例比较全面,有助于同学的学习,本文将介绍如何通过从头开始设计个人网站并将其转换为代码的过程来实践设计。 文章目录一、网页介绍一…

地图轨迹跟踪系统设计与实现(Android+Eclipse+APP)

目 录 1 在线地图轨迹APP概述 1 1.1 本论文的背景及意义 1 1.2 本论文的主要方法和研究进展 1 1.3 本论文的主要内容 1 1.4 本论文的结构安排 1 2 系统分析 3 2.1 研究目标 3 2.2 可行性分析 3 2.2.1 经济可行性 3 2.2.2 技术的可行性 3 2.3 需求分析 3 2.4 性能分析 4 3 系统开…

TPAMI 2022 | 自动搜索文本识别网络的高性能特征提取器

©PaperWeekly 原创 作者 | 陈卓群单位 | 清华大学论文标题:Searching a High Performance Feature Extractor for Text Recognition Network收录情况:TPAMI论文链接:https://ieeexplore.ieee.org/document/9887897代码链接:…

HTTPS(对称加密+非对称加密+证书)

目录 1. 加密和解密 HTTPS工作过程 2. 对称加密 3. 对称加密 4. 既然都有非对称加密了,那为啥还要有对称加密 5. 中间人攻击 6. 引入证书 HTTPS 也是一个应用层协议. 是在 HTTP 协议的基础上引入了一个加密层. HTTP 协议内容都是按照文本的方式明文传输的. 这就导致在…

笔记本电脑恢复删除数据的5种方法

我们都知道笔记本电脑比台式电脑拥有方便携带的优势,但是不论是笔记本还是台式电脑,难免会出现数据丢失情况,如最近有位小伙伴,不小心将自己出差需要使用的工作资料误删了,那么问题来了,笔记本数据删除怎么…

Vuex的搭建与使用

Vuex 专门在Vue中实现集中式状态(数据)管理的插件 (Vue.use(Vuex)),对Vue应用中多个组件的共享状态进行集中式的管理(读、写),也是一种组件间通信的方式,且适用于任意组件间通信。 如果多个组…

git的使用规范及技巧总结

一、什么是Git? Git是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。 也是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion 等不同&#x…

聚观早报 | 黑五电子产品销售额飙升;谷歌不满微软收购动视暴雪

今日要闻:黑五电子产品销售额飙升;谷歌不满微软收购动视暴雪;特斯拉海外充电站价格下降;欧盟对微软发起反垄断调查;小米13渲染图曝光黑五电子产品销售额飙升 据消息,Adobe数据和分析部门Adobe Analytics发布…

Navicat Premium 16 连接Oracle注意事项

起因 新同学使用的新版本的Mac电脑 但是装的W系统M芯片 发现 PLSQL Developer 并不兼容 导致无法连接到Oracle数据 就临时换成Navicat Premium 16进行连接 然后就出现了一系列问题 Oracle默认编码集 ZHS16GBK 该问题是Navicat Premium默认使用Navicat自带的instantclient_…

激光雷达发射的PCB布局

1、激光发射的电路如下图所示。 重点就是要考虑电容、GaN、激光器三部分的布局。 2>第一种布局方式 激光器、GaN、电容三者都在同一层上,放电的回路也都在顶层上,此时临近的第二层没有铺地。 用ANSYS仿真得到此时得回路电感为2nH左右。我们都以500M时得寄生电感来评估。…

面试官:介绍一下 Redis 三种集群模式

小码今天去面试。 面试官:给我介绍一下Redis集群, 小码:啊,平时开发用的都是单机Redis,没怎么用过集群了。 面试官:好的,出门右转不谢。 小码内心困惑:在小公司业务量也不大&…

操作系统

文章目录一,操作系统是什么二,操作系统的发展史1) 1945~1955年2) 1955~1965年:首个操作系统诞生3) 1964~1979年:多道程序系统诞生4) 1979~至今:网络操作系统和分布式操作系统快速发展三,操作系统的类别一&a…

静态HTML旅行主题网页设计与实现——联途旅游网服务平台网(39页)HTML+CSS+JavaScript

👨‍🎓学生HTML静态网页基础水平制作👩‍🎓,页面排版干净简洁。使用HTMLCSS页面布局设计,web大学生网页设计作业源码,这是一个不错的旅游网页制作,画面精明,排版整洁,内容…

KafKa C++实战

1 集群 1. Kafka架构是由producer(消息生产者)、consumer(消息消费者)、borker(kafka集群的 server,负责处理消息读、写请求,存储消息,在kafka cluster这一层这里,其实里面是有很多个…

SpringBoot+Vue项目校园防疫管理系统

文末获取源码 开发语言:Java 使用框架:spring boot 前端技术:JavaScript、Vue.js 、css3 开发工具:IDEA/MyEclipse/Eclipse、Visual Studio Code 数据库:MySQL 5.7/8.0 数据库管理工具:phpstudy/Navicat JD…

Apollo 应用与源码分析:Monitor监控-硬件监控-GPS

硬件架构图 可以看到左下角的“GNSS定位模块”其实是有IMU和GPS Antenna 组成的。 执行分析 代码 class GpsMonitor : public RecurrentRunner {public:GpsMonitor();void RunOnce(const double current_time) override; };void GpsMonitor::RunOnce(const double current_t…