Nat. Mach. Intell2021 | MolCLR+:基于GNN的分子表征对比学习

news2024/11/26 16:50:22

原文标题:Molecular Contrastive Learning of Representations via Graph Neural Networks

代码:https://github.com/yuyangw/MolCLR

一、问题提出

首先,分子信息难以完全表示。例如,基于字符串的表示,如SMILES和SELFIES,不能直接对重要的拓扑信息进行编码。

其次,化学空间的大小是巨大的,例如,潜在的药理活性分子的大小估计在10^60量级。这给在潜在的化合物中推广任何分子表示都带来了很大的困难。

第三,分子学习任务的标记数据是昂贵的,远远不够,特别是当与潜在化学空间的大小相比。获得分子性质的标签通常需要复杂而耗时的实验室实验。

二、Methods

1、Graph Neural Networks

a molecule graph G is defined as G = (V,E), where V and E are nodes (atoms) and edges (chemical bonds),respectively

GNN第k层节点特征的聚合更新规则如式1所示:

h(k)v是节点v在第k层的特征, h(0)v由结点特征xv初始化

实际Readout为mean pooling

2、Contrastive Learning

其中zi和zj是从正数据对中提取的潜在向量,N是batchsize,sim(·)度量两个向量之间的相似性,τ是温度参数。余弦相似度:

整个pipeline(图1(a))由四个部分组成: data processing and augmentation、GNN-based feature extractor、non-linear projection head和normalized temperature-scaled cross-entropy (NT-Xent) contrastive loss。

过程:smiles Sn (batch_size=N)  → 分子图Gn → data processing and augmentation: 将Gn转换为两个不同但相关的分子图Gi、Gj,其中i = 2n−1和j = 2n。同一分子扩增的分子图记为正对,而由不同分子扩增的分子图记为负对 → GNN-based feature extractor:通过GNN提取特征,转换为隐藏state hi、hj → non-linear projection head:由一个隐层的MLP模型模拟,将表示hi和hj分别映射为潜在向量zi和zj → normalized temperature-scaled cross-entropy (NT-Xent) contrastive loss:将归一化温度交叉熵(NT-Xent)损失应用于2 N个潜在向量z,以最大化正对的一致性,同时最小化负对的一致性

对MolCLR预训练的GNN模型进行微调,用于分子性质预测,如图1(c)所示。与预训练模型类似,预测模型由一个GNN主干和一个MLP头组成,前者与预训练的特征提取器共享同一个模型,后者将特征映射到预测的分子性质。微调模型中的GNN骨干通过预训练模型中的参数共享初始化,而MLP头则是随机初始化。整个微调模型在目标分子性质数据库上以监督学习的方式进行训练。

3、Molecule Graph Augmentation

Atom Masking

分子图中的原子以给定的比例被随机遮蔽。当一个原子被屏蔽时,它的原子特征xv被masked token m所取代

Bond Deletion

键删除按一定比例随机删除原子之间的化学键,如图1(b)中黄色框所示。与用掩码标记替换原始特征的原子掩码不同,键删除是一种更严格的增强,因为它从分子图中完全删除了边缘。原子间化学键的形成和断开决定了化学反应中分子的属性。键的缺失模拟化学键的断裂,这促使模型了解一个分子在不同反应中的参与之间的相关性。

Subgraph Removal

子图去除可以被认为是原子掩蔽和键删除的结合。子图删除从随机选择的原子开始。去除过程是这样进行的:先遮蔽原子的邻原子,然后遮蔽邻原子的邻原子,直到被遮蔽原子的数量达到原子总数的给定比例。然后删除被屏蔽原子之间的键,这样被屏蔽原子和被删除的键形成原始分子图的诱导子图。该模型学会在剩余的子图中找到显著的基序,这些基序在很大程度上决定了分子的性质。

作者测试了四种增强策略。(1)结合原子掩蔽和键删除,两者比值p均设为25%。(2)去除随机比p在0% ~ 25%之间的子图。(3)去除固定比例为25%的子图。(4)三种增强方法的组成。

Training Details

实现一个以ReLU激活为GNN骨干的5图卷积层,使聚合与边缘特征兼容。在每个图上应用平均池作为读出操作,提取512维分子表示。具有一个隐藏层的MLP将表示映射到256维潜在空间。

权值衰减10−5、Adam优化器。在学习速率为5 × 10^(−4)的初始10个epoch之后,实现余弦学习衰减。batch_size为512,共50个epoch。

下游任务微调,在基本GNN特征提取器之上添加了一个随机初始化的MLP, 对分类和回归任务分别实现了交叉熵损失和L1损失。进行三次100 epoch的微调,以获得测试集上性能的平均值和标准差,只在训练集上训练模型,并在验证集上执行超参数搜索以获得最佳结果。

Pytorch Geometric:pytorch的一个图卷积神经网络的封装库。

三、实验

1、MoleculeNet classification

2、MoleculeNet Regression

与有监督的GCN和GIN相比,MolCLR预训练大大提高了所有基准测试的性能,这证明了MolCLR的有效性

在分类基准上,通过MolCLR, GCN的平均增益为12.4%,GIN为16.8%。同样,在回归分析中,GCN和GCN的平均改善率分别为27.6%和33.5%。一般来说,GIN通过MolCLR预训练表现出比GCN更大的改善。
这可能是因为GIN有更多的参数,能够学习更多具有代表性的分子特征。此外,MolCLR在大多数情况下比其他训练前/自我监督学习基线显示出更好的预测准确性。

3、消融实验

分子图增强可使平均ROC-AUC评分提高7.2%。将我们的分子图增强策略应用于有监督的分子性质预测任务,即使不进行预训练,也能大大提高性能。结果表明,分子图增强可以有效地帮助gnn学习鲁棒性和代表性特征。

4、Investigation of MolCLR Representation

可视化评估1:使用t-SNE嵌入检查预先训练的MolCLR学习的表示,将相似的分子表示映射到二维(2D)中的相邻点。通过t-SNE嵌入到2D的PubChem数据库验证集中的100K分子,根据分子量进行着色:

左下角显示的两个分子结构相似,其中一个halogen atom(氟或氯)与苯相连。这说明,即使没有标签,模型也能学习到分子之间的内在联系,因为具有相似性质的分子具有相近的特征。

可视化评估2:将MolCLR学习表征与传统分子指纹(FPs)进行了比较,例如ECFP和RDKFP。给定一个查询分子,通过MolCLR提取它的表示,并计算它与预训练数据库中所有参考分子的余弦距离:

然后根据表征距离(余弦距离)对所有参考分子进行排序,根据排序百分比将所有参考分子均匀分成20个集合bin。百分比阈值越低,预期查询中相似的分子就越多,因为MolCLR表示更接近。

4(a)展示每个bin内FP相似性的平均值和标准差。使用ECFP和RDKFP的相似度分布如图4(b)所示。ECFP往往比RDKFP获得更低的相似性,因为前者涵盖了与分子活性相关的更广泛的特征。但是,随着MolCLR表示距离的增加,ECFP和RDKFP的相似度都降低了。前5%的平均RDKFP相似度为~ 0.9,后5%降至~ 0.67。同样,平均ECFP相似性从前5%的~ 0.49下降到最低5%的~ 0.21

在MolCLR表示域中与查询分子最接近的9个分子如图4(c)所示,并标记了两种FPs相似性。这些分子具有较高的RDKFP相似性,从0.833到0.985,这进一步证明了MolCLR学习化学有意义的表示。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/27477.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

未来展望:Starday供应链火力全开,为跨境电商再添动力!

2022年末将至,回顾这“命途多舛”的一年,也是令人非常唏嘘。近日,联合国发布《2022年年中世界经济形势与展望》报告,该报告指出正处于疫情恢复期的全球经济可能又到了一场新危机的边缘。据相关统计显示,2022年相比于20…

HttpServlet学习中的常见问题(个人珍藏笔记)

目录 一、HttpServlet 1.1核心方法 1.2、面试:谈谈Servlet的生命周期 二、HttpServletRequest 2.1、核心方法 2.2、如何获取请求头 三、HttpServletResponse 3.1核心方法 四、setCharacterEncoding和setContentType区别? 五、Json格式的转换问题…

串行通讯协议,只需要一文就可以给你讲懂

前言 最近在做一个通过ESP8266和STM32通讯从而实现远程控制,中间需要用到串口来发送报文,通过报文来实现两者之间的通讯。 今天刚好趁着这个机会来给大家讲解一下串行通讯,希望能给大家以后的学习提供一些思路。 串行通讯介绍 串口通信线…

磨金石教育摄影干货分享|怎样拍出唯美有内涵的“中国风”照片

之前有网友私聊我,说这两年很多人都在拍中国元素的照片,他们的照片不仅仅是对古建筑简单的拍摄,照片的内容拥有丰富的文化内涵。想问我这样的照片应该怎么拍才能达到有内涵的水平。 其实这个问题确实有一定的难度,每个人都有自己…

腾格尔成影视圈的香饽饽,十月天传媒正式邀请演唱主题曲

俗话说:姜还是老的辣,酒还是陈酿好。这句话用到音乐人腾格尔身上,就再贴切不过了。说起音乐人腾格尔,这位来自草原的雄鹰和苍狼,有很多部音乐作品,都被歌迷朋友们一直传唱。 如今的腾格尔老师,已…

六.初阶指针

前言:大家好哇!今天带大家认识下C语言中的指针,指针的用法等,希望对大家有所帮助! 目录 一.指针是什么 1.指针是什么? 2.如何理解指针变量 二.指针和指针的类型 1.指针类型 2.指针类型的意义 &#x…

http 跨域资源共享详解

http 跨域资源共享详解 由于浏览器同源策略限制,会导致出现跨域问题。而跨域资源共享(CORS)可以突破浏览的同源策略的限制,不过需要服务端配合设置相应的响应头,从而使跨源数据传输得以安全进行。 跨域资源共享新增了…

进销存软件对中小型企业管理有什么作用?

进销存软件对中小型企业管理有什么作用? 01 更加有序 库存不乱单据不乱价格不乱 使用进销存软件可以把这些都记录下来,有条不紊,出现什么问题也有据可查,不像纸质单据,会丢会坏,乱成一团。 02 能打印正式…

[Spring Cloud] Hystrix通过配置文件统一设置参数/与OpenFeign结合使用

✨✨个人主页:沫洺的主页 📚📚系列专栏: 📖 JavaWeb专栏📖 JavaSE专栏 📖 Java基础专栏📖vue3专栏 📖MyBatis专栏📖Spring专栏📖SpringMVC专栏📖SpringBoot专…

网站favion.ico图标

Favicon.ico一般用于作为缩略的网站标志,它显示在浏览器的地址栏或者标签上。 目前主要的浏览器都支持favicon.ico图标 一 制作favicon图标 1 把品优购图标切成png图片 2 把png图片转换为ico图标,这需要借助第三方转换网站,例如&#xff1…

刷题经验分享(一)

文章目录删除公共字符:组队竞赛:删除公共字符: 第一题:删除公共字符 方法一: 思路: 1.将第二个字符串的字符都映射到一个hashtable数组中,用来判断一个字符在这个字符串。 2. 判断一个字符在第…

140.深度学习分布式计算框架-3

140.1 Horovod Horovod是 Uber 开源的又一个深度学习工具,它的发展吸取了 Facebook「一小时训练 ImageNet 论文」与百度 Ring Allreduce 的优点,可为用户实现分布式训练提供帮助。Horovod 支持通过用于高性能并行计算的低层次接口 – 消息传递接口 (MPI…

Vue脚手架环境中简单使用MarkDown(只入门)

目录 入门 高级使用 入门 1 所在终端输入 npm install vue-meditor 2 复制以下代码 先新建一个组件 <template><div><MavonEditor v-model"myMarkDownData"/><button click"submit">提交</button></div> </te…

vue配置

首先安装node.js 在cmd node -v查看 然后 cmd命令行执行 : npm install -g vue/cli // 加-g是安装到全局 安装vue cli 安装vue cli 1 看一下 这是在cmd输入的内容,参考第一条链接 在vscode中怎么配置他? 文件-打开文件夹,选择一个文件夹 这里是firstvue 在下面新建文件夹…

可变长子网划分

目录 IP地址 子网划分 可变长子网划分 IP地址 在学习子网划分之前应该先清楚什么是IP地址和IP地址的类型 IP 地址的格式0网络地址主机地址10网络地址 主机地址 110网络地址主机地址1110组播地址11110保留 A 1.0.0.0~127.255.255.255 B 128.0.0.0~191.255.255…

C++编程进阶

目录 new运算符 new关键字的使用案例 C的引用 C中引用案例 引用的注意事项 引用做函数参数 引用做函数的返回值 前言&#xff1a; 具体案例 引用的本质 常量引用 常量引用原理 经典案例 函数的提高 函数的默认参数 注意&#xff1a; 具体案例 函数的占位参数…

已解决:树莓派外接硬盘 usb 或者sata 导致wifi无法链接 无线网卡无法使用问题

我的环境是树莓派4b 买了一个有硬盘的盒子 看上图的连接方式&#xff0c;是占用了树莓派的一个usb3.1进行了sata的转接&#xff0c;实现挂载硬盘。 但是我发现&#xff0c;安装系统开机之后&#xff0c;可以看到有硬盘接入&#xff0c;但是无法连wifi&#xff0c;如果拔掉硬盘…

G. SlavicG‘s Favorite Problem(树的遍历DFS,BFS均可)

Problem - G - Codeforces 给你一棵有n个顶点的加权树。回顾一下&#xff0c;树是一个没有任何循环的连接图。加权树是一棵树&#xff0c;其中每条边都有一定的权重。这棵树是无定向的&#xff0c;它没有根。 由于树让你感到厌烦&#xff0c;你决定挑战自己&#xff0c;在给定…

java--Lambda (3)变量的访问与修改

文章目录0 写在前面1 可以直接在 Lambda 表达式中访问外层的局部变量2 在 Lambda 表达式当中被引用的变量的值不可以被更改3 在 Lambda 表达式当中不允许声明一个与局部变量同名的参数或者局部变量4 写在最后0 写在前面 学习使用在Lambda表达式&#xff0c;有些地方访问一些变…

VM系列振弦读数模块采集测量数据的一般步骤

VM 模块是通用型单振弦式传感器测量模块&#xff0c;主要功能是测量频率的传感器内置的温度传感器&#xff0c;使用默认工作参数即可自动测读绝大多数振弦传感器。 但由于传感器类型、结构、厂家、钢弦材料、线圈等影响因素不同&#xff0c;导致使用 VM 模块测量某些传感器时需…