Bioinformatics2022 | AdvProp+:基于集成网络的分子性质预测与药物研发

news2025/1/4 18:55:11

论文标题:Advanced graph and sequence neural networks for molecular property prediction and drug discovery

代码:https://github.com/divelab/MoleculeX

一、Materials and methods

 

1、Notations and problem definitions

旨在通过基于图和基于序列的机器学习模型对分子的某些属性进行精确预测。

Graph:G(V,E) ,V是点集合,E是边集合

SMILES:字符串,其中每个字符表示一个化学原子或键、环等结构的指示符

AdvProp由四个模块组成

ML-MPNN, Weisfeiler–Lehman subtree (WL-subtree) kernel, contrastive-BERT and subsequence kernel

2、Multi-level message passing neural network

ML-MPNN的特点是能够从分子图的所有层次聚合信息,包括节点、边、子图和整个图

Multi-level representations. 设边为e,结点为v,则edge-level,node-level分别表示为w(e)、x(v)。ML-MPNN利用junction tree获取子图并初始化subgraph-level representations。连接树将分子图表示为树,树中的每个节点对应原始分子图中的一个子图。经过ML-MPNN,得到的最终图级表示用于预测分子性质。给定图G,graph-level representations为z(G)

ML-MPNN. 典型GNN架构。

Step 1: Update the edge-level representations.

通过聚合来自source node and target node的node-level表示以及graph-level表示的信息来更新edge-level表示。具体地说,将这些表示与前面的edge-level表示连接起来,作为多层感知器(MLP)的输入,以更新edge-level表示:

Step 2: Update the node-level representations

传入边的更新的edge-level表示和对应源节点的node-level表示来计算。然后用消息和graph-level表示更新节点级表示:

Step 3: Update subgraph-level representations.

更新subgraph-level表示的消息来自分配给subgraph和相邻subgraph的node:

Step 4: Update the graph-level representation.

最后,graph-level表示来自每个级别的更新表示的消息后进行更新。

Step 5: Normalization for multi-level representations.

添加BatchNorm 可以稳定训练过程,通常可以获得更好的性能。然而,由于图的大小不同,图将导致在不同的尺度上表示。因此,必须应用特定的尺寸归一化方法EdgeSizeNorm, NodeSizeNorm和SubgraphSizeNorm:

3、Contrastive-BERT(最大的亮点在于与原始embedding矩阵的对比发现最佳预测)

与原始的BERT类似,Contrastive-BERT的网络架构主要遵循Transformer:

Masked embedding recovery task.包括一个自我监督的预训练阶段和一个监督的微调阶段。在SMILES序列中,15%的角色是随机mask的。对于每个被选择被屏蔽的字符,它有80%的概率被一个特殊的令牌替换,10%的概率被另一个随机字符替换,10%的概率保持不变。

oi没有ground truth,这意味着不能使用一个共同的监督目标。为了完成预训练,我们的对比- bert通过对比学习设计了一个自我监督的目标。对于masked token,强制预测的oi与hi相似,因为它们对应相同的字符。相比之下,oi需要不那么类似于hj; 注意,虽然hi从网络的输入中被替换,但它仍然可以从embedding矩阵中检索出来。给定一个度量相似性的函数,可以使用一个对比损失来实现预训练:

在预训练阶段之后微调。具体来说,换一个预测head来预测分子性质。微调是一个端到端训练过程,有监督损失。在这两个训练阶段,使用了一种基于SMILES序列特征的数据增强技术。也就是说,一个分子可以由多个不同的SMILES序列表示,尽管每个SMILES序列只对应一个特定的分子。

在测试时,使用规范化算法为每个分子生成唯一的规范化SMILES序列。

二、实验

MoleculeNet:(看效果还可以)

 看论文时强烈建议看supplementary!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/31848.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue基础5

Vue基础5绑定样式绑定class样式绑定style样式条件渲染列表渲染v-for指令key的原理index作为key的时候id作为key的时候总结绑定样式 class样式 写法:class"xxx“ xxx可以是字符串、对象、数组 字符串的写法适用于:类名不确定,要动态获取…

如何做一个小程序商城,需要多少钱

如何做一个小程序商城,需要多少钱? 操作像玩消消乐那么简单! 费用是一年1998元至3498元。免300元认证费。买两年用四年。 日均花费不到2元就能搭建一个小程序商城。 下面分享的是自建小程序商城的教程: 1、进入第三方小程序商城制作平台…

Mybatis-Plus中getOne方法获取最新一条数据

Mybatis-Plus中getOne方法获取最新一条数据一、代码1、Controller2、Service3、效果一、代码 1、Controller GetMapping("/queryNewProduct")public ProductDTO queryNewProduct(RequestParam("type") String type) {return opProductService.queryNewPro…

Python基础(二):不同系统安装Python3

​​​​​​​ 文章目录 不同系统安装Python3 一、Anaconda安装与使用 1、下载 2、安装 3、配置 4、使用 5、常用命令 二、原生Python安装 三、在Linux环境Python安装 不同系统安装Python3 14天学习训练营导师课程:杨鑫《Python 自学编程基础》杨鑫《 P…

HTML学生个人网站作业设计——中华美食(HTML+CSS) 美食静态网页制作 WEB前端美食网站设计与实现

🎀 精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

JVM 中类加载的链接与初始化

类加载系统,主要有以下部分 加载链接 验证准备解析初始化 它们每部分都做些什么事情呢? 加载 (2条消息) JVM 双亲委派模型_兜兜转转m的博客-CSDN博客 链接 链接-验证 一般验证部分,IDEA已经帮我们规范了。 验证是连接阶段的第一步&…

第二章 数据库设计

数据库技术是信息资源管理最有效的手段。数据库设计是指对于一个给定的应用环境,构造最优的数据库模式,建立数据库极其应用系统,有效存储数据,满足用户信息要求和处理要求。 数据库设计的步骤 ⒈需求分析阶段 收集和分析用户需…

怎么搭建属于自己的网站?

搭建属于自己的网站已经不是什么新鲜事了,有些人甚至搭建一个网站用来做自己的简历。搭建网站对一些懂代码的人来说也是比较简单的,就算不精通也能下载源代码模板。那如果不太懂代码的小伙伴,又怎么搭建属于自己的网站呢? 一、善…

SpringBoot 代码混淆真香,再也不用担心反编译代码泄露...

编译 简单就是把代码跑一哈,然后我们的代码 .java文件 就被编译成了 .class 文件 反编译 就是针对编译生成的 jar/war 包 里面的 .class 文件 逆向还原回来,可以看到你的代码写的啥。 比较常用的反编译工具 JD-GUI ,直接把编译好的jar丢进…

MySQL 进阶 图文详解InnoDB储存引擎

前言 SQL 语句的最终执行者是存储引擎。存储引擎在经解析器、优化器处理后被执行器调用其接口执行优化后的执行计划。MySQL 存储引擎包括 InnoDB、Myisam、Memory、Archive、CSV 存储引擎等,其中最常用也是MySQL 默认的存储引擎是 InnoDB。 写入缓冲池(…

cyclictest生成结果统计图

在用cyclictest测试实时性的时候通过输出的结果能清晰的看到最大值、最小值平均值,但具体的分布情况无法直接得到。 本文记录根据网上的博客实际测试结果。 1、先在开发板上运行测试程序 ./cyclictest -l 1000000 -m -Sp99 --policyfifo -h 25000 -q >output 得…

华为机试 - 高矮个子排队

目录 题目描述 输入描述 输出描述 用例 题目解析 算法源码 题目描述 现在有一队小朋友,他们高矮不同,我们以正整数数组表示这一队小朋友的身高,如数组{5,3,1,2,3}。 我们现在希望小朋友排队,以“高”“矮”“高”“矮”顺…

专利变更需要哪些材料

一、专利变更需要哪些材料 专利权人变更专利的,需要提供著录项目变更请求书、著录项目变更证明材料、专科权人身份证明等材料。 《专利法实施细则》 第八十九条 国务院专利行政部门设置专利登记簿,登记下列与专利申请和专利权有关的事项: …

聚观早报|苹果高管称ipad在走下坡路;罗永浩新公司完成融资

今日要闻:苹果高管称ipad在走下坡路;罗永浩新公司完成融资;谷歌发布最新可持续发展成果;比亚迪新能源车涨价;惠普宣布裁员6千人 前苹果高管称ipad在走下坡路 据报道,前苹果公司高管让路易斯加塞近日表示&am…

无符号、有符号数运算判溢出

目录 无符号数的运算(溢出看CF) 有符号数运算(溢出看OF)(都是补码进行运算,因为补码的符号位可以直接参与运算一套电路就ok) 例题 第一题 第二题 无符号数的运算(溢出看CF&#…

会议信息管理系统SSM记录(六)

目录: (1)会议预定1 (2)会议预定2 (3)会议预约3 (4)会议预定4 (1)会议预定1 创建MeetingController: //跳转预定会议页面Request…

嵌入式面试题

1、写一个程序判断电脑是大端字序还是小端字序&#xff08;加量不加价&#xff09; #include <stdio.h> #include <arpa/inet.h> typedef unsigned char byte; typedef unsigned int word; int main(int argc, char *argv[]) {word val32 0x11223344;byte val8 …

业务流程管理包括什么

​什么是业务流程管理&#xff1f; 业务流程管理 (BPM)提供了一些用于发现、建模、分析、衡量、改进和优化业务策略及流程的方法。 在知名企业中&#xff0c;麦当劳是因为业务流程管理而获得成功的企业之一&#xff0c;标准化业务流程制度是麦当劳成功的关键。 麦当劳为了保证…

CAS号:2578-57-6,H2N-PG-OH

脯氨酸酶的底物(脯氨酸二肽酶)。 编号: 116803中文名称: 二肽Pro-Gly英文名: Pro-GlyCAS号: 2578-57-6单字母: H2N-PG-OH三字母: H2N-Pro-Gly-COOH氨基酸个数: 2分子式: C7H12N2O3平均分子量: 172.18精确分子量: 172.08等电点(PI): 6.11pH7.0时的净电荷数: -0.02平均亲水性: -疏…

MCE | 为什么肥胖经常被“针对”?

近年来&#xff0c;肥胖问题受到越来越多的关注&#xff0c;肥胖不只影响美丽身材&#xff0c;过度肥胖还可能导致肥胖症&#xff0c;这是很多疾病的高风险因素。所以肥胖是一种病&#xff1f;肥胖的标准是什么&#xff1f;别急&#xff0c;等小编慢慢道来。 认识肥胖症 (Obesi…