图神经网络与分子表征:1. 分子图和图神经网络基础

news2024/12/23 13:19:10

CSDN的朋友们大家好,好久没写系列文章了。
近期读了很多图神经网络(GNN)和分子表征(molecular representation)的论文,正好最近不是很忙,所以我决定把自己的学习过程记录下来,与大家共勉。
这个系列总体上将围绕着 GNN for molecular representation 展开,我们从分子图和GNN基础出发。
本文主要参照以下两篇精美的科普文章:

  1. A Gentle Introduction to Graph Neural Networks
  2. Understanding Convolutions on Graphs

这两篇文章很出名,很大程度可能因为李沐老师曾出视频讲解过其中第一篇,也有很多同学写了相似的笔记,因此我这里就浅浅记录一下我个人的一些takeaways

分子图

图是具有一定映射关系的点集和边集的集合。
图中每个点和边都有其特定的性质(embedding),整张图也有一个全局的性质(global)。
这种数据结构可能跟传统深度学习的研究对象不一样,例如,CV中是将一张图看做很多的pixel,每个pixel有三元色混合而成。我们此处可将一张图分成点集、边集和全局三块,其实每块儿都可以是相对独立的。看点集时,就可以将每个点看作一个pixel,每个点有很多embedding一样。其他的,边集和全局也是类似的。
在这里插入图片描述
图可以表征很多现实世界的物体,例如,图片和自然语言可以由图结构表示,人与人之间的关系也可以由一条条边链接。
当然,最重要的是,分子可以很好的由图的形式表示。分子中的每个原子可被看做图上的节点。分子内成键可以看作连接不同节点的边。
如果我们进一步把每个键近似为一致的,例如,邻接矩阵中对应位置原子成键记为1,不成键记为0。我们就得到了休克尔分子轨道理论中常用的邻接矩阵。该矩阵的特征值与分子稳定性等密切相关,扬州大学的汪洋教授曾基于此发展出了XSI和CSI理论。(好几篇顶刊)
分子、邻接矩阵、分子图示意如下:
在这里插入图片描述

图神经网络

OK,请大家暂时忘掉分子图,我们拿到分子后将其转换成了图,后面怎么做神经网络就暂时与分子儿子无关了
OK,请大家再看一下上一节提到的图的三个维度:点,边和全局
**在这里插入图片描述**
目前为止,这只是一张静态的图。我们暂且将神经网络当成一个黑箱,如果不考虑三个维度相互之间的信息交互的话,我们可以给每一个维度写一个黑箱神经网络。原图上的各个embedding在经过黑箱后进行了迭代,形成了新的embedding。我们称这样的现象为update,这样的模块可以是多个,这样的话,图中各个元素的embedding会经过多次的update,如下:
在这里插入图片描述
我们现在聚焦到点集上某点的一次update。我们希望该点能够感知到周围点的存在,即,感受到周围的环境。在图神经网络里对应的专业术语是消息传递message passing,还有一个术语是,信息聚合aggregate。如下:
在这里插入图片描述
多层的消息传递如下:
在这里插入图片描述
可以看到,初始图中的局域的性质在经过多次message passing后可以影响到远处的节点,这样的现象又叫做图上的卷积操作。详情请看:Understanding Convolutions on Graphs
embedding updatemessage passing是图神经网络中的两大基本概念。二者本质上是在进行信息的聚合和迭代,在经过多个block后,输入的图会变成一张信息满满的图,此时,我们在基于此对目标性质进行预测。这一过程叫做图的pooling.
如果任务是预测点的性质,比如,预测分子中每个原子的电荷量。有以下两个思路:1. 每个点对应的embedding feature是多维的,去预测一个标量,可以套用简单的回归模型。2. 边集和全局的embedding feature可以通过适当的方式助力点性质的预测。如下图所示:
在这里插入图片描述
同样的,对边的性质做预测时,也可以将点集注入到边集的性质集合中:
在这里插入图片描述
当然,我们用的最多的还是对整个图的性质做预测。例如,预测某分子的能量。这样,我们可以将点和边的性质汇总到全局(下图仅为边到全局):
在这里插入图片描述
注意到,点集、边集和全局之间的信息交互并非只在预测阶段使用。在信息聚合阶段也经常看到。例如,下图中的,node 和 edge 之间多次交互,向浪一样前进,因此叫做weave layer。
在这里插入图片描述

综上,我们得到了GNN工作的完整链条:
在这里插入图片描述
输入的图在经过多次的信息聚合和迭代后,形成了一张新的图,基于这张图,我们对目标性质作预测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/910135.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python 在logging.config.dictConfig()日志配置方式下,使用自定义的Handler处理程序

文章目录 一、基于 RotatingFileHandler 的自定义处理程序二、基于 TimedRotatingFileHandler 的自定义处理程序 Python logging模块的基本使用、进阶使用详解 Python logging.handlers模块,RotatingFileHandler、TimedRotatingFileHandler 处理器各参数详细介绍 …

pandas连接查询

df1数据如下 df2数据如下 连接查询代码 -1 import pandas as pddf1 pd.DataFrame({id:[1001,1002,1003,1004],name:[Hu,Dotu,Evp,Swe]}) df2 pd.DataFrame({id:[1001,1001,1003,1004, 1003],course:[c1,c2,c3,c2,c1],score:[100, 98, 64, 84, 69]})result pd.merge(df1, df…

【C++初阶】vector容器

👦个人主页:Weraphael ✍🏻作者简介:目前学习C和算法 ✈️专栏:C航路 🐋 希望大家多多支持,咱一起进步!😁 如果文章对你有帮助的话 欢迎 评论💬 点赞&#x1…

0007Java程序设计-jsp问卷调查系统设计与实现

摘 要 随着社会不断进步与发展,生活节奏不断加快,信息已经成为我们生活中不可缺少的一部分,很多企业需要掌握大量的信息来了解特定用户的需求,传统的做法是组织大量的人力物力对用户散发调查表,然后对收集的信息进行统…

python 基础篇 day 1 初识变量和数据类型

文章目录 变量变量作用——用于存储和表示数据。变量命名规则命名法大驼峰小驼峰下划体n j i a x 通常作为临时变量使用 建议 变量种类全局变量(Global Variables)局部变量(Local Variables)静态变量(Static Variables…

linux常用基础命令与文件结构汇总

1 学习目标 说出Linux下的目录结构和常见目录的作用熟练使用Linux下的相对路径和绝对路径熟练使用Linux下常用文件和目录操作相关的命令熟练使用修改用户权限、用户和用户组相关的命令熟练使用文件的查找和检索相关的命令熟练掌握Ubuntu下的软件安装和卸载熟练使用压缩工具完成…

七夕节日表白:七大网页风格与其适用人群

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

YOLOv5源码中的参数超详细解析(5)— 验证部分val(test).py

前言:Hello大家好,我是小哥谈。YOLOv5项目代码中,val.py 是一个代表验证(validation)的 Python 脚本文件名。通常在机器学习或深度学习的任务中,我们会将数据集分为训练集和验证集,使用训练集来…

请说人话!如何理解基本分页存储管理

一、默认设定 (一)按字节编制一个房间可以装8只猪猪 现在的计算机一般都是按字节编址的。这个不理解的话,可以看我的文章为什么20位地址总线决定寻址空间是1MB“http://t.csdn.cn/Eo2nE” (二)内存采用非连续分配方…

法线矩阵推导

法线矩阵推导 https://zhuanlan.zhihu.com/p/72734738 https://juejin.cn/post/7113952418613690382 https://blog.csdn.net/wangjianxin97?typeblog 1、为什么需要法线矩阵 vec3 normalEyeSpace modelViewMatrix * normal;如果模型矩阵执行了非等比缩放, 顶点的改变会导致法…

基于蝴蝶算法优化的BP神经网络(预测应用) - 附代码

基于蝴蝶算法优化的BP神经网络(预测应用) - 附代码 文章目录 基于蝴蝶算法优化的BP神经网络(预测应用) - 附代码1.数据介绍2.蝴蝶优化BP神经网络2.1 BP神经网络参数设置2.2 蝴蝶算法应用 4.测试结果:5.Matlab代码 摘要…

sNMFcross-entropyK

0.简单介绍 稀疏非负矩阵(sNMF)和最小二乘优化来产生祖先比例估计数的祖先推断算法,这个算法呢与admixture来说差别不是很大,但是优点就是快,运算速度可以快到10-30倍左右。 1.安装 这一步不必多说,下载…

tailscale使用教程(远程连接服务器)

tailscale:将多个设备放在同一局域网下,实现异地组网。 首先进入tailscale官网,根据系统需求进行下载 需要远程的设备和被远程的设备都需要下载。 然后两个设备均登录同一账号即可 注:这里重点讲一下linux操作系统上的操作&…

PID输出PWM温度控制(PID输出PWM的各种方法介绍)

这篇博客主要介绍PID的输出如何和PWM输出进行绑定,PID控制算法和源代码大家自行查看PID专栏,这里不再赘述。常用链接如下: 位置式PID(S7-200SMART 单自由度、双自由度梯形图源代码)_RXXW_Dor的博客-CSDN博客有关位置型PID和增量型PID的更多详细介绍请参看PID专栏的相关文章…

读SQL学习指南(第3版)笔记02_数据类型

1. 命令行工具 1.1. mysql -u root -p; 1.2. mysql> show databases; 1.3. mysql> use sakila; 1.4. mysql> SELECT now(); 1.4.1. now()是MySQL的内建函数 1.4.2. 返回当前日期和时间 1.5. mysql> SELECT now() FROM dual…

DFT计算入门新手坑:能带不连续

新手在学习DFT计算时,在熟悉了基本的操作和VASP输入文件后,首先就会学习到结构优化、自洽计算和能带的计算。 而笔者学习DFT计算这些年来看到太多新手学者踩到大大小小的坑,其中能带看起来不连续或者能带不连续则是几乎必踩的坑之一。 这些初…

【HCIP】04.VRRP与BFD

VRRP VRRP基本概念 VRRP路由器 运行VRRP协议的路由器,VRRP是配置在路由器的接口上的,而且也是基于接口来工作的。 VRID 一个VRRP组由多台协同工作的路由器(的接口)组成,使用相同的VRID(Virtual Router…

Spring统一功能处理

1. AOP存在的问题 获取参数复杂AOP的规则相对简单 2. 拦截器 2.1. 应用(以登录为例) 2.1.1. 自定义拦截器 新建interceptor文件夹 import org.springframework.web.servlet.HandlerInterceptor;import javax.servlet.http.HttpServletRequest; import javax.servlet.http…

Blend for Visual Studio:提升用户界面设计的专业工具

随着软件行业的迅速发展,用户界面设计变得越来越重要。一个好的用户界面能够吸引用户的注意力,提供良好的用户体验,并增加应用程序的成功率。在这个背景下,Blend for Visual Studio作为一款专业的用户界面设计工具,为开…

SpringCloud学习笔记(二)_Eureka注册中心

一、Eureka简介 Eureka是一项基于REST(代表性状态转移)的服务,主要在AWS云中用于定位服务,以实现负载均衡和中间层服务器的故障转移。我们称此服务为Eureka Server。Eureka还带有一个基于Java的客户端组件Eureka Client&#xff…