MATLAB图卷积神经网络GCN处理分子数据集节点分类研究

news2024/12/15 18:37:55

全文链接:https://tecdat.cn/?p=38570

本文主要探讨了如何利用图卷积网络(GCN)对图中的节点进行分类。介绍了相关的数据处理、模型构建、训练及测试等环节,通过对分子数据集的操作实践,展示了完整的节点分类流程,并对模型的效果进行了多方面评估,旨在为相关领域的研究与应用提供参考点击文末“阅读原文”获取完整代码数据)。

图卷积网络(GCN)是卷积神经网络的一种变体,在处理图结构数据的节点分类任务中有着重要应用。例如在化学领域,给定分子结构(以图表示化学键),可以利用GCN预测分子中原子的类型(如碳、氧等)。本文以数据集为例,详细阐述基于GCN的节点分类实现过程。

数据准备

(一)数据集下载与加载

首先从指定网址下载数据集,该数据集包含碳、氢、氮、氧和硫这五种不同的原子。通过以下代码实现下载与初步处理:

if ~exist(data_file,"file"):
 mkdir(output_folder)

加载下载好的MAT文件中的数据,其包含多个不同的数组,本文主要使用代表库仑矩阵的X数组和代表每个原子原子序数的Z数组,代码如下:

data = load(data_file)

(二)图数据预处理

从加载的数据结构中提取库仑数据和原子序数,并进行相应变换。

为了将训练数据中的库仑矩阵转换为邻接矩阵。之后对部分数据进行可视化展示,查看分子的相关情况,像提取未填充的邻接矩阵、将原子序数转换为符号并绘图等,代码如下:

nexttile
 plot(G,NodeLabel=symbols,Layout="force")

9226586a547d52d5275dd80ccd032172.png


点击标题查阅往期内容

cfe2b9bccca844f5698333092326aa0b.jpeg

R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)

outside_default.png

左右滑动查看更多

outside_default.png

01

96cc4bfaa74c8b8e22a2dbc0e80efc1d.png

02

10c2fa7da7c5a1b0e265dc887b0fdd9a.png

03

85d649303dda36904febd3e77ed13db6.png

04

b143f6458cf99db130139f2a4d7013cf.png

利用直方图可视化各标签类别的频率,代码如下:

figure
histogram(categorical(atomicSymbol(atom_data)))

cebb19747b3cc6b704b83a85d8498abb.png
对数据进行划分,分为训练集、验证集和测试集,分别包含80%、10%和10%的数据。

模型构建

(一)深度学习模型定义

定义的深度学习模型输入为邻接矩阵A和特征矩阵X,输出分类预测结果。模型是一系列形如 Zl+1=σl(D^−1/2A^D^−1/2ZlWl)+Zl的操作组合,其中涉及激活函数、权重矩阵等不同元素。

(二)模型参数初始化

创建结构来存放模型参数,并利用函数(本文附属文件)初始化各乘法操作的可学习权重:

parameters = struct()
num\_hidden\_feature_maps = 32

(三)模型相关函数定义

创建函数,其输入模型参数、特征数据和邻接矩阵,返回预测结果;输入模型参数、特征数据、邻接矩阵以及独热编码目标,返回损失、损失相对于参数的梯度和网络预测;另外还有函数,它们各自在模型的训练、预测等环节发挥重要作用。

模型训练

设定训练轮数为1500轮,学习率为0.01,每300轮验证一次网络。初始化Adam相关参数,将训练和验证特征数据转换为特定对象格式,若有可用GPU则将数据转换到GPU上进行训练,同时将训练和验证标签转换为独热编码向量,并初始化训练进度监测对象。然后利用自定义训练循环训练模型,在每一轮中进行模型损失和梯度评估、更新网络参数、更新训练绘图以及按要求验证网络等操作:

num_epochs = 1500
learn_rate = 0.01
validation_frequency = 300
trailing_avg = \[\]
trailing\_avg\_sq = \[\]

5db1a6f7796b4a72f68ffef176fb0256.png

模型测试与预测

(一)模型测试

使用测试数据对模型进行测试,先按照训练和验证数据的处理步骤预处理测试数据,将测试特征数据转换为相应对象格式,利用模型进行预测并将概率转换为分类标签,最后计算准确率,还通过混淆矩阵等方式可视化模型的预测情况,评估模型基于类别精度和召回率等指标的表现。

计算混淆矩阵:

figure
cm = confusionchart(labels\_test,Y\_test,

6c5c4b2826e14c1ea291e1a2cab9e3d4.png

(二)新数据预测

利用函数对未标记数据进行预测,选择测试数据的前几个观测值简单示例,可视化预测结果,将预测结果作为节点标签绘制分子的图表示:

num\_observations\_new = 4
adjacency\_data\_new = adjacency\_data\_test\[:,:,1:num\_observations\_new\]

4b613b960da80c089896b261a7aece0d.png

总结

本文通过对数据集完整的处理、基于图卷积网络的模型构建、训练及测试等流程展示,呈现了图中节点分类任务的实现过程及相关方法应用。结果表明模型在该任务中有一定的准确率等表现,后续可进一步探索优化模型结构、改进数据处理方式等方面,以提升模型在节点分类任务中的性能,更好地应用于如化学分子结构分析等诸多领域。

参考文献

[1] Kipf, Thomas N., and Max Welling. “Semi-Supervised Classification with Graph Convolutional Networks.” Paper presented at ICLR 2017, Toulon, France, April 2017.
[2] Blum, Lorenz C., and Jean-Louis Reymond. “970 Million Druglike Small Molecules for Virtual Screening in the Chemical Universe Database GDB-13.” Journal of the American Chemical Society 131, no. 25 (July 1, 2009): 8732–33. https://doi.org/10.1021/ja902302h.
[3] Rupp, Matthias, Alexandre Tkatchenko, Klaus-Robert Müller, and O. Anatole von Lilienfeld. “Fast and Accurate Modeling of Molecular Atomization Energies with Machine Learning.” Physical Review Letters 108, no. 5 (January 31, 2012): 058301. https://doi.org/10.1103/PhysRevLett.108.058301.

622b04101fab9c147c3a6ef8d6ab7369.jpeg

本文中分析的数据、代码分享到会员群,扫描下面二维码即可加群! 

f117bae4565a149b35742e711a1c7478.png


资料获取

在公众号后台回复“领资料”,可免费获取数据分析、机器学习、深度学习等学习资料。

84877ba5aa81fd9c8ff67abf8b6e77ad.jpeg

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《MATLAB图卷积网络GCN处理分子数据集节点分类研究》。

点击标题查阅往期内容

PYTHON TENSORFLOW 2二维卷积神经网络CNN对图像物体识别混淆矩阵评估|数据分享

R语言深度学习卷积神经网络 (CNN)对 CIFAR 图像进行分类:训练与结果评估可视化

R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)

MATLAB中用BP神经网络预测人体脂肪百分比数据

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

R语言实现CNN(卷积神经网络)模型进行回归数据分析

SAS使用鸢尾花(iris)数据集训练人工神经网络(ANN)模型

【视频】R语言实现CNN(卷积神经网络)模型进行回归数据分析

Python使用神经网络进行简单文本分类

R语言用神经网络改进Nelson-Siegel模型拟合收益率曲线分析

R语言基于递归神经网络RNN的温度时间序列预测

R语言神经网络模型预测车辆数量时间序列

R语言中的BP神经网络模型分析学生成绩

matlab使用长短期记忆(LSTM)神经网络对序列数据进行分类

R语言实现拟合神经网络预测和结果可视化

用R语言实现神经网络预测股票实例

使用PYTHON中KERAS的LSTM递归神经网络进行时间序列预测

python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

781dd4e4a4f570911bf7affadd35df62.jpeg

f6f249d833262cf0d25ebd3bbf34352a.png

1308ac519b778606c8c8a1c0f82ff7be.png

df3cec705896cb0fa107627389042982.jpeg

292a89cb3b728348cd412c2d7bc95e35.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2260073.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络-传输层 UDP协议

学习一个网络协议,主要就是学习“数据格式/报文格式” UDP的特点 UDP传输的过程类似于寄信. ⽆连接: 知道对端的IP和端⼝号就直接进⾏传输, 不需要建⽴连接; 不可靠: 没有确认机制, 没有重传机制; 如果因为⽹络故障该段⽆法发到对⽅, UDP协议层也不会给应 ⽤层返回任…

[OpenGL] Transform feedback 介绍以及使用示例

一、简介 本文介绍了 OpenGL 中 Transform Feedback 方法的基本概念和代码示例。 二、Transform Feedback 介绍 1. Transform Feedback 简介 根据 OpenGL-wiki,Transform Feedback 是捕获由顶点处理步骤(vertex shader 和 geometry shader&#xff0…

拆解大语言模型RLHF中的PPO

** 拆解大语言模型RLHF中的PPO ** 参考链接:https://zhuanlan.zhihu.com/p/645225982 为什么大多数介绍RLHF的文章,一讲到PPO算法的细节就戛然而止了呢?要么直接略过,要么就只扔出一个PPO的链接。然而LLM PPO跟传统的PPO还是有…

arcGIS使用笔记(无人机tif合并、导出、去除黑边、重采样)

无人机航拍建图之后,通过大疆智图软件可以对所飞行的区域的进行拼图,但是如果需要对拼好的图再次合并,则需要利用到arcGIS软件。下面介绍arcGIS软件在这个过程中常用的操作。 1.导入tif文件并显示的方法:点击“”图标进行导入操作…

利用代理IP爬取Zillow房产数据用于数据分析

引言 最近数据分析的热度在编程社区不断攀升,有很多小伙伴都开始学习或从事数据采集相关的工作。然而,网站数据已经成为网站的核心资产,许多网站都会设置一系列很复杂的防范措施,阻止外部人员随意采集其数据。为了解决这个问题&a…

免费送源码:Java+B/S+MySQL 多元化智能选课系统的设计与实现 计算机毕业设计原创定制

摘 要 多元化智能选课系统使用Java语言的Springboot框架,采用MVVM模式进行开发,数据方面主要采用的是微软的Mysql关系型数据库来作为数据存储媒介,配合前台技术完成系统的开发。 论文主要论述了如何使用JAVA语言开发一个多元化智能选课系统&…

(九)机器学习 - 多项式回归

多项式回归(Polynomial Regression)是一种回归分析方法,它将自变量 xx 和因变量 yy 之间的关系建模为 nn 次多项式。多项式回归的目的是找到一个 nn 次多项式函数,使得这个函数能够最好地拟合给定的数据点。 多项式回归的数学表达…

XX服务器上的npm不知道咋突然坏了

收到同事的V,说是:182上的npm不知道咋突然坏了,查到这里了,不敢动了。 咱一定要抓重点:突然坏了。这里的突然肯定不是瞬间(大概率是上次可用,这次不可用,中间间隔了多长时间&#x…

Vizcom:AI驱动的草图到3D设计革命

Vizcom是一家领先的AI技术公司,专注于为工业设计师提供工具,将手绘草图快速转化为可制造的3D模型,从而加速产品迭代和创新。 公司背景与愿景 成立于2021年的Vizcom由前Nvidia工业设计师Jordan Taylor创立。Taylor凭借其深厚的创意设计背景和技术敏锐度,看到了生成对抗网络…

html自带的input年月日(date) /时间(datetime-local)/星期(week)/月份(month)/时间(time)控件

年月日期控件 type"date" <input type"date" id"StartDate" valueDateTime.Now.ToString("yyyy-MM-dd") /> //设置值 $("#StartDate").val("2024-12-12"); //获取值 var StartDate$("#StartDate&quo…

【51单片机】独立按键快速上手

51单片机独立按键是单片机控制系统中常用的一种输入方式&#xff0c;它相当于一种电子开关&#xff0c;按下时开关接通&#xff0c;松开时开关断开。 开关功能‌&#xff1a;独立按键内部通常包含一个有弹性的金属片&#xff0c;当按键被按下时&#xff0c;金属片与触点接触&a…

SpringCloud和Nacos的基础知识和使用

1.什么是SpringCloud ​ 什么是微服务&#xff1f; ​ 假如我们需要搭建一个网上购物系统&#xff0c;那么我们需要哪些功能呢&#xff1f;商品中心、订单中心和客户中心等。 ​ 当业务功能较少时&#xff0c;我们可以把这些功能塞到一个SpringBoot项目中来进行管理。但是随…

手机实时提取SIM卡打电话的信令声音--社会价值(一、方案解决了什么问题)

手机实时提取SIM卡打电话的信令声音 --社会价值(一、方案解决了什么问题) 一、前言 这段时间&#xff0c;我们在技术范围之外陷入了一个自证或者说下定义的怪圈&#xff0c;即要怎么样去介绍或者描述&#xff1a;我们是一个什么样的产品。它在当前这个世界上&#xff0c;处于…

使用navicat新旧版本,连接PostgreSQL高版本报错问题图文解决办法

使用navicat新旧版本&#xff0c;连接PostgreSQL高版本报错问题图文解决办法 一、问题现象&#xff1a;二、出现原因三、解决方法&#xff1a;1、升级Navicat版本&#xff1a;2、使用低版本的postgreSQL&#xff1a;3、修改Navicat的dll二进制文件&#xff1a;navicat版本15nav…

12.1【JAVA EXP4】next项目

next项目构建问题 详解一下这个页面 什么是Node选项&#xff1f; Node选项是指在运行Node.js应用程序时可以传递给Node.js进程的一系列命令行参数。这些选项可以让开发者控制Node.js的行为&#xff0c;例如设置内存限制、启用或禁用某些功能、指定调试端口等 --inspect 和 --i…

【操作系统】实验九:设备驱动程序

实验9 设备驱动程序 在钻研Linux内核的人当中&#xff0c;大多数人都是在写设备驱动程序。尽管由于设备的特殊性&#xff0c;使得每个驱动程序都不一样。但是编写设备驱动程序的许多原则和基本技巧都是一样的&#xff0c;甚至Windows下的设备驱动程序从原理上讲也与之相通。在…

腾讯云COS跨域访问CORS配置

腾讯云COS跨域访问CORS配置方法如下&#xff0c;参考以下截图&#xff1a; 参考文章&#xff1a; 跨域及CORS-Nginx配置CORS

从EXCEL表格到WEB TABLE的实践

前言 EXCEL管理数据 Bootstrap Bootstrap 是一个流行的开源前端框架&#xff0c;它由 Twitter 的员工开发&#xff0c;用于快速开发响应式和移动设备优先的网页和应用程序。 jQuery jQuery 是一个快速、小巧且功能丰富的 JavaScript 库。它简化了 HTML 文档的遍历、事件处理…

python中向量指的是什么意思

一、向量是什么 在数学中&#xff0c;向量&#xff08;也称为欧几里得向量、几何向量、矢量&#xff09;&#xff0c;指具有大小&#xff08;magnitude&#xff09;和方向的量。它可以形象化地表示为带箭头的线段。箭头所指&#xff1a;代表向量的方向&#xff1b;线段长度&am…

高数 导数

文章目录 一&#xff0c;导数的知识点 二&#xff0c;单侧导数 三&#xff0c;可导和连续的关系 四&#xff0c;复合函数求导 五&#xff0c;参数方程求导 六&#xff0c;高阶导数求导 七&#xff0c;隐函数求导 八&#xff0c;微分基础 一&#xff0c;导数常用的知识点 …