图神经网络实战(5)——常用图数据集

news2025/1/16 11:34:36

图神经网络实战(5)——常用图数据集

    • 0. 前言
    • 0. 图数据集介绍
    • 2. Cora 数据集
    • 3. Facebook Page-Page 数据集
    • 小结
    • 系列链接

0. 前言

图数据集往往比单纯的连接集合更丰富,节点和边也可以具有表示分数、颜色、单词等的特征。在输入数据中包含这些附加信息对于生成最佳嵌入至关重要。而由于节点和边的特征与表格(非图)数据集具有相同的结构,意味着神经网络等经典技术可以应用于这些数据。在本节中,我们将介绍两个常见图数据集:CoraFacebook Page-Page

0. 图数据集介绍

在图神经网络 (Graph Neural Networks, GNN) 中所使用的图数据集通常比 Zachary’s Karate Club 数据集更丰富:它们有更多的节点、更多的边,并且包含节点特征。在本节中,我们将对常用的两个数据集进行介绍,以便让我们对这些图有一个全面的了解,并了解如何用 PyTorch Geometric 处理它们:

  • Cora 数据集
  • Facebook Page-Page 数据集

2. Cora 数据集

Cora 数据集由 Sen 等人于 2008 年提出,是科学文献中最流行的节点分类数据集。它是一个由 2708 篇出版物组成的网络,其中每个连接都是一个引用。每篇出版物都被描述为一个由 1,433 个唯一单词组成的二进制向量,其中 01 分别表示没有或存在相应的单词。这种表示法在自然语言处理中也被称为二进制词袋 (bag of words),我们的目标是将每个节点分类到七个类别之一。
无论数据类型如何,可视化始终是我们了解所面临问题的重要步骤。然而,当图过大时,使用 networkxPython 可视化库将无法进行可视化,因此研究人员为图数据可视化开发了专用工具,我们将使用两个流行的工具:yEd Live 和 Gephi 进行图数据集可视化。
下图是用 yEd Live 绘制的 Cora 数据集图。可以看到橙色为论文对应的节点,绿色为论文之间的连接。一些论文之间的相互连接的非常紧密,以至于形成了论文簇,这些簇比连接不紧密的节点更容易分类。

Cora数据集

接下来,导入 Cora 数据集,并用 PyTorch Geometric 库分析其主要特征,PyTorch Geometric 库有一个专门的类,用于下载数据集并返回相关的数据结构。PyTorch Geometric 是深度学习框架 PyTorch 的扩展库,用于简化图神经网络的实现。PyTorch Geometric 的安装与其它 Python 第三方库一样,只需在 shell 中使用 pip 命令即可:

pip installl torch_geometric

(1)PyTorch Geometric 中导入 Planetoid 类:

import torch
from torch_geometric.datasets import Planetoid

(2) 使用 Planetoid 类下载数据集:

dataset = Planetoid(root=".", name="Cora")

(3) Cora 只有一个图,将其存储在 data 变量中:

data = dataset[0]

(4) 打印数据集的相关信息:

print(f'Dataset: {dataset}')
print('---------------')
print(f'Number of graphs: {len(dataset)}')
print(f'Number of nodes: {data.x.shape[0]}')
print(f'Number of features: {dataset.num_features}')
print(f'Number of classes: {dataset.num_classes}')

(5) 输出结果如下所示:

Dataset: Cora()
---------------
Number of graphs: 1
Number of nodes: 2708
Number of features: 1433
Number of classes: 7

(6) 通过 PyTorch Geometric 的专用函数,还可以获得更多详细信息:

# Print information about the graph
print(f'\nGraph:')
print('------')
print(f'Edges are directed: {data.is_directed()}')
print(f'Graph has isolated nodes: {data.has_isolated_nodes()}')
print(f'Graph has loops: {data.has_self_loops()}')

(7) 输出结果如下所示:

Graph:
------
Edges are directed: False
Graph has isolated nodes: False
Graph has loops: False

第一个输出结果输出了节点数、特征和类别的信息,第二个输出则提供了关于图本身的更多信息:边是无向的,每个节点都有邻居,而且图不存在自循环。我们也可以使用 PyTorch Geometricutils 函数测试其他属性。
了解了 Cora 数据集后,我们继续介绍一个更能代表真实世界社交网络规模的数据集,Facebook Page-Page 数据集。

3. Facebook Page-Page 数据集

该数据集由 Rozemberczki 等人于 2019 年提出,它是在 201711 月使用 Facebook Graph API 创建的。这个数据集包含 22470 个节点,其中每个节点都代表一个 Facebook 页面。当页面之间存在互赞行为时,它们就会被连接起来,节点特征( 128 维向量)根据这些页面所有者撰写的文字描述创建。我们的目标是将每个节点分为四种类别之一:oliticianscompaniestelevision showsgovernmental organizations
Facebook Page-Page 数据集与 Cora 数据集类似,是一个具有节点分类任务的社交网络。但与 Cora 相比有如下区别:

  • 节点数量更多 (Cora2,708 个节点,而 Facebook Page-Page 包含 22,470 个)
  • 节点特征的维度较小 (Cora 节点特征维度为 1,433,而 Facebook Page-Page128)
  • 目标是将每个节点分为 4 个类别,而不是 7 个类别(类别较少,更容易分类)

下图是使用 Gephi 对数据集进行的可视化的效果。为了提高性能,我们忽略了连接数少的节点。其余节点的大小取决于它们的连接数,而它们的颜色则表示它们所属的类别。

Facebook Page-Page

可以按照与 Cora 相同的方法导入 Facebook Page-Page 数据集。

(1)PyTorch Geometric 中导入 FacebookPagePage 类:

from torch_geometric.datasets import FacebookPagePage

(2) 使用 FacebookPagePage 类下载数据集:

dataset = FacebookPagePage(root=".", name="FacebookPagePage")

(3) 将图存储在 data 变量中:

data = dataset[0]

(4) 打印数据集的相关信息:

print(f'Dataset: {dataset}')
print('-----------------------')
print(f'Number of graphs: {len(dataset)}')
print(f'Number of nodes: {data.x.shape[0]}')
print(f'Number of features: {dataset.num_features}')
print(f'Number of classes: {dataset.num_classes}')

输出结果如下所示:

Dataset: FacebookPagePage()
-----------------------
Number of graphs: 1
Number of nodes: 22470
Number of features: 128
Number of classes: 4

(5) 通过 PyTorch Geometric 的专用函数,获得更多详细信息:

print(f'\nGraph:')
print('------')
print(f'Edges are directed: {data.is_directed()}')
print(f'Graph has isolated nodes: {data.has_isolated_nodes()}')
print(f'Graph has loops: {data.has_self_loops()}')

输出结果如下所示:

Graph:
------
Edges are directed: False
Graph has isolated nodes: False
Graph has loops: True

代码 (4) 中的输出结果确认了我们在数据集描述中看到的节点和类别的数量,(5) 中的输出结果表明这个图中有自循环——某些页面连接到它们自身。

(6)Cora 不同,Facebook Page-Page 默认情况下没有训练、评估和测试掩码,我们可以使用 range() 函数创建掩码:

data.train_mask = range(18000)
data.val_mask = range(18001, 20000)
data.test_mask = range(20001, 22470)

(7) PyTorch Geometric 还提供了一个转换函数,可以在加载数据集时计算随机掩码:

import torch_geometric.transforms as T

小结

CoraFacebook Page-Page 是图神经网络领域中经常使用的两个基准图数据集,通常用来比较不同模型的性能。在本节中,介绍了如何使用 PyTorch Geometric 库提供的数据集类加载 CoraFacebook Page-Page 数据集,并探索了两个数据集的主要特征。

系列链接

图神经网络实战(1)——图神经网络(Graph Neural Networks, GNN)基础
图神经网络实战(2)——图论基础
图神经网络实战(3)——基于DeepWalk创建节点表示
图神经网络实战(4)——基于Node2Vec改进嵌入质量

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1530480.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

get_local_ip.bat:快速获取IPv4地址

批处理脚本,用于在Windows命令提示符下获取本地计算机的IPv4地址。 echo off ipconfig | findstr IPv4 pause - echo off:这会关闭命令提示符窗口中的命令回显,使得在运行脚本时不会显示每条命令的执行结果。 - ipconfig:这是一…

IDEA 配置阿里规范检测

IDEA中安装插件 配置代码风格检查规范 使用代码风格检测 在代码类中,右键 然后会给出一些不符合规范的修改建议: 保存代码时自动格式化代码 安装插件: 配置插件:

探索未来教育:在线教育微服务的革新之路

随着互联网技术的不断发展,在线教育已经成为现代教育领域的重要组成部分。而在在线教育的发展过程中,微服务架构的应用正逐渐引起人们的关注和探讨。本文将深入探讨在线教育微服务的概念、优势以及未来发展趋势。 ## 什么是在线教育微服务? …

【how2j练习题】JS部分阶段练习

练习一 <!--练习&#xff0c;做一个简单的加法计算器--><html><input type"text" size "2" id "num1" ><input type"text" size "2" id "num2" ><input type"text" siz…

FSP40罗德与施瓦茨FSP40频谱分析仪

181/2461/8938产品概述&#xff1a; 频率范围:9千赫至40千兆赫 分辨率带宽:1赫兹至10兆赫 显示的平均噪音水平:-155分贝&#xff08;1赫兹&#xff09; 相位噪声:10 kHz时为-113 dB&#xff08;1Hz&#xff09; 附加滤波器:100 Hz至5 MHz的通道滤波器和RRC滤波器、1 Hz至3…

html5cssjs代码 029 CSS计数器

html5&css&js代码 029 CSS计数器 一、代码二、解释 该HTML代码定义了一个网页的结构和样式。在头部&#xff0c;通过CSS样式定义了body和h1-h2元素的样式。body元素的样式包括文本居中、计数器重置、字体颜色和背景颜色。h2元素的样式使用了CSS计数器来自动在标题前添加…

Visio 2003简体中文版软件安装教程(附软件下载地址)

软件简介&#xff1a; 软件【下载地址】获取方式见文末。注&#xff1a;推荐使用&#xff0c;更贴合此安装方法&#xff01; Visio 2003简体中文版是一款独立的专业绘图软件&#xff0c;适用于复制、可视化处理、分析和交流信息、系统和流程。不论是哪个版本的Visio&#xff…

石油炼化5G智能制造工厂数字孪生可视化平台,推进行业数字化转型

石油炼化5G智能制造工厂数字孪生可视化平台&#xff0c;推进行业数字化转型。在石油炼化行业&#xff0c;5G智能制造工厂数字孪生可视化平台的出现&#xff0c;为行业的数字化转型注入了新的活力。石油炼化行业作为传统工业的重要领域&#xff0c;面临着资源紧张、环境压力、安…

拓展商城系统的未来:微服务维度的创新之路

随着电子商务的快速发展&#xff0c;传统的单体式商城系统在应对日益复杂的业务需求和用户体验方面逐渐显露出局限性。而基于微服务架构的商城系统&#xff0c;通过多维度的拆分和组合&#xff0c;正在为商城行业带来全新的创新和发展机遇。本文将深入探讨微服务维度下的商城系…

stm32之GPIO电路介绍

文章目录 1 GPIO介绍2 GPIO的工作模式2.1 浮空输入2.2 上拉输入2.3 下拉输入2.4 模拟输入2.5 开漏输出2.6 推挽输出2.7 复用开漏输出2.8 复用推挽输出2.9 其他 3 应用方式4 常用库函数 1 GPIO介绍 保护二极管&#xff1a;保护引脚&#xff0c;让引脚的电压位于正常的范围施密特…

Docker 从0安装 nacos集群

前提条件 Docker支持一下的CentOs版本 Centos7(64-bit)&#xff0c;系统内核版本为 3.10 以上Centos6.5(64-bit) 或者更高版本&#xff0c;系统内核版本为 2.6.32-431 或者更高版本 安装步骤 使用 yum 安装&#xff08;CentOS 7下&#xff09; 通过 uname -r 命令查看你当…

html5cssjs代码 024 响应式布局示例

html5&css&js代码 024 响应式布局示例 一、代码二、解释 该HTML代码重点在于构建一个带有响应式设计的两栏布局网页&#xff0c;包含页头、导航条、主要内容区&#xff08;左右两列&#xff09;和底部区域&#xff0c;并运用CSS样式设置页面元素的布局、颜色、字体、间…

数字图像处理学习笔记(二)

数字图像处理学习笔记&#xff08;二&#xff09; gamma变换对数与对比度拉伸直方图绘制&#xff0c;直方图均衡化&#xff0c;直方图匹配绘制直方图直方图均衡化直方图匹配 空间滤波线性滤波非线性滤波 gamma变换 数学原理 幂等变换: I c I γ IcI^\gamma IcIγ MATLAB gim…

JWT原理分析

为什么会有JWT的出现&#xff1f; 首先不得不提到一个知识叫做跨域身份验证&#xff0c;JWT的出现就是为了更好的解决这个问题&#xff0c;但是在没有JWT的时候&#xff0c;我们一般怎么做呢&#xff1f;一般使用Cookie和Session&#xff0c;流程大体如下所示&#xff1a; 用…

关于 Microsoft Visual Studio

关于 Microsoft Visual Studio References References [1] Yongqiang Cheng, https://yongqiang.blog.csdn.net/

Visual Studio 2013 - 清理

Visual Studio 2013 - 清理 1. 清理1.1. 工程清理1.2. 解决方案清理 References 1. 清理 Debug Release 1.1. 工程清理 (right mouse click on the project) -> 清理 1.2. 解决方案清理 (right mouse click on the solution) -> 清理解决方案 References [1] Yongq…

快速搭建一个一元二次方程flask应用

新建flask_service目录、templates子目录 flask_service —— app.py —— templates —— —— index.html app.py from flask import Flask, request, jsonify, render_template import random import matplotlib.pyplot as plt from io import BytesIO import base64app F…

Java项目基于SpringBoot和Vue的时装购物系统的设计与实现

今天要和大家聊的是一款基于SpringBoot和Vue的时装购物系统。 &#x1f495;&#x1f495;作者&#xff1a;李同学 &#x1f495;&#x1f495;个人简介&#xff1a;混迹在java圈十年有余&#xff0c;擅长Java、微信小程序、Python、Android等&#xff0c;大家有这一块的问题可…

综合练习(python)

前言 有了前面的知识积累&#xff0c;我们这里做两个小练习&#xff0c;都要灵活运用前面的知识。 First 需求 根据美国/英国各自YouTube的数据&#xff0c;绘制出各自的评论数量的直方图 第一版 import numpy as np from matplotlib import pyplot as plt import matplo…

Android TransactionTooLargeException排查定位

Android TransactionTooLargeException排查定位 工具&#xff1a; https://github.com/guardian/toolargetoolhttps://github.com/guardian/toolargetool android TransactionTooLargeException问题的修复&#xff0c;一种简单的修复就是在Fragment的onCreate里面&#xff0…