【图神经网络】5分钟快速了解Open Graph Benchmark

news2024/11/23 1:13:02

10分钟快速了解Open Graph Benchmark

  • Open Graph Benchmark (OGB)
    • 安装OGB
    • 简单使用
    • 节点分类任务数据集
    • 链路预测任务数据集
    • 图属性预测任务数据集
    • Large-Scale Graph ML Datasets
  • 内容来源

Open Graph Benchmark (OGB)

Open Graph Benchmark(OGB)是用于图机器学习的基准数据集、数据加载器和评估器的集合。数据集涵盖了各种图机器学习任务和现实世界中的应用程序。OGB数据加载器与流行的图深度学习框架完全兼容,包括PyTorch Geometric和Deep Graph Library(DGL)。它们提供自动数据集下载、标准化数据集拆分和统一的性能评估。
OGB数据流程
OGB旨在提供涵盖重要的图机器学习任务、不同数据集规模和丰富领域的图数据集。

  • Graph ML任务:涵盖了三个基本的图机器学习任务:节点、链接和图级别的预测。
  • 规模多样化:小型图数据集可以在单个GPU内处理,而中大型图可能需要多个GPU或巧妙的采样/分区技术。
  • 丰富的领域:图数据集来自从科学网络到社会/信息网络的不同领域,也包括异构知识图。

任务领域和尺度

安装OGB

可以使用Python包管理器pip安装。

pip install ogb

检查ogb的版本:

python -c "import ogb; print(ogb.__version__)"
# This should print "1.3.6". Otherwise, please update the version by
pip install -U ogb

其他相关的依赖包 是:

  • Python>=3.6
  • PyTorch>=1.6
  • DGL>=0.5.0 or torch-geometric>=2.0.2
  • Numpy>=1.16.0
  • pandas>=0.24.0
  • urllib3>=1.24.0
  • scikit-learn>=0.20.0
  • outdated>=0.2.0

简单使用

主要强调了OGB的两个关键特性,即(1)易于使用的数据加载器和(2)标准化的评估器
(1)Data loaders
OGB有易于使用的PyTorch Geometric和DGLdata loaders。可以处理数据集下载以及标准化的数据集拆分。下面的示例是在PyTorch Geometric上数据准备和拆分数据集!当然对于DGL也是非常方便的!

from ogb.graphproppred import PygGraphPropPredDataset
from torch_geometric.loader import DataLoader

# Download and process data at './dataset/ogbg_molhiv/'
dataset = PygGraphPropPredDataset(name = 'ogbg-molhiv')

split_idx = dataset.get_idx_split() 
train_loader = DataLoader(dataset[split_idx['train']], batch_size=32, shuffle=True)
valid_loader = DataLoader(dataset[split_idx['valid']], batch_size=32, shuffle=False)
test_loader = DataLoader(dataset[split_idx['test']], batch_size=32, shuffle=False)

(2)Evaluators
OGB还准备了标准化的评估器,以便于评估和比较不同的方法。evaluator将input_dict(格式在evaluator.expected_input_format中指定的字典)作为输入,并返回一个存储适用于给定数据集的性能度量的字典。标准化的评估协议使研究人员能够可靠地比较他们的方法。

from ogb.graphproppred import Evaluator

evaluator = Evaluator(name = 'ogbg-molhiv')
# You can learn the input and output format specification of the evaluator as follows.
# print(evaluator.expected_input_format) 
# print(evaluator.expected_output_format) 
input_dict = {'y_true': y_true, 'y_pred': y_pred}
result_dict = evaluator.eval(input_dict) # E.g., {'rocauc': 0.7321}

节点分类任务数据集

节点分类任务
注意:对于无向图,加载的图将具有双倍的边数,因为OGB会自动添加双向边。

链路预测任务数据集

链路预测任务
注意:对于无向图,加载的图将具有双倍的边数,因为OGB会自动添加双向边。*表示外部提供的数据集。

图属性预测任务数据集

图属性预测
注意:对于无向图,加载的图将具有双倍的边数,因为OGB会自动添加双向边。

Large-Scale Graph ML Datasets

有三个OGB-LSC数据集:MAG240M、WikiKG90Mv2和PCQM4Mv2,它们分别在节点、链接和图的级别上具有前所未有的规模和覆盖预测。下面提供了三个OGB-LSC数据集的说明性概述。
OGB-LSC

  • MAG240M是一个异质的学术图,其任务是预测位于异质图中的论文的主题领域(节点分类)。
  • WikiKG90Mv2是一个知识图,其任务是估算缺失的三元组(链接预测)。
  • PCQM4Mv2是一个量子化学数据集,其任务是预测给定分子的一个重要分子性质,即HOMO-LUMO间隙(图回归)。

对于每个数据集,OGB仔细设计其预测任务和数据分割,以便在任务上实现高预测性能将直接影响相应的应用。在每个数据集页面中提供了进一步的详细信息。数据集统计数据和基本信息总结如下,表明OGB的数据集非常大。
OGB-LSC
†:PCQM4Mv2数据集在SMILES字符串中提供。将它们处理成图形对象后,最终的文件大小将在8GB左右。

内容来源

OGB home

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/667752.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

QT学习资料整理

5、QMainWindow QMainWindow是一个为用户提供主窗口程序的类,包含一个菜单栏(menu bar)、多个工具栏(tool bars)、多个锚接部件(dock widgets)、一个状态栏(status bar)及一个中心部件(central widget),是许多应用程序的基础&…

一文带你学会Lua语言

一文带你学会Lua语言 1.第一个Lua程序2.Lua流程控制3.Lua中的循环结构while循环语句for循环语句repeat循环语句 4.Lua数据类型5.Lua字符串6.Lua文件I/O操作7.Lua协同程序8.Lua语言中的注释和虚变量 1.第一个Lua程序 在命令行中,可以使用print()来打印输出一些内容 …

【音视频播放器测试】确保卓越的媒体体验

😄作者简介: 小曾同学.com,一个致力于测试开发的博主⛽️,主要职责:测试开发、CI/CD 如果文章知识点有错误的地方,还请大家指正,让我们一起学习,一起进步。😊 座右铭:不想…

2 python基础篇

文章目录 变量判断循环函数容器列表元组字符串set字典 函数进阶补充在linux下运行py文件shebang使用pycharm与linux进行相交互 见我的另一个专栏,有专门介绍python 链接 变量 链接 关于多行注释的补充,在函数的前方def functionname:的下面…

火山引擎 Iceberg 数据湖的应用与实践

在云原生计算时代,云存储使得海量数据能以低成本进行存储,但是这也给如何访问、管理和使用这些云上的数据提出了挑战。而 Iceberg 作为一种云原生的表格式,可以很好地应对这些挑战。本文将介绍火山引擎在云原生计算产品上使用 Iceberg 的实践…

Pytorch QAT for UNet

对UNet进行Pytorch QAT量化感知训练研究了一周,终于跑通了,中间踩了不少坑,特此把正常操作记录一下,以备后续参考。 Pytorch提供了两种量化模式:Eager Mode 和FX Graph Mode. Eager Mode需要手动指定需要融合&#x…

迪赛智慧数——饼图(环形饼图):2022年618期间各品类销售额分布

效果图 2022年“618”全网成交额达6959亿元,较2021年增加了1174.20亿元,同比增长20.30%。“618”网购狂欢节首先是由京东发起的,京东618每年6月是京东的店庆月,2022年京东“618”成交额达3793亿元,较2021年增加了355亿…

性能测试工具:Jmeter介绍

JMeter是一个开源的Java应用程序,由Apache软件基金会开发和维护,可用于性能测试、压力测试、接口测试等。 1. 原理 JMeter的基本原理是模拟多用户并发访问应用程序,通过发送HTTP请求或其他协议请求,并测量响应时间、吞吐量、并发…

VSCode远程开发入门指南

我的开发环境 我的开发主机是一台Centos7的远端云服务器,在本地的Windows电脑上使用xshell进行ssh连接,在Windows使用vscode的Remote进行远程连接,进行编写与开发,主要是C领域的开发 为什么不推荐使用vim 一个趁手的编辑器在开…

【Linux】网络编程基础包含TCP详解

目录 网络结构模式C/S结构B/S结构 MAC地址IP地址端口网络模型OSI七层模型TCP/IP四层模型 通信过程数据包封装协议以太网协议ARP协议IP数据报格式UDP协议格式TCP协议格式封装分用TCP详解TCP和UDPTCP通信流程TCP三次握手TCP滑动窗口TCP四次挥手 网络结构模式 C/S结构 客户机-服务…

03、非受控组件与受控组件、高阶函数、prop-types、生命周期、hook

总结 一、非受控组件与受控组件 非受控组件 表单项不与state数据相向关联, 需要手动读取表单元素的值 借助于 ref获取真实DOM,在通过value获得输入值,使用原生 DOM 方式来获取表单元素值 非受控组件: 表单项不与 state 数据相向关联, 需要手动读取表…

宏景eHR SQL注入漏洞复现(CNVD-2023-08743)

0x01 产品简介 宏景eHR人力资源管理软件是一款人力资源管理与数字化应用相融合,满足动态化、协同化、流程化、战略化需求的软件。 0x02 漏洞概述 宏景eHR 存在SQL注入漏洞,未经过身份认证的远程攻击者可利用此漏洞执行任意SQL指令,从而窃取数…

android 如何分析应用的内存(七)——malloc hook

android 如何分析应用的内存(七) 接上文,介绍六大板块中的第二个————malloc hook 上一篇的自定义分配函数,常常只能解决当前库中的分配,而不能跟踪整个app中的分配。 为此,android的libc库&#xff…

正运动即将亮相2023年深圳激光展,助力个性化激光智能制造!

■展会名称: 第⼗六届深圳国际激光与智能装备、光子技术博览会(以下简称“深圳激光展”) ■展会日期 2023年6月27日-29日 ■展馆地点 深圳国际会展中心(宝安新馆) ■展位号 9D115 激光加工是一种基于光热效应的…

STM32的中断系统详解(嵌入式学习)

中断系统 1. 基本概念2. 中断的意义3. 中断处理过程处理过程过程详述 4. 中断体系结构5. NVIC概念主要功能 6. EXTI概念主要功能结构框图中断和事件的区别 7. 总结 1. 基本概念 中断是处理器中的一种机制,用于响应和处理突发事件或紧急事件。当发生中断时&#xff…

每日学术速递6.9

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Segment Anything in High Quality 标题:以高质量分割任何内容 作者:Lei Ke, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai, Chi-Keung Tang, …

Reids分布式锁详细介绍原理和实现

Reids 分布式锁 问题描述 1、单体单机部署的系统被演化成分布式集群系统后 2、由于分布式系统多线程、多进程并且分布在不同机器上,这将使原单机部署情况下的并发控制锁策略失效 3、单纯的Java API 并不能提供分布式锁的能力 4、为了解决这个问题就需要一种跨J…

abd shell后,getevent退出方法

abd shell后,getevent退出方法 输入 exit 然后回车退出

一种很新的交互式智能标注技术

随着人工智能应用的大规模落地,数据标注市场在高速增长的同时,也面临着标注成本的挑战。据IDC报告显示:数据标注在AI应用开发过程中所耗费的时间占到了25%,部分医学类应用一条数据的标注成本甚至高达20元。数据精度的高要求、强人…

RocketMQ 环境搭建

环境:linux(centos) 或 windos; jdk 1.8 场景:rocket入门学习 时间:2023-04-20 吐槽:可能是本人学习能力不足,想使用docker搭建rocketmq 一直失败,可能是我想使用的比较新…