虽然 PyG 已经提供了很多有用的数据集,但你可能希望创建自己的数据集,使用自己收集的数据或非公开的数据。
自己实现数据集是非常简单的,你可能想查看源代码,了解各种数据集是如何实现的。然而,这里简要介绍一下如何设置你自己的数据集。
我们提供了两个抽象类用于数据集:torch_geometric.data.Dataset
和 torch_geometric.data.InMemoryDataset
。torch_geometric.data.InMemoryDataset
继承自 torch_geometric.data.Dataset
,如果整个数据集能够加载到 CPU 内存中,就应该使用 InMemoryDataset
。
按照 torchvision 的约定,每个数据集都会传入一个根目录(root folder),该目录指定了数据集的存储位置。我们将根目录分成两个子目录:raw_dir
,数据集会下载到此目录;processed_dir
,处理后的数据集会保存在此目录。
此外,每个数据集还可以传入 transform
、pre_transform
和 pre_filter
函数,默认情况下它们是 N