PyTorch：torchvision中的dataset的使用

news2026/2/12 17:02:01

torchvision中的dataset的使用

在深度学习和计算机视觉任务中，有效地加载和预处理图像数据集是关键的一环。torchvision库，作为PyTorch的一个扩展，提供了一系列工具来帮助研究者和开发者处理图像数据。这包括通过torchvision.datasets和transforms模块来简化数据的加载、预处理和增强过程。本文将详细介绍如何使用torchvision.datasets模块加载数据集，配合transforms进行图像预处理，并配置和理解关键参数。

使用`torchvision.datasets`

torchvision.datasets模块包含多种预定义的数据集类，如MNIST、CIFAR-10、ImageNet等。这些类封装了数据的下载、加载和基本处理步骤。使用这些数据集类时，需要了解以下关键参数：

关键参数详解

root: 指定数据集的存储路径。如果数据已在本地，它会从此路径加载；如果不存在，它将自动下载到此路径。
- 设置理由: 提供一个统一的位置存放和访问数据集，确保数据可以被重复使用，减少不必要的网络下载。
train: 布尔值，用于指定加载数据集的哪部分：训练集还是测试集。
- 设置理由: 为了区分不同用途的数据，大多数数据集都区分了训练集和测试集，以支持模型的训练和验证。
download: 布尔值，指示如果本地没有数据集时是否应自动从互联网下载。
- 设置理由: 确保无论本地数据是否存在，都能获取所需的数据集，支持模型的开发和测试。
transform: 用于定义一系列对数据进行预处理和增强的操作。
- 设置理由: 数据预处理是模型训练前的重要步骤，通过标准化、调整尺寸等处理提升模型训练的效果。

示例代码：加载 CIFAR-10 数据集

CIFAR-10 数据集包含了10个类别的60,000张32x32彩色图像，分为50,000张训练图像和10,000张测试图像。以下是加载此数据集的示例：

import torchvision
import torchvision.transforms as transforms

# 定义图像预处理
transform = transforms.Compose([
    transforms.Resize(256),             # 将图像大小调整为256x256，适配模型输入，提高处理效率
    transforms.CenterCrop(224),         # 从调整大小后的图像中心裁剪出224x224，确保图像主要内容被保留
    transforms.ToTensor(),              # 将图像转换为Tensor，改变数据格式以适应PyTorch模型
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 对图像进行标准化处理，改善模型训练的收敛速度和泛化能力
])

# 加载 CIFAR-10 训练数据集
train_dataset = torchvision.datasets.CIFAR10(root='./data', train=True,
                                             download=True, transform=transform)

# 加载 CIFAR-10 测试数据集
test_dataset = torchvision.datasets.CIFAR10(root='./data', train=False,
                                            download=True, transform=transform)