8 加载数据集

news2026/3/27 12:04:30

文章目录

- 前提知识了解
- 数据集
- Mini-Batch
- - 常用术语
- DataLoader
- - 核心参数
  - 核心功能
- 小tips
- 课程代码实例

课程来源：链接
课程文本部分来源（参考）：链接
以及（强烈推荐） Birandaの

前提知识了解

enumerate函数

数据集

包括DataSet以及DataLoader两部分，是用于加载的数据集包括数据和索引两部分，而DataLoader是用于引入数据集的Mini-Batch

Mini-Batch

均衡于算法的时间复杂度（加载全部数据训练更快）以及算法的准确度（加载单个数据训练更准）

在外层循环中，每一层是一个epoch（训练周期），在内层循环中，每一次是一个Mini-Batch（Batch的迭代）

for epoch in range(training_epochs):
    for i in range(total_batch):

常用术语

Epoch：所有的样本都进行了一次前馈计算和反向传播即为一次epoch

Batch-Size：每次训练的时候所使用的样本数量

Iterations：batch分的次数

DataLoader

核心参数

batch_size,shuffle(洗牌，用于打乱顺序)

核心功能

通过获得DataSet的索引以及数据集大小，来自动得生成小批量训练集

DataLoader先对数据集进行洗牌，再将数据集按照Batch_Size的长度划分为小的Batch，并按照Iterations进行加载，以方便通过循环对每个Batch进行操作。

在这里插入图片描述

小tips

注：在windows中利用多线程读取，需要将主程序（对数据操作的程序）封装到函数中

eg：

if __name__ =='__main__':
	for epoch in range(100):
		for i,data in enumerate(train_loader, 0):

以及如果既有测试数据又有训练数据，即二者需要分开
在这里插入图片描述

课程代码实例

在构造数据集时，两种对数据加载到内存中的处理方式如下：

加载所有数据到dataset，每次使用时读索引，适用于数据量小的情况
只对dataset进行初始化，仅存文件名到列表，每次使用时再通过索引到内存中去读取

import torch
import numpy as np
#DataSet是抽象类，无法实例化
from torch.utils.data import Dataset
#DataLoader可实例化
from torch.utils.data import DataLoader

class DiabetesDataset(Dataset):
    def __init__(self,filepath):
        xy = np.loadtxt(filepath, delimiter=',', dtype=np.float32)
        #获得数据集长度
        self.len=xy.shape[0]
        self.x_data = torch.from_numpy(xy[:, :-1])
        self.y_data = torch.from_numpy(xy[:, [-1]])
    #获得索引方法
    def __getitem__(self, index):
        return self.x_data[index], self.y_data[index]
    #获得数据集长度
    def __len__(self):
        return self.len

dataset = DiabetesDataset('diabetes.csv')
#num_workers表示多线程的读取
train_loader = DataLoader(dataset=dataset,batch_size=32,shuffle=True,num_workers=2)

class Model(torch.nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.linear1 = torch.nn.Linear(8, 6)
        self.linear2 = torch.nn.Linear(6, 4)
        self.linear3 = torch.nn.Linear(4, 1)
        self.sigmoid = torch.nn.Sigmoid()

    def forward(self, x):
        x = self.sigmoid(self.linear1(x))
        x = self.sigmoid(self.linear2(x))
        x = self.sigmoid(self.linear3(x))
        return x

model = Model()

criterion = torch.nn.BCELoss(size_average=True)

optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

if __name__ =='__main__':
    for epoch in range(100):
        #enumerate:可获得当前迭代的次数
        for i,data in enumerate(train_loader,0):
            #准备数据dataloader会将按batch_size返回的数据整合成矩阵加载
            inputs, labels = data
            #前馈
            y_pred = model(inputs)
            loss = criterion(y_pred, labels)
            print(epoch, i, loss.item())
            #反向传播
            optimizer.zero_grad()
            loss.backward()
            #更新
            optimizer.step()