12. DataLoader的基本使用

news2025/1/11 7:55:35
DataLoader的基本使用

1. 为什么要使用DataLoader

  • DataLoader对创建好的DataSet的样本取样进行了集成操作,非常方便对于后续网络训练、测试的数据集的选择和使用

  • DataLoader可以集成了数据批量加载的方法,可以使用 batch_size 设置批量大小,DataLoader就会自动处理批量数据的加载,下面给出批量处理的作用

    • 内存管理:对于需要处理的大量数据,直接投入模型训练是不现实的,小批次处理可以解决这个问题
    • 梯度估计的稳定性:小批次梯度估计能够获得更稳定的梯度更新,比整个数据集计算的梯度更快、比单个样本计算的梯度更可靠
    • 模型参数更新:小批次运行模型每处理完一个批次就进行参数更新,可以加快模型的训练过程,前期阶段就可以更快地学习到有用特征,减少迭代次数
    • 调优更方便:可以灵活调整批次大小,找到适合的训练配置。
    • 可以通过不断保存每批次训练后的模型结果,避免代码考虑不周带来的后续模型无法训练的问题
  • DataLoader集成了自动化打乱数据的逻辑代码。确保每个epoch都有不同的数据顺序,shuffle=True

  • DataLoader处理的DataSet数据,要符合第一章中创建的Dataset类的标准,需要对部分魔法函数进行重写。

    class Mydata(Dataset):
        def __init__(self, ):
        
        def __getitem__(self, index):
            return img, label
        def __len__(self):
            return len(xxx)
    

2. 使用DataLoader

  • 首先加载torchvision的CIFAR10数据集,并将图片数据转换为Tensor

    import torchvision
    test_data = torchvision.datasets.CIFAR10(root='./data_torchvision', 
                                             train=False,
                                             transform=torchvision.transforms.ToTensor(),
                                             download=True)
    
    • 查看CIFAR10的父类,可以发现该数据集是一个Dataset子类的子类

    image-20240712113214654

  • 创建Dataloader实例

    from torch.utils.data import DataLoader
    
    test_loader = DataLoader(dataset = test_data,
                             batch_size=64,
                             shuffle=True,
                             drop_last=True)
    
    • dataset:导入基于Dataset类的数据集
    • bact_size:设置数据集中每一次划分图像的数目
    • shuffle:是否打乱样本
    • drop_last:是否舍弃剩余不够分配batc_size的样本
      • 比如test_data共有100个照片,batch_size设置为11,则创建的Dataloader实例包含9组每组11张照片
      • 对于剩余的一张照片,drop_last=True时直接舍弃,否则单独保留为一组仅包含一张照片

3. DataLoader实例的使用说明

  • 数据集说明:test_data共有10000个数据,当batch_size=64 && drop_last=True时,test_loader共包含156个组

    image-20240712114127621

  • 通过迭代遍历 test_loader, 每次遍历得到其中一组数据,每组数据的组织方式为images和labels:一组中的所有图片组织为一个Tensor数据,依据图片顺序将标签组织为一个Tensor数据

    image-20240712224625933

    • 上述输出中,每一个data是test_loader的一个组,一个组包含64个图片
    • imgs是64个图片组织成的Tensor数据
    • labels是64个图片对应的类别标签
  • imgs可以在TensorBoard中进行展示

    from torch.utils.tensorboard import SummaryWriter
    
    writer = SummaryWriter('./logs')
    i = 0
    for data in test_loader:
        imgs, labels = data
        writer.add_images(tag = "imgs",
                          img_tensor=imgs,
                          global_step=i)
        i+=1
    writer.close()
    
    • add_images:可以一次性添加由多个image组成的Tensor数据,将结果展示如下,共计step有156个,每个step包含64张照片

      image-20240713001610122

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2140220.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入理解 Redis 的文件事件处理器

概述 Redis 的文件事件处理器是基于 Reactor 模式实现的,内部采用 IO 多路复用程序来同时监听多个套接字,当被监听的套接字准备好执行连接应答(accept)、读取(read)、写入(write)、…

计算机毕业设计 高校大学生竞赛项目管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

获取Live2d模型

文章目录 1、 Live2D官方示例数据集(可免费下载)2、模之屋3、unity商店4、直接b站搜索5、youtube6、BOOTH完结 1、 Live2D官方示例数据集(可免费下载) 官方提供了一些 Live2D实例模型给大家下载使用 地址:https://ww…

2024年【山东省安全员B证】报名考试及山东省安全员B证最新解析

题库来源:安全生产模拟考试一点通公众号小程序 山东省安全员B证报名考试是安全生产模拟考试一点通生成的,山东省安全员B证证模拟考试题库是根据山东省安全员B证最新版教材汇编出山东省安全员B证仿真模拟考试。2024年【山东省安全员B证】报名考试及山东省…

通用接口开放平台设计与实现——(31)API服务线程安全问题确认与修复

背景 在本系列的前面一篇博客评论中,有小伙伴指出,API服务存在线程安全问题: https://blog.csdn.net/seawaving/article/details/122905199#comments_34477405 今天来确认下,线程是否安全?如不安全,如何…

在k8s中,客户端访问服务的链路流程,ingress--->service--->deployment--->pod--->container

ingress是一个API资源。 其核心作用是nginx网页服务器。 当客户端访问服务器不同的url时, 用不同的location提供服务。 在k8s之外,nginx的配置一般如下: http {server {listen 80;server_name localhost;location / {root html; …

文件的应用实例

目录 1、拷贝文件 2、遍历文件夹 1、拷贝文件 说明:将一张图片/一首歌拷贝到另外一个目录下,要求使用read()和write()原生方法完成 """思路分析:1、打开源文件(需要拷贝的文件),读取源文件的数据2、打开目标文…

网络安全学习(四)渗透工具msf

本文简要介绍metasploit framework,是一款渗透工具。官网地址:Metasploit | Penetration Testing Software, Pen Testing Security | Metasploit msf是一个框架,可以加载各种模块,这是它的最强大之处。 kali中有此工具。 点击即…

python中的各类比较与计算

运算符 1.算数运算符2.关系运算符3.逻辑运算符4.关于短路求值5.赋值运算符1)的使用链式赋值多元赋值 2)复合赋值运算符 6.位运算符7.成员运算符8.身份运算符 1.算数运算符 # 加 print(1 2) # 减 print(2 - 1) # 乘 print(1 * 2) # 余数 4%31余数为1 print(4 % 3…

C++第五十一弹---IO流实战:高效文件读写与格式化输出

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】 目录 1. C语言的输入与输出 2. 流是什么 3. CIO流 3.1 C标准IO流 3.2 C文件IO流 3.2.1 以写方式打开文件 3.2.1 以读方式打开文件 4 stringstre…

【测试方案】软件测试管理规程(doc源文件)

软件测试规程的作用在于确保软件测试活动的系统性、规范性和一致性。它明确了测试的目标、范围、方法、流程以及所需资源,为测试人员提供了明确的指导和操作规范。通过遵循测试规程,可以提高测试效率,减少测试遗漏和错误,保证软件…

NC 表达式求值

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 描述 请写一个整数…

MySQL8.0.13-函数索引

目录 什么是函数索引 语法 函数索引测试 创建表结构 插入数据 创建普通索引 查看执行计划 创建函数索引 查看执行计划 查看索引信息 函数索引效率 普通索引 函数索引 分析 注意事项 老版本如何实现函数索引 什么是函数索引 本篇主要介绍 MySQL 的函数索引&…

【数据结构】顺序表和链表经典题目

系列文章目录 单链表 动态顺序表实现通讯录 顺序表 文章目录 系列文章目录前言一、顺序表经典例题1. 移除元素2. 合并两个有序数组 二、链表经典例题1. 移除链表元素2. 反转链表3. 合并两个有序链表4. 链表的中间节点5. 环形链表的约瑟夫问题 总结 前言 我们通过前面对顺序表…

NVM(node.js版本工具)的使用

1.nvm是什么 NVM 是 Node Version Manager 的缩写,它是一个用于管理 Node.js 版本的命令行工具。通过NVM,你可以在同一台机器上安装和切换多个 Node.js 版本,对于开发和测试在不同 Node.js 版本上运行的应用程序非常有用。 2.下载 下载之前…

『功能项目』眩晕图标显示【52】

我们打开上一篇51调整Boss技能bug的项目, 本章要做的事情是在释放法师的眩晕技能时,boss01处在眩晕动画时显示一个眩晕图标 首先双击Boss01预制体进入预制体空间 创建一个Image重命名为StateUIdiz 代表第一个受击状态 设置Canavas 并且修改Canvas的渲染…

Java 学习全攻略:从入门到精通的详细指南

目录 一、引言 Java 的背景和发展 学习 Java 的意义 二、Java 的核心特性 1. 面向对象编程(OOP) 2. 跨平台性 3. 自动内存管理 4. 强大的标准库 三、Java 基础语法 1. 变量和数据类型 原始数据类型 引用数据类型 2. 运算符 3. 控制结构 条…

柳淘鸿黄金沁透发热面膜:肌肤逆龄之旅的秘密武器!

柳淘鸿黄金沁透发热面膜:肌肤逆龄之旅的秘密武器!"柳淘鸿的黄金沁透发热面膜液融合了中国发明专利,专利号:ZL202310228041.5对应成分:胶原, 金,珍珠粉以及多种珍贵植物萃取精华,是肌肤逆龄之旅的绝密武器。这款面膜液温和滋养…

Git之误执行git rm -r解决方案(六十七)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列【…

视频分割操作教程

1、打开剪映 2、点击开始创作上面的“”,选择视频,点击添加按钮,导入一个视频素材到剪映 3、滑动视频,让视频竖线到合适位置 4、点击视频,出现白色边框 5、点击工具栏“分割”,然后点击需要删除的视频部分 …