昇思25天学习打卡营第04天 | 数据集 Dataset

news2024/12/22 20:10:47

昇思25天学习打卡营第04天 | 数据集 Dataset

文章目录

  • 昇思25天学习打卡营第04天 | 数据集 Dataset
    • 数据集加载
    • 数据集迭代
    • 数据集的变换
      • shuffle
      • map
      • batch
    • 自定义数据集
      • 可随机访问数据集对象
      • 可迭代数据集
      • 生成器
    • 总结
    • 打卡

数据集Dataset对原始数据进行封装、变换,为神经网络提供高质量的输入数据。
mindspore.dataset内置了的文本、图像、音频等数据集的加载接口,也提供创建自定义数据集的方法。

数据集加载

mindspore.dataset仅支持解压后的数据文件,对于压缩包文件,需要先解压才能创建数据集:

from download import download

url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/" \
      "notebook/datasets/MNIST_Data.zip"
path = download(url, "./", kind="zip", replace=True)					 # 下载并解压到"./"目录下

train_dataset = MnistDataset("MNIST_Data/train", shuffle=False)			# 通过数据集的文件目录直接创建dataset

数据集迭代

数据集可以通过create_tuple_iteratorcreate_dict_iterator接口创建迭代器进行访问。
访问的类型默认为Tensor,如果设置output_numpy=True,则访问Numpy

def visualize(dataset):
    figure = plt.figure(figsize=(4, 4))
    cols, rows = 3, 3

    plt.subplots_adjust(wspace=0.5, hspace=0.5)

    for idx, (image, label) in enumerate(dataset.create_tuple_iterator()):
        figure.add_subplot(rows, cols, idx + 1)
        plt.title(int(label))
        plt.axis("off")
        plt.imshow(image.asnumpy().squeeze(), cmap="gray")
        if idx == cols * rows - 1:
            break
    plt.show()

数据集的变换

shuffle

shuffle可以对数据集进行打乱,消除数据排列不均匀的问题。
op-shuffle
mindspore.dataset可以在加载数据集的时候配置shuffle=True,或者通过mindspore.dataset.shuffle(buffer_size)进行打乱。

map

map是数据预处理的关键,可以针对数据集的指定列添加变换,将指定变换应用于该列数据的每个元素,并返回变换后的新元素。

train_dataset = train_dataset.map(vision.Rescale(1.0 / 255.0, 0), input_columns='image')

batch

将数据集中的数据打包为batch有利于在资源受限的情况下使用梯度下降,可以保证梯度下降的随机性和优化计算量。

train_dataset = train_dataset.batch(batch_size = 32)

通过batch后数据增加一维,大小为batch_size

自定义数据集

通过构造自定义数据加载类和自定义数据集生成函数的方法来生成数据集,并通过GeneratorDataset接口实现数据集的加载
GeneratorDataset支持可随机访问数据集对象可迭代数据集对象生成器构造数据集。

可随机访问数据集对象

是指实现了__getitem____len__方法的数据集,可以通过索引/键直接访问对应位置的数据。

class RandomAccessDataset:
    def __init__(self):
        self._data = np.ones((5, 2))
        self._label = np.zeros((5, 1))

    def __getitem__(self, index):
        return self._data[index], self._label[index]

    def __len__(self):
        return len(self._data)

loader = RandomAccessDataset()
dataset = GeneratorDataset(source=loader, column_names=["data", "label"])

可迭代数据集

是指实现了__iter____next__方法的数据集,可以通过迭代的方式获取数据样本,适用于随机访问成本太高或不可行的情况。

class IterableDataset():
    def __init__(self, start, end):
        '''init the class object to hold the data'''
        self.start = start
        self.end = end
    def __next__(self):
        '''iter one data and return'''
        return next(self.data)
    def __iter__(self):
        '''reset the iter'''
        self.data = iter(range(self.start, self.end))
        return self
		
loader = IterableDataset(1, 5)
dataset = GeneratorDataset(source=loader, column_names=["data"])

生成器

生成器属于可迭代的数据集类型,依赖于python的generator返回数据,直到生成器抛出StopIteration异常。

def my_generator(start, end):
    for i in range(start, end):
        yield i

dataset = GeneratorDataset(source=lambda: my_generator(3, 6), column_names=["data"])

总结

通过这一节的学习,对MindSpore中Dataset的使用方法有了一定的了解,掌握了通过download下载/解压数据并创建数据集,通过迭代器方位数据集中的元素,通过shuffle打乱数据,通过map变换数据以及将数据打包为固定大小的patch。此外,还了解了自定义数据集的创建以及自定义数据集需要实现的方法,为之后的训练数据管理和处理打下了基础。

打卡

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1885692.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenSSH漏洞扫描(CVE-2024-6387、CVE-2006-5051、CVE-2008-4109)

目录 POC:ssh_poc.py 使用方法 github CVE-2024-6387 漏洞信息 补丁 POC:ssh_poc.py import sys import socket import argparse import threading import queue import os from datetime import datetime from urllib.parse import urlparse from…

全年免费!环信发布出海创新版,助力泛娱乐创业者扬帆起航

目前,以陌生人社交、直播、语聊、电商等热门场景为代表的社交泛娱乐出海正发展得如火如荼,成为企业新的增长曲线。但随着出海企业增多,海外市场争夺、资源竞争与技术博弈也愈加激烈。 为了让更多创业者与创新者获得支持,快速高效…

宠物博主亲测养宠好物安利,口碑好的狗毛空气净化器推荐

作为一名6年资深铲屎官,一到春季换季就开始各种疯狂打喷嚏、全身过敏红肿,这是因为宠物在换季的时候就疯狂掉毛,家里就想下雪一样,空气中都是宠物浮毛。而宠物毛上附带的细菌会跟随浮毛被人吸入人体,从而产生打喷嚏、过…

VBA字典与数组第十六讲:行、列数不相同的数组间运算规律

《VBA数组与字典方案》教程(10144533)是我推出的第三套教程,目前已经是第二版修订了。这套教程定位于中级,字典是VBA的精华,我要求学员必学。7.1.3.9教程和手册掌握后,可以解决大多数工作中遇到的实际问题。…

云服务器中的地域和可用区是什么意思?

一、地域介绍 1、概念 地域(Region):从地理位置和网络时延维度划分,同一个地域内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。不同地域之间完全隔离,保证不同地域间最大程度的稳定性和容…

0628_ARM4

练习&#xff1a; stm32流水灯 .text .global _start _start: 使能GPIOE外设时钟 0X50000A28 RCC_MP_AHB4ENSETR[4]->1 LDR R0,0x50000a28 指定操作的内存地址 LDR R1,[R0] 将R0对应的地址空间中的值读取出来 ORR R1,R1,#(0x3<<4) 将第4,5位设置为1 STR…

ForkJoinPool与ThreadPoolExecutor

ThreadPoolExecutor不多介绍&#xff0c;重点介绍ForkJoinPool&#xff0c;以及二者的区别 ForkJoinPool ForkJoinPool 是 Java 7 引入的一种用于并行计算的框架&#xff0c;特别适合处理递归任务。它是 java.util.concurrent 包的一部分&#xff0c;基于工作窃取算法&#x…

【Qwen2部署实战】Qwen2初体验:用Transformers打造智能聊天机器人

系列篇章&#x1f4a5; No.文章1【Qwen部署实战】探索Qwen-7B-Chat&#xff1a;阿里云大型语言模型的对话实践2【Qwen2部署实战】Qwen2初体验&#xff1a;用Transformers打造智能聊天机器人3【Qwen2部署实战】探索Qwen2-7B&#xff1a;通过FastApi框架实现API的部署与调用4【Q…

java 程序、进程 、线程,cpu,并行、并发、启动线程两种方式

1、重写 Thread 父类方法 后创建实例调用 start 方法 2、将创建自实现 Runable 接口后的实例 作为参数传递给 Thread 的构造方法 两个条件同时存在&#xff0c;那个生效&#xff1f; new Thread(/* condition 1 */threadTest2) {Override/* condition 2 */public void run() {T…

如何查看xpf文件

xpf文件是什么 XPF文件是“XML Paper Specification File”的缩写&#xff0c;它是一种文件保存格式&#xff0c;具有以下特点和相关信息&#xff1a; 一、定义与用途 定义&#xff1a;XPF文件用于保留文档的固定布局&#xff0c;包括文本、图片以及其他文档元素的确切位置。…

【HarmonyOS NEXT】鸿蒙如何动态添加组件(NodeController)

NodeController用于实现自定义节点的创建、显示、更新等操作的管理&#xff0c;并负责将自定义节点挂载到NodeContainer上。 说明 本模块首批接口从API version 11开始支持 当前不支持在预览器中使用NodeController。 导入模块 import { NodeController } from "ohos…

23种设计模式之装饰者模式

深入理解装饰者模式 一、装饰者模式简介1.1 定义1.2 模式类型1.3 主要作用1.4 优点1.5 缺点 二、模式动机三、模式结构四、 装饰者模式的实现4.1 组件接口4.2 具体组件4.3 装饰者抽象类4.4 具体装饰者4.5 使用装饰者模式4.6 输出结果&#xff1a; 五、 应用场景5.1 图形用户界面…

嵌入式Linux系统编程 — 6.2 signal和 sigaction信号处理函数

目录 1 信号如何处理 2 signal()函数 2.1 signal()函数介绍 2.2 示例程序 3 sigaction()函数 3.1 sigaction()函数介绍 3.2 示例程序 1 信号如何处理 信号通常是发送给对应的进程&#xff0c;当信号到达后&#xff0c; 该进程需要做出相应的处理措施&#xff0c;可以通…

ROS——Server、Client的编程实现,服务数据的定义与使用,参数的使用和编程方法

客户端 创建功能包 创建客户端、创建服务、配置请求数据、请求调用、等待应答 设置编译规则 编译运行客户端 服务端 创建服务器 编译成目标执行文件、相关库的连接 add_executable(turtle_command_server src/turtle_command_server.cpp) target_link_libraries(turtle_comman…

第2章 寄存器

第2章 寄存器 一个 CPU 由运算器&#xff0c;控制器&#xff0c;寄存器等器件构成&#xff0c;这些器件靠内部总线进行相连。简单的说 CPU 中&#xff1a; 运算器进行信息处理寄存器进行信息存储控制器控制各种器件进行工作内部总线连接各个器件&#xff0c;在他们之间进行各种…

工业交换机端口统计功能

工业交换机端口统计功能不仅是一项技术手段&#xff0c;更是一双透视企业网络健康状态的慧眼。通过这一功能&#xff0c;企业能够实时捕捉到网络中每一个端口的流量情况&#xff0c;这不仅仅是数据的积累&#xff0c;更是对网络脉搏的精准把握。当网络的每一个脉动都被记录在案…

git基本使用(一):git的基本概念

Git 是一种分布式版本控制系统&#xff0c;最初由 Linus Torvalds 于 2005 年为 Linux 内核开发。它主要用于跟踪文件的更改&#xff0c;特别是在软件开发过程中&#xff0c;可以帮助团队成员协同工作。它在实际项目开发中&#xff0c;应用非常广泛&#xff0c;我们这一节来掌握…

第2章.现场设备的物联网模式--设备管理

2.3 设备管理 设备的作用及其管理方式是物联网和非物联网部署之间的关键区别。设备生命周期管理的阶段包括设备供应&#xff08;注册、激活和调试&#xff09;到取消供应。本书中用于设备管理的注释如下图所示&#xff1a; 图2.6——设备管理模式的符号 设备管理包括现场设备的…

Power Platform功能管理实战课程重点学什么?怎么学?

Power Platform 由 Power BI、Power Apps、Power Automate、Power Virtual Agents 四大模块组成。 这几个模块单独应用都具有强大的功能&#xff0c;而微软把它们放在一起&#xff0c;相互协作、相得益彰&#xff0c;形成了强大的生态系统。而这也是Power Platform的核心理念—…

Java案例实现双色球

一问题&#xff1a; 二具体代码&#xff1a; package 重修;import java.util.Random; import java.util.Scanner;public class first {public static void main(String[] args) {int []usersnumbersusernumslect();System.out.println("用户");for (int i 0; i <…