63.目标检测数据集

news2025/1/15 12:43:36

目标检测领域没有像MNIST和Fashion-MNIST那样的小数据集。 为了快速测试目标检测模型,我们收集并标记了一个小型数据集。 首先,我们拍摄了一组香蕉的照片,并生成了1000张不同角度和大小的香蕉图像。 然后,我们在一些背景图片的随机位置上放一张香蕉的图像。 最后,我们在图片上为这些香蕉标记了边界框。

1. 下载数据集

包含所有图像和CSV标签文件的香蕉检测数据集可以直接从互联网下载。

%matplotlib inline
import os
import pandas as pd
import torch
import torchvision
from d2l import torch as d2l
d2l.DATA_HUB['banana-detection'] = (
    d2l.DATA_URL + 'banana-detection.zip',
    '5de26c8fce5ccdea9f91267273464dc968d20d72')

2. 读取数据集

通过read_data_bananas函数,我们读取香蕉检测数据集。 该数据集包括一个的CSV文件,内含目标类别标签和位于左上角和右下角的真实边界框坐标。

def read_data_bananas(is_train=True):
    """读取香蕉检测数据集中的图像和标签"""
    data_dir = d2l.download_extract('banana-detection') # 下载并解压
    # 读取label.csv:每一行是一个物体,包含标签以及边框的左上角坐标、右下角坐标
    csv_fname = os.path.join(data_dir, 'bananas_train' if is_train
                             else 'bananas_val', 'label.csv') 
    csv_data = pd.read_csv(csv_fname)
    # 将img_name设置为索引列
    csv_data = csv_data.set_index('img_name')
    images, targets = [], []
    # csv_data.iterrows()中第一个参数是索引,第二个是这一行的内容
    # 在这里 img_name是标签名,target包含 标签、边框的左上角坐标、右下角坐标
    for img_name, target in csv_data.iterrows():
      # 通过 torchvision.io.read_image 把图片读到内存中
        images.append(torchvision.io.read_image(
            os.path.join(data_dir, 'bananas_train' if is_train else
                         'bananas_val', 'images', f'{img_name}')))
        # 这里的target包含(类别,左上角x,左上角y,右下角x,右下角y),
        # 其中所有图像都具有相同的香蕉类(索引为0)
        targets.append(list(target))
    # 返回所有读出来的图片和标号对应的tensor
    # 通过unsqueeze(1)把1*n的list 弄成 n*1 的列向量
    return images, torch.tensor(targets).unsqueeze(1) / 256

squeeze()和unsqueeze()函数功能及使用

通过使用read_data_bananas函数读取图像和标签,以下BananasDataset类别将允许我们创建一个自定义Dataset实例来加载香蕉检测数据集。

class BananasDataset(torch.utils.data.Dataset):
    """一个用于加载香蕉检测数据集的自定义数据集"""
    def __init__(self, is_train):
        self.features, self.labels = read_data_bananas(is_train)
        print('read ' + str(len(self.features)) + (f' training examples' if
              is_train else f' validation examples'))

    # 读取第i个样本
    def __getitem__(self, idx):
        return (self.features[idx].float(), self.labels[idx])

   # 返回数据有多长,这样可以知道一个epoch要跑多少轮
    def __len__(self):
        return len(self.features)

最后,我们定义load_data_bananas函数,来为训练集和测试集返回两个数据加载器实例。对于测试集,无须按随机顺序读取它。

def load_data_bananas(batch_size):
    """加载香蕉检测数据集"""
    train_iter = torch.utils.data.DataLoader(BananasDataset(is_train=True),
                                             batch_size, shuffle=True)
    val_iter = torch.utils.data.DataLoader(BananasDataset(is_train=False),
                                           batch_size)
    return train_iter, val_iter

PyTorch之torch.utils.data.DataLoader详解

让我们读取一个小批量,并打印其中的图像和标签的形状

图像的小批量的形状为(批量大小、通道数、高度、宽度),看起来很眼熟:它与我们之前图像分类任务中的相同。 标签的小批量的形状为(批量大小, 𝑚 ,5),其中 𝑚 是数据集的任何图像中边界框可能出现的最大数量。

小批量计算虽然高效,但它要求每张图像含有相同数量的边界框,以便放在同一个批量中。 通常来说,图像可能拥有不同数量个边界框;因此,在达到 𝑚 之前,边界框少于 𝑚 的图像将被非法边界框填充

这样,每个边界框的标签将被长度为5的数组表示。 数组中的第一个元素是边界框中对象的类别,其中-1表示用于填充的非法边界框。 数组的其余四个元素是边界框左上角和右下角的( 𝑥 , 𝑦 )坐标值(值域在0~1之间)。 对于香蕉数据集而言,由于每张图像上只有一个边界框,因此 𝑚=1 。

batch_size, edge_size = 32, 256
train_iter, _ = load_data_bananas(batch_size)
batch = next(iter(train_iter))
batch[0].shape, batch[1].shape

运行结果:

在这里插入图片描述

3. 演示

让我们展示10幅带有真实边界框的图像。 我们可以看到在所有这些图像中香蕉的旋转角度、大小和位置都有所不同。 当然,这只是一个简单的人工数据集,实践中真实世界的数据集通常要复杂得多。

# batch[0]是图片,batch[1]是标签(包括位置和类别)
imgs = (batch[0][0:10].permute(0, 2, 3, 1)) / 255
axes = d2l.show_images(imgs, 2, 5, scale=2)
for ax, label in zip(axes, batch[1][0:10]): # 
  # 乘以edge_size就是要乘回来256,之前把坐标位置除以了256
    d2l.show_bboxes(ax, [label[0][1:5] * edge_size], colors=['w'])

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/141253.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MSF弱点扫描

● 根据信息收集结果搜索漏洞利用模块 ● 结合外部漏洞扫描系统对大IP地址段进行批量扫描 ● 误判率、漏判率 VNC密码破解 use auxiliary/scanner/vnc/vnc_login● VNC无密码访问 use auxiliary/scanner/vnc/vnc_none_authRDP远程桌面漏洞 use auxiliary/scanner/rdp/ms12_…

【系统设计】直播架构分析

直播架构 1. 组成 三部分组成, 分别是 客户端(主播端 观众端) 、应用服务器集群 、 CDN 技术 2. 模块间交互方式 主播端 : 直播客户端开启直播间 —— 获取 CDN 推流地址 ——通过 CDN 协议推流到 CDN 服务器上 观众端&#x…

软考信息安全工程师看什么教材?

教材在官网上都有给出具体的版本。 如何复习备考? 首先准备考教材,视频,资料等内容。(可分享) 了解考情: 通过历年真题分析历年考试相关知识内容的考查频度及分值占比,梳理出核心考点内容。第二…

【CANN训练营第三季】Pytorch模型迁移

文章目录第4题第5题首先安装pytorch 参考:https://gitee.com/ascend/pytorch 安到测试这一步,报错,没办法继续了。 RuntimeError: Unsupported soc version: Ascend310 https://gitee.com/ascend/pytorch/issues/I68UDG?fromproject-issue …

微软的AD登录

微软的AD登录最早在1999年出现,,,也就是我们知道的SSO,,具体原理不做过多展开。见官网 AD 官网 安装依赖 "azure/msal-browser": "^2.15.0","azure/msal-react": "^1.0.1",…

XXE - XML外部实体注入攻击

XXE漏洞是什么? xxe(xml External Entity attack),在可以解析XML语言的地方,攻击者提交恶意的XML代码并被执行后,获取服务器中本应被保护的数据。对于XXE漏洞最为关键的部分是DTD文档类型,DTD …

全球 5G RAN 市场呈现强劲增长

根据Future Market Insights的一份新报告,全球对5G RAN的需求预计将在2022年和2032年以28.7%的健康CAGR增长,到2032年达到342亿美元的净值。 5G RAN市场蜂窝设备利用无线电波进行通信。这些设备将用户的语音和移动数据转换成数字化信号,以无…

Vue--》vue3中的计算属性与监视的使用讲解

computed函数与Vue2.x中的computed配置功能一致&#xff0c;只不过在Vue3.x中我们需要按需导入该函数。因为Vue3.x是向下兼容Vue2语法的&#xff0c;所以我们可以写成既有 setup 又有 Vue2中的computed函数&#xff0c;如下代码示例&#xff1a;<template><h1>个人…

IIC(I2C)协议详解

1.简介IIC,即IC&#xff0c;全称 Inter-Integrated Circuit&#xff0c;字面上的意思是集成电路之间&#xff0c;它其实是IC Bus简称&#xff0c;所以中文应该叫 集成电路总线 &#xff0c;它是一种串行通信总线&#xff0c;使用多主从架构&#xff0c;由飞利浦公司在1980年代为…

魔兽世界服务端源码各个重要文件详细情况说明——魔兽世界开服

魔兽服务端开服源文件各文件翻译很多文件在服务器中我们知道是跟什么有关&#xff0c;但就是不知道其作用是什么。就算我们知道在这些地方中的文件都是有着不小的作用。但是由于不知道各个文件代表的是什么意思所以在面对这些文件的时候都会有无从下手的感觉&#xff0c;所以今…

云渲染市场安全吗?

云渲染虽然在3D制作行业已经日益普及&#xff0c;但仍有人持观望态度&#xff1a;云渲染市场安全吗&#xff1f;使用云渲染是否能够保证我的数据安全、财产安全等问题&#xff0c;今天小编就来跟大家探讨一下这个问题。首先&#xff0c;在解答云渲染市场是否安全这个问题之前&a…

MobarX远程登录虚拟机

环境&#xff1a;宿主机WIN10&#xff0c;virtualBox安装的ubuntu16&#xff1b; 前提条件&#xff1a;宿主机和ubuntu能够互相ping通&#xff1b; 步骤&#xff1a; 第一步&#xff1a;添加网卡类型为“仅主机的网络”&#xff08;MobarX登录Ubuntu需要的网卡&#xff09; …

Session详解,学习Session(包含底层分析和使用)

什么是sessionsession在网络应用中称为“会话控制”&#xff0c;是服务器为了保存用户状态而创建的一个特殊的对象。简而言之&#xff0c;session就是一个对象&#xff0c;用于存储信息。 session和cookie的比较 cookie保存在客户端&#xff0c;session保存在服务端cookie作用于…

2023企业在媒体邀约的过程中应该注意哪些细节

很多企业在发展壮大之后&#xff0c;都会成立自己的品牌公关部&#xff0c;来进行日常公关的维护工作&#xff0c;这就需要邀请大量的媒体资源和媒体人脉来进行邀约&#xff0c;企业通常会邀请那些服务好、资深的媒介机构&#xff0c;进行明确的分工&#xff0c;从而完成每一场…

廉颇未老,VB语言迎来春天,中文编程也绝处逢生

“VB语言过时了&#xff0c;早就淘汰了”&#xff0c;不少程序员认为&#xff0c;如今VB上不了台面。颠覆许多人认知的是&#xff0c;VB&#xff08;Visual Basic&#xff09;作为微软“亲儿子”&#xff0c;借助微软平台在全球用户中仍有着稳固地位&#xff0c;是被大家看轻的…

技术分享 | Redis 之分布式锁

作者&#xff1a;贲绍华 爱可生研发中心工程师&#xff0c;负责项目的需求与维护工作。其他身份&#xff1a;柯基铲屎官。 本文来源&#xff1a;原创投稿 *爱可生开源社区出品&#xff0c;原创内容未经授权不得随意使用&#xff0c;转载请联系小编并注明来源。 引言&#xff1a…

Redis事务

Redis事务官网&#xff1a; http://redis.cn/topics/transactions.html 一、Redis事务的特性 Redis事务可以一次执行多个命令&#xff0c;并且满足以下两个重要的特性 事务是一个单独的隔离操作&#xff1a;事务中的所有命令都会序列化、按顺序地执行。事务在执行的过程中&a…

CSS3 calc()函数

CSS3 calc()函数 概述 在CSS3中&#xff0c;我们可以使用calc()函数通过“计算”的方式来定义某一个属性的取值。 使用 语法 属性: calc(表达式);说明 可以使用calc()函数计算元素的width、margin、padding、font-size等。 对于calc()函数&#xff0c;有以下5条运算规则…

我的第一个基于vue-cli的程序

文章目录一 准备环境1.1 node.js安装1.2 安装Vue工具(Vue CLI)第一种安装方式【可能会遇到失败&#xff0c;如果失败请尝试第二种方式】下载的文件的存放位置第二种安装方式安装cnpm二 操作步骤2.0 进行目标文件夹下的命令行窗口2.1 创建项目2.2 成功2.3 运行项目2.4 效果一 准…

力扣1700.无法吃午餐的学生数量

题目描述&#xff1a; 学校的自助午餐提供圆形和方形的三明治&#xff0c;分别用数字 0 和 1 表示。所有学生站在一个队列里&#xff0c;每个学生要么喜欢圆形的要么喜欢方形的。 餐厅里三明治的数量与学生的数量相同。所有三明治都放在一个 栈 里&#xff0c;每一轮&#xff…