YOLO V3 SPP ultralytics 第一节:VOC 的标注文件(xml)转YOLO标注格式(txt)以及如何自定义YOLO数据样本

news2025/1/12 6:45:52

目录

1. 前言

2. 关于PASCAL VOC数据集xml --> YOLO txt格式

2.1 路径设定

2.2 读取xml 文件的函数

2.3 xml ---> yolo txt

2.4 yolo 的label文件

2.6 结果

2.7 代码

3. 自定义 YOLO 数据集

3.1 预备工作

3.2 打开labelimg

3.3 绘制


代码参考是b站的大佬:3.2 YOLOv3 SPP源码解析(Pytorch版)

PASCAL VOC数据集的链接:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/

 

 

转换之后的yolo格式数据集分为两个,一个太大了,没法上传

训练集:PASCAL VOC 目标检测的yolo格式之训练集

验证集:PASCAL VOC 目标检测的yolo格式之验证集

1. 前言

目标检测的label文件和分类、分割都不相同。一般来说,分类任务中,相同类别的图片放在同一个目录下,文件名的索引就是分类的名称。而分割任务中,不同的训练图像对应的是不同的多阈值图像,即训练是图像,label也是图像

目标检测的label分为两个,一个是待检测目标的类别,例如猫啊、狗啊等等。另一个是目标的位置,用边界框来标注,经常是xmin、xman、ymin、ymax的矩形框。

通常,目标检测的标签是用xml 文件标注的

例如,下方的object里面,就有horse和person两个类别,对应类别的下方有四个参数就是边界框的信息

 

而yolo算法导致这样的xml 不满足 yolo的格式,所以需要一个xml转yolo格式的操作

如下,12 指的是检测的类别,后面四个参数是x、y、w、h边界框的信息

yolo 边界框是根据边界框中心坐标、w、h相对于整幅图像而言的

 

2. 关于PASCAL VOC数据集xml --> YOLO txt格式

本章只完成数据转换的工作

一开始,my_yolo_dataset 和my_data_label.names 是没有的,是由trans_voc2yolo.py 将VOCdevkit的数据转换才生成的两个文件

 

2.1 路径设定

VOC 数据集是分开的,用于不同的任务,这里只针对目标检测任务

  • Annotations 放目标检测的xml 标签文件
  • train.txt、val.txt 放训练集和验证集的文件名
  • JPEGImages 放所有VOC的图片

 

2.2 读取xml 文件的函数

如下:

 

这里的代码用的递归实现,没怎么看懂,知道怎么用就行了

下面是读取一个xml文件,返回的字典信息

{'annotation': {'folder': 'VOC2012', 'filename': '2008_000008.jpg', 'source': {'database': 'The VOC2008 Database', 'annotation': 'PASCAL VOC2008', 'image': 'flickr'}, 'size': {'width': '500', 'height': '442', 'depth': '3'}, 'segmented': '0', 'object': [{'name': 'horse', 'pose': 'Left', 'truncated': '0', 'occluded': '1', 'bndbox': {'xmin': '53', 'ymin': '87', 'xmax': '471', 'ymax': '420'}, 'difficult': '0'}, {'name': 'person', 'pose': 'Unspecified', 'truncated': '1', 'occluded': '0', 'bndbox': {'xmin': '158', 'ymin': '44', 'xmax': '289', 'ymax': '167'}, 'difficult': '0'}]}}

2.3 xml ---> yolo txt

这部分比较重要,一点一点看

注意框中的部分,因为 parse_xml_to_dict 返回的是字典,而最先的key是annotation,所以data先将它取出来

 

然后遍历key为object下面的边界框

 注意这里的index是索引,从0开始。这里是第一个index和obj的值

 

最后将边界框转为中心点坐标宽度和高度,然后再改为整幅图像的相对值就行了

 

2.4 yolo 的label文件

实现代码如下:

 这里也很简单,就是将VOC的key取出,然后存放即可

 

2.6 结果

运行过程如下

 

生成的yolo 数据集目录如下:

 

yolo 的label信息:

2.7 代码

转换的代码如下:

"""
本脚本有两个功能:
1.将voc数据集标注信息(.xml)转为yolo标注格式(.txt),并将图像文件复制到相应文件夹
2.根据json标签文件,生成对应names标签(my_data_label.names)
"""

import os
from tqdm import tqdm
from lxml import etree
import json
import shutil


# 读取xml 文件信息,并返回字典形式
def parse_xml_to_dict(xml):
    """
    将xml文件解析成字典形式,参考tensorflow的recursive_parse_xml_to_dict
    Args:
        xml: xml tree obtained by parsing XML file contents using lxml.etree

    Returns:
        Python dictionary holding XML contents.
    """

    if len(xml) == 0:  # 遍历到底层,直接返回tag对应的信息
        return {xml.tag: xml.text}

    result = {}
    for child in xml:
        child_result = parse_xml_to_dict(child)  # 递归遍历标签信息
        if child.tag != 'object':
            result[child.tag] = child_result[child.tag]
        else:
            if child.tag not in result:  # 因为object可能有多个,所以需要放入列表里
                result[child.tag] = []
            result[child.tag].append(child_result[child.tag])
    return {xml.tag: result}


# 将xml文件转换为yolo的 txt文件
def translate_info(file_names: list, save_root: str, class_dict: dict, train_val='train'):
    """
    :param file_names: 所有训练集/验证集 图片的路径
    :param save_root:  带保持的对应的 yolo 文件
    :param class_dict: voc 数据的json 标签
    :param train_val:  判断传入的是训练集还是验证集
    """

    save_txt_path = os.path.join(save_root, train_val, "labels")            # 保存yolo的 txt 标注文件
    if os.path.exists(save_txt_path) is False:
        os.makedirs(save_txt_path)

    save_images_path = os.path.join(save_root, train_val, "images")         # 保存yolo 的训练图像文件
    if os.path.exists(save_images_path) is False:
        os.makedirs(save_images_path)

    for file in tqdm(file_names, desc="translate {} file...".format(train_val)):
        # 检查下图像文件是否存在
        img_path = os.path.join(voc_images_path, file + ".jpg")
        assert os.path.exists(img_path), "file:{} not exist...".format(img_path)

        # 检查xml文件是否存在
        xml_path = os.path.join(voc_xml_path, file + ".xml")
        assert os.path.exists(xml_path), "file:{} not exist...".format(xml_path)

        # read xml
        with open(xml_path) as fid:
            xml_str = fid.read()
        xml = etree.fromstring(xml_str)
        data = parse_xml_to_dict(xml)["annotation"]     # 读取xml文件信息
        img_height = int(data["size"]["height"])        # 读入图像的 h
        img_width = int(data["size"]["width"])          # 读入图像的 w

        # 判断该xml 是否有 ground truth
        assert "object" in data.keys(), "file: '{}' lack of object key.".format(xml_path)
        if len(data["object"]) == 0:
            # 如果xml文件中没有目标,返回该图片路径,然后忽略该样本
            print("Warning: in '{}' xml, there are no objects.".format(xml_path))
            continue

        # 新建xml对应的yolo txt标注文件,并写入
        with open(os.path.join(save_txt_path, file + ".txt"), "w") as f:
            for index, obj in enumerate(data["object"]):    # index是0开始的索引,obj 是object的字典文件
                # 获取每个object的box信息
                xmin = float(obj["bndbox"]["xmin"])
                xmax = float(obj["bndbox"]["xmax"])
                ymin = float(obj["bndbox"]["ymin"])
                ymax = float(obj["bndbox"]["ymax"])
                class_name = obj["name"]        # 获取边界框的分类
                class_index = class_dict[class_name] - 1  # 目标id从0开始

                # 进一步检查数据,有的标注信息中可能有w或h为0的情况,这样的数据会导致计算回归loss为nan
                if xmax <= xmin or ymax <= ymin:
                    print("Warning: in '{}' xml, there are some bbox w/h <=0".format(xml_path))
                    continue

                # 将box信息转换到 yolo格式
                xcenter = xmin + (xmax - xmin) / 2      # 中心点坐标
                ycenter = ymin + (ymax - ymin) / 2
                w = xmax - xmin                         # 边界框的 w 和 h
                h = ymax - ymin

                # 绝对坐标转相对坐标,保存6位小数
                xcenter = round(xcenter / img_width, 6)
                ycenter = round(ycenter / img_height, 6)
                w = round(w / img_width, 6)
                h = round(h / img_height, 6)

                info = [str(i) for i in [class_index, xcenter, ycenter, w, h]]

                if index == 0:
                    f.write(" ".join(info))
                else:       # 自动换行
                    f.write("\n" + " ".join(info))

        # 复制图像到对应的集
        path_copy_to = os.path.join(save_images_path, img_path.split(os.sep)[-1])
        if os.path.exists(path_copy_to) is False:
            shutil.copyfile(img_path, path_copy_to)


# 创建yolo 的 label文件
def create_class_names(class_dict: dict):
    keys = class_dict.keys()
    with open("./data/my_data_label.names", "w") as w:
        for index, k in enumerate(keys):
            if index + 1 == len(keys):
                w.write(k)
            else:
                w.write(k + "\n")


def main():
    # 读取原先的voc数据的json label文件
    json_file = open(label_json_path, 'r')
    class_dict = json.load(json_file)

    # 读取voc数据集所有训练集路径文件 train.txt中的所有行信息,删除空行
    with open(train_txt_path, "r") as r:
        train_file_names = [i for i in r.read().splitlines() if len(i.strip()) > 0]

    # voc信息转 yolo,并将图像文件复制到相应文件夹
    translate_info(train_file_names, save_file_root, class_dict, "train")

    # 读取voc数据集所有验证集路径文件 val.txt中的所有行信息,删除空行
    with open(val_txt_path, "r") as r:
        val_file_names = [i for i in r.read().splitlines() if len(i.strip()) > 0]
    # voc信息转yolo,并将图像文件复制到相应文件夹
    translate_info(val_file_names, save_file_root, class_dict, "val")

    # 创建my_data_label.names文件
    create_class_names(class_dict)


if __name__ == "__main__":
    # voc数据集根目录以及版本
    voc_root = "VOCdevkit"
    voc_version = "VOC2012"

    # 转换的训练集以及验证集对应txt文件
    train_txt = "train.txt"
    val_txt = "val.txt"

    # 转换后的文件保存目录,yolo格式
    save_file_root = "./my_yolo_dataset"
    if os.path.exists(save_file_root) is False:
        os.makedirs(save_file_root)

    # label标签对应json文件
    label_json_path = './data/pascal_voc_classes.json'

    voc_images_path = os.path.join(voc_root, voc_version, "JPEGImages")                         # voc 训练图像路径
    voc_xml_path = os.path.join(voc_root, voc_version, "Annotations")                           # voc 的 xml 标签文件路径
    train_txt_path = os.path.join(voc_root, voc_version, "ImageSets", "Main", train_txt)        # voc 训练集路径文件
    val_txt_path = os.path.join(voc_root, voc_version, "ImageSets", "Main", val_txt)            # voc 验证集路径文件

    # 检查文件/文件夹都是否存在
    assert os.path.exists(voc_images_path), "VOC images path not exist..."
    assert os.path.exists(voc_xml_path), "VOC xml path not exist..."
    assert os.path.exists(train_txt_path), "VOC train txt file not exist..."
    assert os.path.exists(val_txt_path), "VOC val txt file not exist..."
    assert os.path.exists(label_json_path), "label_json_path does not exist..."

    # 开始转换
    main()

3. 自定义 YOLO 数据集

这里用的是labelimg,安装如下

pip install labelimg

终端输入 labelimg 即可进入,界面如下:

 

3.1 预备工作

新建一个demo 文件夹,下面存放这三个文件

  • annotation 是保存的yolo 边界框文件
  • img 是图片
  • labels.txt 是label文件

 label存放如下:

 

3.2 打开labelimg

在demo中打开终端,第一个参数是图像的文件夹,第二个是labels的路径

 

3.3 绘制

打开后会这么显示,首先要将保存的格式改成yolo的。然后将save dir选中annotation文件夹

右边是img有的文件,这里放置两张图像 

绘制的时候,选中哪个类别就行了

 

最后结果就是这样

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/545441.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CNNs: ZFNet之CNN的可视化网络介绍

CNNs: ZFNet之CNN的可视化网络介绍 导言Deconvnet1. Unpooling2. ReLU3. Transpose conv AlexNet网络修改AlexNet Deconv网络介绍特征可视化 导言 上一个内容&#xff0c;我们主要学习了AlexNet网络的实现、超参数对网络结果的影响以及网络中涉及到一些其他的知识点&#xff0…

RedisInsight—Redis可视化工具

到处都是各种redis的可视化工具&#xff0c;但是那个是redis官网推荐的呢。 答案是&#xff1a;RedisInsight。 好用吗&#xff1f;自己看看吧。反正下载是挺烦躁的。 RedisInsight介绍 RedisInsight支持多种操作系统&#xff1a;Linux、Windows和macOS。 RedisInsight支持…

全网最牛最全面的jmeter教程之jmeter对图片验证码的处理

jmeter对图片验证码的处理 在web端的登录接口经常会有图片验证码的输入&#xff0c;而且每次登录时图片验证码都是随机的&#xff1b;当通过jmeter做接口登录的时候要对图片验证码进行识别出图片中的字段&#xff0c;然后再登录接口中使用&#xff1b; 通过jmeter对图片验证码…

【数据结构】C语言实现堆及其应用

二叉树的顺序结构--堆 一、堆的概念与实现堆的概念堆结构定义堆的初始化与销毁堆的插入与向上调整堆的打印、判空、元素个数size、堆顶元素堆的删除与向下调整大根堆与小根堆的写法区别堆的两种建立方式建堆的时间复杂度推导 二、堆的应用堆的应用--topK堆的应用--堆排序优先级…

learn_C_deep_11 (深刻理解整形提升、左移和右移规则、花括号、++和--操作、表达式匹配:贪心算法)

目录 深刻理解整形提升 左移和右移规则 如何理解"丢弃" 一个问题 0x01<<23 的值是多少 花括号 、--操作 表达式匹配&#xff1a;贪心算法 深刻理解整形提升 #include <stdio.h> int main() {char c 0;printf("sizeof(c): %d\n", sizeo…

C++系列之类与对象(上)

&#x1f497; &#x1f497; 博客:小怡同学 &#x1f497; &#x1f497; 个人简介:编程小萌新 &#x1f497; &#x1f497; 如果博客对大家有用的话&#xff0c;请点赞关注再收藏 &#x1f31e; 类 类的概念 C是基于面向对象的&#xff0c;是对象与对象之间的交互完成的&am…

docker构建PHP环境

docker构建PHP环境 文章目录 docker构建PHP环境下载镜像构建本地目录创建容器配置补充命令解释设置docker启动时启动容器 下载镜像 # php 镜像 docker pull php:7.4-fpm # nginx镜像 docker pul nginx:lates # 检查下载的镜像 docker images构建本地目录 本次构建是在win系统…

怎么查营业执照经营范围

怎么查营业执照经营范围 1.到企业公司所在地查询。一般工商局都要求公司将营业执照正本悬挂于企业办公室醒目位置,在公司工商营业执照正副本中均有描述。 2.登陆国家工商管理网站查询。可以登陆开具发票单位所在的工商行政管理局网站,输入企业名称就可以查询法人、企业类型、经…

第七章 中断

中断是什么&#xff0c;为什么要有中断 并发是指单位时间内的累积工作量。 并行是指真正同时进行的工作量。 一个CPU在一个时间只能执行一个进程&#xff0c;任何瞬间任务只在一个核心上运行。 而CPU外的设备是独立于CPU的&#xff0c;它与CPU同步运行&#xff0c;CPU抽出一点…

2023年十大最佳黑客工具!

​用心做分享&#xff0c;只为给您最好的学习教程 如果您觉得文章不错&#xff0c;欢迎持续学习 在今年根据实际情况&#xff0c;结合全球黑客共同推崇&#xff0c;选出了2023年十大最佳黑客工具。 每一年&#xff0c;我都会持续更新&#xff0c;并根据实际现实情况随时更改…

山西煤矿电子封条算法 opencv

山西煤矿电子封条通过pythonopencv网络模型AI视觉技术&#xff0c;pythonopencv算法模型实现对出入井人监察控制、调度室空岗识别、生产作业状态、摄像头遮挡、挪动角度识别、货运车辆出矿识别等。 OpenCV的全称是Open Source Computer Vision Library&#xff0c;是一个跨平台…

CleanMyMac X如何下载解锁完整版本?

这是一款很受到mac用户喜爱的清理软件。不仅清理文件的步骤十分简单&#xff0c;电脑小白用户也可以高效清理Mac电脑。作为一款全方位保护电脑的软件&#xff0c;CleanMyMac已经不满足于只做简单的Mac清理工具&#xff0c;而是为mac用户提供更多的实用功能&#xff1a;优化系统…

机器学习随记(7)——bootstrap、bagging、boosting、随机森林

bootstrap&#xff1a;是一种统计方法&#xff0c;也是一种思想&#xff0c;简单说就是在所有样本集中进行有放回地抽样&#xff0c;抽取n个样本。如果不清楚样本的分布&#xff0c;bootstrap是一种合适的方法。 bagging&#xff1a;Bagging方法在训练过程中&#xff0c;各基分…

windows提权

权限提升概述 1、提权介绍 权限提升&#xff1a;攻击者通过安全漏洞把获取到的受限制的低权限用户突破限制&#xff0c;提权至高权限的管理员用户&#xff0c;从而获取对整个系统的控制权 windows&#xff1a;user --> system/administrator linux&#xff1a;user --&g…

ASEMI代理Infineon英飞凌IPB072N15N3G原厂MOS管

编辑-Z IPB072N15N3G参数描述&#xff1a; 型号&#xff1a;IPB072N15N3G 持续漏极电流&#xff1a;100A 脉冲漏极电流&#xff1a;400A 雪崩能量&#xff0c;单脉冲&#xff1a;780 mJ 栅极-源极电压&#xff1a;20V 功率耗散&#xff1a;300W 操作和储存温度&#xf…

Voxformer代码 DataLoader 的编写

Stage 1: 目标是 使用QPN 生成 Occupancy Field 读取 需要读取 pseudo 的 vox_path 实际的 test 发生在 lmsnet.py 这个文件 input :25625632 的 pseudo point output: 12812816 的 Occupancy Grid 代码中 实际inference 的输入是 img_metas[0]["pseudo_pc"] 因此…

算法小课堂(十)随机化算法

目录 一、概述 1.1概念 1.2分类 二、数值随机化算法 2.1随机数 2.2用随机投点法计算Π值 2.3随机投点法计算定积分 三、舍伍德&#xff08;Sherwood&#xff09;型随机化算法 3.1随机洗牌算法 3.2随机快速排序&#xff1a;随机选择枢点的快速排序算法 3.3找出这n个元素…

STL——string类的模拟实现

0.关注博主有更多知识 C知识合集 目录 1.编码问题 2.string类概述 2.6习题练习 3.string类的模拟实现 3.1成员变量 3.2迭代器部分 3.3类的默认成员部分 3.4容量接口 3.5增删查改接口 3.6通用接口 3.7输入与输出 3.8完整代码 1.编码问题 实际上在我们接触C之前就…

SpringBoot入门(构建、打包、启动、起步依赖starter)

文章目录 1 SpringBoot快速入门1.1 开发步骤步骤1 创建新模块步骤2 创建 Controller步骤3 启动服务器步骤4 进行测试 1.2 对比1.3 官网构建工程步骤1 进入SpringBoot官网步骤2 选择依赖步骤3 生成工程 1.4 SpringBoot工程快速启动1.4.1 问题导入1.4.2 打包1.4.3 启动 2 SpringB…

OverTheWireBandit教程(1-10)

这个网站还挺好玩的于是我就抽点时间做了一下 OverTheWire的登录网址&#xff1a;OverTheWire: Bandit 本人用的是远程连接软件mobaxterm&#xff0c;windows自带的ssh版本不对用不了 Bandit Level 0 Level Goal The goal of this level is for you to log into the game usi…