【Python快速入门和实践013】Python常用脚本-目标检测之按照类别数量划分数据集

news2025/1/12 0:01:11

一、功能介绍

        这段代码实现了从给定的图像和标签文件夹中分割数据集为训练集、验证集和测试集的功能。以下是代码功能的总结:

  1. 创建目标文件夹结构

    • 在指定的根目录(dataset_root)下创建imageslabels两个文件夹。
    • 在这两个文件夹下分别创建trainvaltest三个子文件夹,用于存放不同阶段的数据。
  2. 统计类别数量

    • 遍历标签文件夹中的所有文本文件,统计每个类别在所有标签文件中出现的总次数。
  3. 计算分割比例

    • 根据给定的比例(默认为训练集80%,验证集10%,测试集10%),计算每个类别在训练集、验证集和测试集中应该有的数量。
  4. 随机分配数据

    • 遍历图像文件夹中的所有图片。
    • 对于每个图片,检查其对应的标签文件是否存在。
    • 读取标签文件,提取其中的类别信息。
    • 根据随机数决定图片属于训练集、验证集还是测试集。
    • 将图片和对应的标签文件复制到相应的文件夹中,同时更新类别数量记录。
  5. 最终结果

    • 数据集按照指定的比例被划分为训练集、验证集和测试集。
    • 每个类别在各个数据集中的分布尽量保持均衡。

二、代码

import os
import random
import shutil


def split_dataset(image_folder, label_folder, train_ratio=0.8, val_ratio=0.1, test_ratio=0.1):
    """
    将图像和标签文件按指定比例分割成训练集、验证集和测试集。

    参数:
    image_folder (str): 图像文件夹路径。
    label_folder (str): 标签文件夹路径。
    train_ratio (float): 训练集所占比例,默认为0.8。
    val_ratio (float): 验证集所占比例,默认为0.1。
    test_ratio (float): 测试集所占比例,默认为0.1。
    """

    # 创建目标文件夹
    dataset_root = r'E:\pythonProject\pythonProject\after_neu'
    os.makedirs(dataset_root, exist_ok=True)

    # 创建images和labels文件夹
    images_folder = os.path.join(dataset_root, 'images')
    labels_folder = os.path.join(dataset_root, 'labels')
    os.makedirs(images_folder, exist_ok=True)
    os.makedirs(labels_folder, exist_ok=True)

    # 创建train、val和test子文件夹
    for split in ['train', 'val', 'test']:
        os.makedirs(os.path.join(images_folder, split), exist_ok=True)
        os.makedirs(os.path.join(labels_folder, split), exist_ok=True)

    # 统计每个类别的图片数量
    category_counts = {}
    for filename in os.listdir(label_folder):
        label_path = os.path.join(label_folder, filename)
        with open(label_path, 'r') as label_file:
            lines = label_file.readlines()
            categories = [line.split()[0] for line in lines]
            for category in categories:
                category_counts[category] = category_counts.get(category, 0) + 1

    # 计算每个类别在训练集、验证集和测试集中的数量
    train_category_counts = {}
    val_category_counts = {}
    test_category_counts = {}
    for category, count in category_counts.items():
        train_count = int(count * train_ratio)
        val_count = int(count * val_ratio)
        test_count = count - train_count - val_count
        train_category_counts[category] = train_count
        val_category_counts[category] = val_count
        test_category_counts[category] = test_count

    # 遍历图片文件夹
    for filename in os.listdir(image_folder):
        image_path = os.path.join(image_folder, filename)
        label_path = os.path.join(label_folder, os.path.splitext(filename)[0] + '.txt')

        # 确保标注文件存在
        if not os.path.exists(label_path):
            continue

        # 读取标注文件获取类别信息
        with open(label_path, 'r') as label_file:
            lines = label_file.readlines()
            categories = [line.split()[0] for line in lines]

        # 确定将图片放入的集合
        rand = random.random()
        if rand < train_ratio:
            destination_folder = 'train'
            category_counts = train_category_counts
        elif rand < train_ratio + val_ratio:
            destination_folder = 'val'
            category_counts = val_category_counts
        else:
            destination_folder = 'test'
            category_counts = test_category_counts

        # 移动图片和标注文件到目标文件夹
        for category in categories:
            category_folder_images = os.path.join(images_folder, destination_folder)
            category_folder_labels = os.path.join(labels_folder, destination_folder)
            os.makedirs(category_folder_images, exist_ok=True)
            os.makedirs(category_folder_labels, exist_ok=True)
            if category_counts[category] > 0:
                shutil.copy(image_path, os.path.join(category_folder_images, filename))
                shutil.copy(label_path, os.path.join(category_folder_labels, os.path.splitext(filename)[0] + '.txt'))
                category_counts[category] -= 1


# 图片文件夹路径
image_folder = r'E:\pythonProject\pythonProject\NEU-DET\images'

# 标注文件夹路径
label_folder = r'E:\pythonProject\pythonProject\NEU-DET\txt'

# 调用函数进行数据集分割
split_dataset(image_folder, label_folder)

        这个数据集划分代码相比与其他的不是随机划分,考虑到每个类别的图片样张可能不均衡,所以按照类别去划分数据集。需要先把xml转成yolo的txt格式,然后指定图片、txt标签、保存文件夹路径即可。在NEU-DET数据集上运行结果如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2053313.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

scoket通信 -- 网络字节序

include <arpa/inet.h> 考虑到不同语言不同库函数的参数可能不同&#xff0c;我这里以c语言的arpa/inet.h库中的函数为例. 网络字节序是什么 网络字节序&#xff08;Network Byte Order&#xff09;是指在网络通信中用于数据交换时所采用的字节序&#xff0c;它是大端…

log4j日志配置%X{TransId}

log4j日志配置文件中的%X{TransId}是怎么动态获取值的 在Log4j中&#xff0c;%X{TransId} 是用来从MDC&#xff08;Mapped Diagnostic Context&#xff09;中获取值的占位符。MDC 是 Log4j 提供的一种机制&#xff0c;用于在同一个线程的不同日志记录中传递上下文信息。通过 M…

centos ssh免密登录配置

ssh免密登录 centos 系统中&#xff0c;配置免密需要确保ssh配置文件免密登录权限打开了 sudo vim /etc/ssh/sshd_config 查看PubkeyAuthentication值为yes 修改之后&#xff0c;重启sshd sudo systemctl restart sshd免密配置 &#xff08;1&#xff09;生成秘钥文件 ssh-…

Linux 下 RocketMQ 安装、配置与运维(详细讲解)

一 RocketMQ 下载安装 1 下载 RocketMQ&#xff1a; 下载当前最新版本RocketMQ 官网下载&#xff1a; https://dist.apache.org/repos/dist/release/rocketmq/5.3.0/rocketmq-all-5.3.0-bin-release.zip wget https://dist.apache.org/repos/dist/release/rocket…

安装搭建MongoDB及配置副本集

目录 一、什么是MongoDB的副本集 简介 &#xff08;1&#xff09;冗余和数据可用性 &#xff08;2&#xff09;MongoDB中的复制 &#xff08;3&#xff09;主从复制和副本集区别 二、副本集的架构 三、副本集的成员 四、部署副本集 1、节点划分 2、安装MongoDB 2.1、…

数据结构与算法——平衡二叉树

1、基本介绍 1&#xff09;平衡二叉树又叫平衡二叉搜索树(Self-balanceing binary search tree)&#xff0c;又被称为AVL树&#xff0c;可以保证查询效率较高。 2&#xff09;具有以下特点&#xff1a;它是一颗空树或它的左右两颗子树的高度差绝对值不超过1&#xff0c;并且左…

网络热门编程项目导学:尚医通

本文作者&#xff1a;程序员鱼皮 免费编程学习 - 编程导航网&#xff1a;https://www.code-nav.cn 现在网上有很多播放量巨高的免费编程项目教程&#xff0c;很多学编程的同学可能都看过&#xff0c;就导致大家可能写在简历上的内容都差不多。 于是就有了下面这张图&#xff1…

python之matplotlib (3 坐标轴设置)

写在前面 在说明坐标轴设置之前&#xff0c;我有必要和大家说清楚图像设置的一些方法&#xff0c;避免陷入困扰模糊的地步。前面我们说过&#xff0c;画图的三种方法&#xff08;python之matplotlib &#xff08;1 介绍及基本用法&#xff09;-CSDN博客&#xff09;。而设置也…

2024年证券从业资格考试题型特点及答题技巧

考试题型、题量、分值 证券从业科目题型题量&#xff1a; 一、单选题(每题0.5分&#xff0c;共40题&#xff0c;共20分) 下列每小题的四个选项中&#xff0c;只有一项是最符合题意的正确答案&#xff0c;多选、错选或不选均不得分。 二、多选题(每题1分&#xff0c;共40题&…

我的Vue2/Vue3知识框架汇总

文章目录 一、前言二、Vue3篇Vue3 相对于 Vue2 做了哪些更新&#xff1f;​Vue3响应式Vue3响应式特点​Object.defineProperty 与 Proxy 的区别​什么是Proxy&#xff1f;​为什么需要 Reflect&#xff1f;(目标对象内部的this指向问题)​Vue3 惰性响应式​Proxy 只会代理对象的…

图片文件比较大怎么办?分享4个简单的在线压缩图片工具

现在经常将图片发布到网上用来展示&#xff0c;但是随着图片质量越高相应的文件也比较大&#xff0c;在遇到图片文件较大问题时&#xff0c;经常会无法正常上传到网站使用&#xff0c;所以一般需要使用图片压缩功能来调整大小后使用。对于经常需要处理图片的小伙伴来说&#xf…

Notion 插件开发入门

Notion 插件开发入门 最近想要用 Notion 记笔记&#xff0c;奈何 Notion 的标签分类功能确实不太好用…… 看了看其它文章中配置多级标签的繁杂流程之后&#xff0c;我觉得还是写一个插件比较靠谱…… 本文主要介绍 Notion 简单的插件开发&#xff0c;编程语言使用 JavaScrip…

打工人的“低成本的高生产力”之ToDesk云电脑

在快节奏的现代生活中&#xff0c;是不是经常觉得钱包瘪得快&#xff0c;但工作压力却大得要命&#xff1f;想要提升效率&#xff0c;又不想掏空腰包&#xff1f;来来来&#xff0c;作为职场老油条&#xff0c; 今儿给你们安利个神器——ToDesk云电脑&#xff0c;简直是咱们打工…

子域名太多如何实现HTTPS?一张通配符SSL证书全搞定

在当今数字化时代&#xff0c;网站安全性已经成为网站运营者以及访问者都非常关注的重要问题。部署SSL证书实现HTTPS加密&#xff0c;确保数据传输安全&#xff0c;防止信息被泄露或篡改&#xff0c;消除浏览器“不安全”提示&#xff0c;提高网站安全性以及可信任度已成为必然…

期权应该怎么及时止损?期权止损有哪些方式?

今天带你了解期权应该怎么及时止损&#xff1f;期权止损有哪些方式&#xff1f;如何在期权的交易计划中设置合适的止损点”是相对简单的事情。 如果自己遭遇了一定的损失&#xff0c;就要及时止损。 一般来说如果亏损接近30%的时候就可以进行止损了。但是不同的投资者资金实力…

集合及数据结构第二节————算法、时间复杂度和空间复杂度

系列文章目录 集合及数据结构第二节————算法、时间复杂度和空间复杂度 算法、时间复杂度和空间复杂度 数据结构和算法的关系.算法的定义算法的特性算法设计的要求算法效率时间复杂度的概念大O的渐进表示法常见时间复杂度计算举例常见空间复杂度计算举例 文章目录 系列文…

关于windows环境使用nginx的一些性能问题

遇到的问题 最近在一个windows环境中部署nginx&#xff0c;遇到了以下问题&#xff1a; 1. nginx启动了九个线程&#xff08;1master8woekr&#xff09;&#xff0c;但是所有链接都被1个woker接收&#xff0c;其余worker不工作 2. 用户端访问web很慢&#xff0c;登录服务器使…

xcode配置使用摄像头和相册权限,没有Info.plist文件也可以配置,解决Thread 4: signal SIGABRT报错问题

最新的Xcode更改了相册和相机的权限关键字&#xff0c;在进行真机调试&#xff0c;或真正在用户使用的时候需要添加这些权限&#xff0c;否则在程序正确时仍然会产生下面的错误&#xff1a; Thread 4: signal SIGABRT This app has crashed because it attempted to access pri…

【Web APIs】JavaScript 操作元素 ④ ( 修改元素属性示例 | 密码表单标签结构 | 密码输入框样式设置 | 右侧图标按钮设置 | JavaScript 修改元素属性示例 )

文章目录 一、案例需求二、关键要点1、密码表单标签结构2、设置盒子样式3、密码输入框样式设置4、右侧图标按钮设置5、盒子模型右侧图标按钮设置 三、JavaScript 修改元素属性示例四、完整代码示例 JavaScript 中 可以通过 DOM ( 文档对象模型 ) 操作 来 修改网页的 内容 , 结构…

牛客JS题(四十六)斐波那契数列

注释很详细&#xff0c;直接上代码 涉及知识点&#xff1a; 递归斐波那契数列 题干&#xff1a; 我的答案 <!DOCTYPE html> <html><head><meta charset"UTF-8" /><style>/* 填写样式 */</style></head><body><!-…