paddleseg数据集自定义比例划分为测试集test.txt，训练集train.txt，验证集val.txt

news2025/2/21 20:08:10

将语义分割的数据集标注好后如下所示：

在这里插入图片描述

整理好图片和标签文后需要按照比例划分为训练集，验证集，测试集。

具体划分代码见下：

import glob
import os.path
import argparse
import warnings
import numpy as np


def parse_args():
    parser = argparse.ArgumentParser(
        description='A tool for proportionally randomizing dataset to produce file lists.'
    )
   
    parser.add_argument('dataset_root', help='the dataset root path', type=str)               # 数据集根目录路径
    parser.add_argument('images_dir_name', help='the directory name of images', type=str)     # 图片所在的文件路径
    parser.add_argument('labels_dir_name', help='the directory name of labels', type=str)     # 标签所在的文件路径

    parser.add_argument(
        '--split', help='', nargs=3, type=float, default=[0.7, 0.3, 0])     # 此代码为默认比例7 ：3 :1   可以自定义修改比例
    parser.add_argument(
        '--separator',
        dest='separator',
        help='file list separator',
        default=" ",
        type=str)
    parser.add_argument(
        '--format',
        help='data format of images and labels, e.g. jpg, tif or png.',
        type=str,
        nargs=2,
        default=['jpg', 'png'])
    parser.add_argument(
        '--postfix',
        help='postfix of images or labels',
        type=str,
        nargs=2,
        default=['', ''])

    return parser.parse_args()


def get_files(path, format, postfix):
    pattern = '*%s.%s' % (postfix, format)

    search_files = os.path.join(path, pattern)
    search_files2 = os.path.join(path, "*", pattern)  # 包含子目录
    search_files3 = os.path.join(path, "*", "*", pattern)  # 包含三级目录

    filenames = glob.glob(search_files)
    filenames2 = glob.glob(search_files2)
    filenames3 = glob.glob(search_files3)

    filenames = filenames + filenames2 + filenames3

    return sorted(filenames)


def generate_list(args):
    separator = args.separator
    dataset_root = args.dataset_root
    if abs(sum(args.split) - 1.0) > 1e-8:
        raise ValueError("The sum of input params `--split` should be 1")

    image_dir = os.path.join(dataset_root, args.images_dir_name)
    label_dir = os.path.join(dataset_root, args.labels_dir_name)
    image_files = get_files(image_dir, args.format[0], args.postfix[0])
    label_files = get_files(label_dir, args.format[1], args.postfix[1])

    if not image_files:
        warnings.warn("No files in {}".format(image_dir))
    if not label_files:
        warnings.warn("No files in {}".format(label_dir))

    num_images = len(image_files)
    num_label = len(label_files)
    if num_images != num_label:
        raise Exception(
            "Number of images = {}, number of labels = {}."
            "The number of images is not equal to number of labels, "
            "Please check your dataset!".format(num_images, num_label))

    image_files = np.array(image_files)
    label_files = np.array(label_files)
    state = np.random.get_state()
    np.random.shuffle(image_files)
    np.random.set_state(state)
    np.random.shuffle(label_files)

    start = 0
    num_split = len(args.split)
    dataset_name = ['train', 'val', 'test']
    for i in range(num_split):
        dataset_split = dataset_name[i]
        print("Creating {}.txt...".format(dataset_split))
        if args.split[i] > 1.0 or args.split[i] < 0:
            raise ValueError("{} dataset percentage should be 0~1.".format(
                dataset_split))

        file_list = os.path.join(dataset_root, dataset_split + '.txt')
        with open(file_list, "w") as f:
            num = round(args.split[i] * num_images)
            end = start + num
            if i == num_split - 1:
                end = num_images
            for item in range(start, end):
                left = image_files[item].replace(dataset_root, '')
                if left[0] == os.path.sep:
                    left = left.lstrip(os.path.sep)

                try:
                    right = label_files[item].replace(dataset_root, '')
                    if right[0] == os.path.sep:
                        right = right.lstrip(os.path.sep)
                    line = left + separator + right + '\n'
                except:
                    line = left + '\n'

                f.write(line)
                print(line)
            start = end


if __name__ == '__main__':
    args = parse_args()
    generate_list(args)

将上面代码保存到一个英文路径下，并命名为：split_dataset_list.py，通过cmd进入到保存此.py文件的终端界面，运行以下命令：

python split_dataset_list.py <dataset_root> <images_dir_name> <labels_dir_name> ${FLAGS}

上面命令的参数解释:

dataset_root: 数据集根目录
images_dir_name: 原始图像目录名
labels_dir_name: 标注图像目录名

此代码为默认比例7 ：3 :1 可以自定义修改比例

！！！！！注意：导入路径时一定要用绝对路径才行！！！！！

具体样纸如下：

在这里插入图片描述

到数据集根目录下查看划分后的结果，如下：

在这里插入图片描述

以上就是paddleseg数据集自定义比例划分为测试集test.txt，训练集train.txt，验证集val.txt的详细划分过程，谢谢！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/858768.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

paddleseg数据集自定义比例划分为测试集test.txt，训练集train.txt，验证集val.txt

相关文章

数组对象去重的几种方法

Leetcode.1289 下降路径最小和 II

matplotlib/seaborn 笔记：mpld3 让图像可交互

国产芯力特SIT1024QHG四通道本地互联网络（LIN）收发器，可替代TJA1024HG

聊聊低代码的本质，是应用开发的未来吗？

当管理多个项目面临这些挑战时，怎样才能不翻车？

3年测试经验，用例设计竟然不知道状态迁移法？

动力节点Redis7实战教程，从基础到底层一套通关

如何把视频转换成gif图片？gif图片在线制作教程

shopify独立站运营操作步骤?如何经营管理?

SOLIDWORKS工程图修订表关联PDM

计算机网络数据链路层虚拟局域网 VLAN

lc15.三数之和

嘉楠勘智k230开发板上手记录(五)--nncase部署yolov5s

python 书籍

通过SunFlower学习Hilt基本使用

藏语翻译器：多功能翻译软件

ASEMI快恢复二极管APT60DQ20BG参数规格

Spring5学习笔记— 工厂高级特性

RestTemplate 请求转发异常 ERR_CONTENT_DECODING_FAILED 200 (OK)