KITTI数据集处理为COCO数据集格式

news2024/11/19 3:45:20

KITTI作为自动驾驶常用数据集,被广泛的应用于自动驾驶目标检测等过程中。
首先是数据集类别合并,原始的KITTI数据集有九个类别,分别是:

Car
Van
Truck
Pedestrian
Person_sitting
Cyclist
Tram
Misc

而我们在使用过程中,通常会对某些类别进行合并,将Car,Van,Truck,Tram统一划分为Car,将Pedestrian与Person_setting统一设置为Pedestrian,保留Cyclist,去除Misc。

# modify_annotations_txt.py
import glob
import string
txt_list = glob.glob('./Labels/*.txt') # 存储Labels文件夹所有txt文件路径
def show_category(txt_list):
    category_list= []
    for item in txt_list:
        try:
            with open(item) as tdf:
                for each_line in tdf:
                    labeldata = each_line.strip().split(' ') # 去掉前后多余的字符并把其分开
                    category_list.append(labeldata[0]) # 只要第一个字段,即类别
        except IOError as ioerr:
            print('File error:'+str(ioerr))
    print(set(category_list)) # 输出集合
 
def merge(line):
    each_line=''
    for i in range(len(line)):
        if i!= (len(line)-1):
            each_line=each_line+line[i]+' '
        else:
            each_line=each_line+line[i] # 最后一条字段后面不加空格
    each_line=each_line+'\n'
    return (each_line)
 
print('before modify categories are:\n')
show_category(txt_list)
 
for item in txt_list:
    new_txt=[]
    try:
        with open(item, 'r') as r_tdf:
            for each_line in r_tdf:
                labeldata = each_line.strip().split(' ')
                if labeldata[0] in ['Truck','Van','Tram']: # 合并汽车类
                    labeldata[0] = labeldata[0].replace(labeldata[0],'Car')
                if labeldata[0] == 'Person_sitting': # 合并行人类
                    labeldata[0] = labeldata[0].replace(labeldata[0],'Pedestrian')
                if labeldata[0] == 'DontCare': # 忽略Dontcare类
                    continue
                if labeldata[0] == 'Misc': # 忽略Misc类
                    continue
                new_txt.append(merge(labeldata)) # 重新写入新的txt文件
        with open(item,'w+') as w_tdf: # w+是打开原文件将内容删除,另写新内容进去
            for temp in new_txt:
                w_tdf.write(temp)
    except IOError as ioerr:
        print('File error:'+str(ioerr))
 
print('\nafter modify categories are:\n')
show_category(txt_list)

最终生成的数据集格式为txt,标注为YOLO格式。

在这里插入图片描述

一个txt文件对应一张图像,内容如下,分别对应类别,中心点坐标xy,标注框宽高wh。

1 0.6221936274509804 0.6093513513513513 0.08033496732026148 0.4457297297297298

随后对数据集进行划分,总共有7481张图像,按照4:1的比例划分训练集与验证集。代码如下:

import os
import random
import shutil
def mvfile(path,topath):
    xmllist= os.listdir(path+"/annotations/")
    xmlpath=path+"/annotations/"
    imgpath=path+"/images/"
    xmltopath=topath+"/val_annotations/"
    if not os.path.exists(xmltopath):
        os.makedirs(xmltopath)
    imgtopath = topath + "val_images"
    if not os.path.exists(imgtopath):
        os.makedirs(imgtopath)
    xmls = random.sample(xmllist, 1496)
    for xml in xmls:
        with open(topath+"抽取的标签.txt", "a") as f:
            f.write(xml+"\n")
        xmlfile=xmlpath+xml
        print(xmlfile)
        shutil.move(xmlfile,xmltopath)
        imgfile=imgpath+xml.replace("txt","png")
        print(imgfile)
        shutil.move(imgfile,imgtopath)

if __name__ == '__main__':
    path="D:\graduate\datasets\detection\kitti/"
    mvfile(path,path+"val_images/")

通过上述程序会将验证集图像与标注文件提取出来。

在这里插入图片描述
数据集划分完成后需要将YOLO格式转换为COCO格式(JSON),即需要生成一个类别文件,里面标注的是类别名称,记得要与YOLO的类别编号一致。如下Car在YOLO中标注类别为0,Pedestrian为1,Cyclist为2。

Car
Pedestrian
Cyclist

随后将txt文件转换为COCO的json格式,在生成JSON文件时,需要原标注文件以及图像,因为要读取图像的大小等信息

import os
import json
import cv2
import random
import time
from PIL import Image

coco_format_save_path='D:\graduate\datasets\detection\kitti\coco_annotations/val/'                      #要生成的标准coco格式标签所在文件夹
yolo_format_classes_path='D:\graduate/figures\images\Tools\Kitti2Coco\kitti.names'     #类别文件,一行一个类
yolo_format_annotation_path='D:\graduate\datasets\detection\kitti\yolo_annotations/val'        #yolo格式标签所在文件夹
img_pathDir='D:\graduate\datasets\detection\kitti/val\images/'                        #图片所在文件夹

with open(yolo_format_classes_path,'r') as fr:                               #打开并读取类别文件
    lines1=fr.readlines()
# print(lines1)
categories=[]                                                                 #存储类别的列表
for j,label in enumerate(lines1):
    label=label.strip()
    categories.append({'id':j,'name':label,'supercategory':'None'})         #将类别信息添加到categories中
# print(categories)

write_json_context=dict()                                                      #写入.json文件的大字典
write_json_context['info']= {'description': '', 'url': '', 'version': '', 'year': 2023, 'contributor': '', 'date_created': '2021-12-15'}
write_json_context['licenses']=[{'id':1,'name':None,'url':None}]
write_json_context['categories']=categories
write_json_context['images']=[]
write_json_context['annotations']=[]

#接下来的代码主要添加'images'和'annotations'的key值
imageFileList=os.listdir(img_pathDir)                                           #遍历该文件夹下的所有文件,并将所有文件名添加到列表中
for i,imageFile in enumerate(imageFileList):
    imagePath = os.path.join(img_pathDir,imageFile)                             #获取图片的绝对路径
    image = Image.open(imagePath)                                               #读取图片,然后获取图片的宽和高
    W, H = image.size

    img_context={}                                                              #使用一个字典存储该图片信息
    #img_name=os.path.basename(imagePath)                                       #返回path最后的文件名。如果path以/或\结尾,那么就会返回空值
    img_context['file_name']=imageFile
    img_context['height']=H
    img_context['width']=W
    img_context['date_captured']='2023-12-15'
    img_context['id']=i                                                         #该图片的id
    img_context['license']=1
    img_context['color_url']=''
    img_context['flickr_url']=''
    write_json_context['images'].append(img_context)                            #将该图片信息添加到'image'列表中


    txtFile=imageFile[:6]+'.txt'                                               #获取该图片获取的txt文件
    with open(os.path.join(yolo_format_annotation_path,txtFile),'r') as fr:
        lines=fr.readlines()                                                   #读取txt文件的每一行数据,lines2是一个列表,包含了一个图片的所有标注信息
    for j,line in enumerate(lines):

        bbox_dict = {}                                                          #将每一个bounding box信息存储在该字典中
        # line = line.strip().split()
        # print(line.strip().split(' '))

        class_id,x,y,w,h=line.strip().split(' ')                                          #获取每一个标注框的详细信息
        class_id,x, y, w, h = int(class_id), float(x), float(y), float(w), float(h)       #将字符串类型转为可计算的int和float类型

        xmin=(x-w/2)*W                                                                    #坐标转换
        ymin=(y-h/2)*H
        xmax=(x+w/2)*W
        ymax=(y+h/2)*H
        w=w*W
        h=h*H

        bbox_dict['id']=i*10000+j                                                         #bounding box的坐标信息
        bbox_dict['image_id']=i
        bbox_dict['category_id']=class_id                                              #注意目标类别要加一
        bbox_dict['iscrowd']=0
        height,width=abs(ymax-ymin),abs(xmax-xmin)
        bbox_dict['area']=height*width
        bbox_dict['bbox']=[xmin,ymin,w,h]
        bbox_dict['segmentation']=[[xmin,ymin,xmax,ymin,xmax,ymax,xmin,ymax]]
        write_json_context['annotations'].append(bbox_dict)                               #将每一个由字典存储的bounding box信息添加到'annotations'列表中

name = os.path.join(coco_format_save_path,"train"+ '.json')
with open(name,'w') as fw:                                                                #将字典信息写入.json文件中
    json.dump(write_json_context,fw,indent=2)

生成的文件如下:

在这里插入图片描述

至此,KITTI数据集转换为COCO格式的数据集。

在运行时报错:

OSError: [WinError 1455] 页面文件太小,无法完成操作。 Error loading "D:\softwares\Anconda\envs\detr\lib\site-packages\torch\lib\cusparse64_11.dll" or one of its dependencies.

这是由于虚拟内存不足导致的,看到有人说修改num_workers=0可以解决问题,但这是一种治标不治本的方法,正确方法是增大虚拟内存:
搜索 查看高级系统设置

在这里插入图片描述

找到虚拟内存

在这里插入图片描述

python安装在哪就修改哪个盘的分页文件大小。

在这里插入图片描述

修改完内存后需要重启电脑才可以,重启后运行成功。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1313682.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用@ApiModel和@ApiModelProperty的技巧

在现代软件开发中,提供清晰全面的 API 文档 至关重要。ApiModel 和 ApiModelProperty 这样的代码注解在此方面表现出色,通过增强模型及其属性的元数据来丰富文档内容。它们的主要功能是为这些元素命名和描述,使生成的 API 文档更加明确。 Api…

Python Flask-Admin: 构建强大的 Flask 后台管理

概要 Flask-Admin 是一个基于 Flask 的后台管理框架,它提供了丰富的功能和灵活性,使得开发者能够轻松构建功能强大的后台管理系统。在本文中,我们将详细介绍 Flask-Admin 的安装、配置和使用,通过深入的示例代码演示其主要特性。…

【改进YOLOv8】生猪胖瘦评价分级系统:可重参化EfficientRepBiPAN优化Neck

1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 研究背景与意义: 随着计算机视觉和深度学习的快速发展,目标检测成为了计算机视觉领域的一个重要研究方向。目标检测的目标是在图像或视频中准确地识别和定…

LiteClient工具箱:降低成本,减少监管风险

​​发表时间:2023年9月14日 BSV区块链协会的工程团队一直在为即将推出的LiteClient而努力工作,这是一套模块化的组件,可使简易支付验证(SPV)变得更加便利。 借助LiteClient工具箱,交易所可以通过区块头中…

【学习笔记】JavaScript中的GC算法

1、内存管理 内存:由可读写单元组成,标识一片可操作的空间 管理: 认为的去操作一篇空间的申请、使用和释放 内存管理:开发者主动申请空间、使用空间、释放空间 管理流程: 申请-使用-释放 // 申请 let obj {} //使…

【电路笔记】-电容器

电容器 文章目录 电容器1、概述2、电容器的电容单位3、电容4、电容器示例15、电介质6、额定电压7、总结 电容器是简单的无源器件,当连接到电压源时,可以在极板上存储电荷。 1、概述 在本电容器简介文章中,我们将看到电容器是无源电子元件&am…

采埃孚4D成像雷达拆解

1 基本信息 品牌:海外Tier1采埃孚 • 应用:上汽飞凡中高端纯电平台 • 数量:单车2个,安装在前后保内部 • 最远探测距离:350米 拆解来看,4D雷达主要可以分为4个部分,分别为数字接口板及结构件…

从Aspera到这些替代方案,下载大文件再也不用等待了

在过去,下载大文件往往需要漫长的等待时间,甚至可能会超过数小时或数天。为了解决这个问题,IT行业一直在努力研发新的下载技术和工具,以提高下载速度和效率。本文将深入探讨Aspera替代方案,如何让用户在下载大文件时不…

C# WPF上位机开发(网络程序界面开发)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 之前我们讨论过,设备之间通讯的方式很多。但是,不知道大家有没有注意,前面谈到的这些通讯方式都需要上位机电脑…

4.electron之create-react-app的桌面应用程序

如果可以实现记得点赞分享,谢谢老铁~ Electron是一个使用 JavaScript、HTML 和 CSS 构建桌面应用程序的框架。 Electron 将 Chromium 和 Node.js 嵌入到了一个二进制文件中,因此它允许你仅需一个代码仓库,就可以撰写支持 Windows、…

typescript个人学习笔记

https://ts.xcatliu.com/basics/primitive-data-types.html 深受启发 1.剑谱第一页,初始化ts outDir表示把ts编译成js文件,文件编译后存放的位置 2.类型声明 基础数据五种 undefined可以赋值给其他类型引用类型数组对象 //定义数组一 let arr:[][]…

基于SSM的实践项目管理系统设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

电商控制台前台整合优化

前台逻辑 显示商品菜单输入id,进入某个商品检测登录和注册 根据登录和注册的状态,订单或者是购物车都需要登录。 登录:生成订单(先生成订单表,再生成订单详情表) 开发直接购买,加入购物车, …

基于SSM的志愿者管理系统

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

多用户商城系统哪种好用

多用户商城系统是一种能快速打造类似京东、天猫的商户入驻型平台系统,它一般有三种模式: 1、招商模式 商户入驻,平台收取入驻费及年费,平台做中介的模式,成交抽取服务佣金,这是一般的多用户商城的模式&…

web微服务规划

一、背景 通过微服务来搭建web系统,就要对微服务进行规划,包括服务的划分,每个服务和数据库的命名规则,服务用到的端口等。 二、微服务划分 1、根据业务进行拆分 如: 一个购物系统可以将微服务拆分为基础中心、会员…

Linux(19):基础系统设定与备份策略

系统基本设定 网络设定(手动设定与 DHCP 自动取得) 通常网络参数的取得方式常见的有底下这几种: 1.手动设定固定 IP 常见于学术网络的服务器设定、公司行号内的特定座位等。这种方式你必须要取得底下的几个参数才能够让你的 Linux 上网的: …

若依框架springboot——引入七牛云上传图片

简述 若依框架的的图片上传是默认是上传到本地,但是如果要使用oss存储到话,就需要更改代码;如何操作呢。 步骤 #mermaid-svg-DntXc8gOKxpqgIYU {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;…

[多线程]一篇文章带你看懂Java中的synchronized关键字(线程安全)锁的深入理解

目录 1.前言 2.synchronized的特性 2.1synchronized前言 2.2乐观锁和悲观锁 2.3重量级锁和轻量级锁 重量级锁 : 轻量级锁: 2.4自旋锁和挂起等待锁 2.5 公平锁和非公平锁 公平锁: 非公平锁: 2.6可重入锁和不可重入锁 可…

十五 动手学深度学习v2计算机视觉 ——全连接神经网络FCN

文章目录 FCN FCN 全卷积网络先使用卷积神经网络抽取图像特征,然后通过卷积层将通道数变换为类别个数,最后通过转置卷积层将特征图的高和宽变换为输入图像的尺寸。 因此,模型输出与输入图像的高和宽相同,且最终输出通道包含了该空…