从零开始在kitti数据集上训练yolov5

news2025/7/17 18:03:14

0.准备工作

0.1 在kitti官网下载kitti数据集

KITTI官网：https://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=2d
只需要下载图片和标签
在这里插入图片描述
解压后应该有一个training和和testing文件夹，training文件夹下应该有一个image_2文件夹和一个label_2文件夹，分别对应训练集的图片和标签，图片和标签的名称是一一对应的，因此我们拿这部分图片和标签进行训练。

0.2 clone yolov5代码

Github官网：https://github.com/ultralytics/yolov5

git clone https://github.com/ultralytics/yolov5.git
conda create -n yolov5 python=3.8 -y
conda activate yolov5
cd yolov5
pip install -r requirements.txt

1.转换kitti数据集标签格式

在这里插入图片描述

1.1 kitti数据集标签

首先看kitti数据集的标签，每一行有15个属性：他们的含义如下：

[0] 目标类比别（type），共有8种类别，分别是Car、Van、Truck、Pedestrian、Person_sitting、Cyclist、Tram、Misc或DontCare。DontCare表示某些区域是有目标的，但是由于一些原因没有做标注，比如距离激光雷达过远。但实际算法可能会检测到该目标，但没有标注，这样会被当作false positive （FP）。这是不合理的。用DontCare标注后，评估时将会自动忽略这个区域的预测结果，相当于没有检测到目标，这样就不会增加FP的数量了。此外，在 2D 与 3D Detection Benchmark 中只针对 Car、Pedestrain、Cyclist 这三类。
[1] 截断程度（truncated），表示处于边缘目标的截断程度，取值范围为0~1，0表示没有截断，取值越大表示截断程度越大。处于边缘的目标可能只有部分出现在视野当中，这种情况被称为截断。
[2] 遮挡程度（occlude），取值为（0，1，2，3）。0表示完全可见，1表示小部分遮挡，2表示大部分遮挡，3表示未知（遮挡过大）。
[3] 观测角度（alpha）,取值范围为（-pi, pi）。是在相机坐标系下，以相机原点为中心，相机原点到物体中心的连线为半径，将物体绕相机y轴旋转至相机z轴，此时物体方向与相机x轴的夹角。这相当于将物体中心旋转到正前方后，计算其与车身方向的夹角。
[4-7] 二维检测框（bbox），目标二维矩形框坐标，分别对应left、top、right、bottom，即左上（xy）和右下的坐标（xy）。
[8-10] 三维物体的尺寸（dimensions），分别对应高度、宽度、长度，以米为单位。
[11-13] 中心坐标（location），三维物体底部中心在相机坐标系下的位置坐标（x，y，z），单位为米。
[14] 旋转角（rotation_y），取值范围为（-pi, pi）。表示车体朝向，绕相机坐标系y轴的弧度值，即物体前进方向与相机坐标系x轴的夹角。rolation_y与alpha的关系为alpha=rotation_y - theta，theta为物体中心与车体前进方向上的夹角。alpha的效果是从正前方看目标行驶方向与车身方向的夹角，如果物体不在正前方，那么旋转物体或者坐标系使得能从正前方看到目标，旋转的角度为theta。

参考链接：https://blog.csdn.net/u011489887/article/details/126316851

我们需要的是目标类别和2d检测框。

1.2 yolo需要的标签（coco数据集格式）

在这里插入图片描述
包含5个属性

[0] 目标类别索引（因此一会还需要一个类别和索引对应表）
[1-2] 中心点坐标，x_center，y_center
[3-4] 检测框宽、高，width，height

需要注意的是：这里的方框坐标和宽高需要归一化，即需要除以图像的宽高，如图所示

1.3 转换代码

import glob
import random
import cv2
from tqdm import tqdm

dic = {'Car': 0, 'Van': 1, 'Truck': 2, 'Tram': 3, 'Pedestrian': 4, 'Person_sitting': 4, 'Cyclist': 5, 'Misc': 6}

def changeformat():
    
    img_path = 'PATH/TO/KITTI/training/image_2/*.png'      # 修改为自己的 KITTI数据集图像位置
    label_path = 'PATH/TO/KITTI/training/label_2/'         # 修改为自己的 KITTI数据集标签位置
    filename_list = glob.glob(img_path)
    save_path = 'PATH/TO/NEW/LABELS/'                      # 修改为自己的 标签另存的位置

    for img_name in tqdm(filename_list, desc='Processing'):

        image_name = img_name[-10: -4]   # 000000 图片的名字

        label_file = label_path + image_name + '.txt'     # 根据图像名称查找对应标签
        savelabel_path = save_path + image_name + '.txt'  # 标签另存的文件
        
        with open(label_file, 'r') as f:
            labels = f.readlines()
        
        img = cv2.imread(img_name)
        h, w, c = img.shape
        dw = 1.0 / w
        dh = 1.0 / h        # 方便一会归一化
        
        for label in labels:
            label = label.split(' ')
            
            classname = label[0]
            if classname not in dic: continue  # 我忽略了kitti数据集中的misc和dontcare
            
            x1, y1, x2, y2 = label[4: 8]
            x1 = eval(x1)
            y1 = eval(y1)
            x2 = eval(x2)
            y2 = eval(y2)
            # 归一化处理
            bx = (x1 + x2) / 2.0 * dw
            by = (y1 + y2) / 2.0 * dh
            bw = (x2 - x1) * dw
            bh = (y2 - y1) * dh
            
            # 这里定义数据保存的精度
            bx = round(bx, 6)
            by = round(by, 6)
            bw = round(bw, 6) 
            bh = round(bh, 6)
    
    print('Done convert!')

2.划分数据集，准备训练

2.1 划分训练集和验证集

training文件夹共有7480张图片，按照训练集：验证集=8：2的比例进行划分。
代码如下：

def splitdataset():

	import random
    random.seed(1234)
    
    label_path = 'PATH/TO/NEW/LABELS/'       # 这里修改为上一步保存的新标签的位置
    filename_list = glob.glob(label_path)
    num_file = len(filename_list)
    
    val = 0.2      # 验证集的比例
    
    try:
        val_file = open('PATH/TO/KITTI/val.txt', 'w', encoding='utf-8')    # 包含验证集的txt文件，修改为自己想要保存的位置
        train_file = open('PATH/TO/KITTI/train.txt', 'w', encoding='utf-8')  # 包含训练集的txt文件，修改为自己想要保存的位置
        
        for i in range(num_file):
            if random.random() < val:
                val_file.write(f'PATH/TO/KITTI/images/{i:06}.png\n')   # 修改为kitti数据集图片的位置，即txt文件里存的是图片的位置
            else:
                train_file.write(f'PATH/TO/KITTI/images/{i:06}.png\n')         
    finally:
        val_file.close()
        train_file.close()

2.2 准备配置文件

--datasets
  |--images          # 7480 images
  |--labels          # 7480 labels
  |--train.txt
  |--val.txt
  |--kitti.yaml
  |--yolov5s.yaml

修改coco.yaml文件为kitti.yaml

# YOLOv5 🚀 by Ultralytics, AGPL-3.0 license
# COCO 2017 dataset http://cocodataset.org by Microsoft
# Example usage: python train.py --data coco.yaml
# parent
# ├── yolov5
# └── datasets
path: PATH/TO/KITTI/datasets     # 修改为包含图片和标签的父文件夹
train: train.txt # train images (relative to 'path') 
val: val.txt # val images (relative to 'path') 

nc: 7      # 修改为类别数量
# Classes
names:
  0: car
  1: van
  2: truck
  3: tram
  4: pedestrian
  5: cyclist
  6: misc

修改yolov5s.yaml文件，这里根据选用的模型修改对应的文件，只需要修改类别数即可。
在这里插入图片描述

3.clone代码，开始训练

根据选用的模型大小，在github下载对应的预训练权重。
然后开始训练，train.py的相关参数设置可以参考这篇文章https://blog.csdn.net/m0_56175815/article/details/131125861，以及官方网站https://docs.ultralytics.com/zh/yolov5/tutorials/tips_for_best_training_results/

主要需要设置的参数包括：cfg（上一步的kitti.yaml），data（上一步修改的yolov5.yaml），batch-size（-1表示自动计算batch，推荐使用），weights（预训练权重）
其余的是一些调参的超参数：epochs（训练周期），cos-lr（是否使用模拟余弦退火调整学习率），label-smoothing（标签平滑设置，一般取小于0.1的数）

python train.py --weights PATH/TO/pretrained_weight/yolov5s.pt \
--cfg PATH/TO/yolov5s.yaml \
--data PATH/TO/kitti.yaml \
--epochs 300 \
--batch-size -1 \
--name kitti \
--cos-lr \
--label-smoothing 0.05