yolov1 论文精读 - You Only Look Once

news2026/2/17 6:38:07

YOLOv1

Introduction

作者将目标检测进行重构并看作为单一的回归问题，直接从图像到边界框坐标和类别概率。使用我们的系统，您只需要在图像上看一次（you only look once, YOLO），以预测出现的目标和位置。

系统将输入图像分成 S×S 的网格。如果一个目标的中心落入一个网格单元中，该网格单元负责检测该目标。每个网格单元预测这些box的 B 个边界框，每个边界框包含 5 个预测：x、y、w、h 和置信度(一般用交并比)。

每个网格单元还预测 C 个条件类别概率，不管边界框的的数量 B 是多少，每个网格单元只预测的一组类别概率。

在测试时，我们乘以条件类概率和单个盒子的置信度预测值
在这里插入图片描述

这些分数表示该类出现在框中的概率以及预测框拟合目标的程度。

Network Design

为了在 VOC 上评估 YOLO，使用 S=7，B=2。VOC 有 20 个标注类，所以 C=20。所以最终的预测是 7×7×30（30=2*5+20）的张量。
在这里插入图片描述
使用卷积层从图像中提取特征，全连接层预测输出概率和坐标。

检测网络受GoogleNet影响，有 24 个卷积层，其次是 2 个全连接层

先将ImageNet图像分辨率转为224x224，输入网络进行预训练，然后转换模型进行检测任务。

yolov1在训练时输入的图像分辨率为224×224，在预测时使用的图像为 448×448。

最后一层预测类别概率和边界框坐标。通过图像的宽高来归一化边界框的宽度和高度及x,y，使它们落在 0 和 1 之间。

我们对最后一层使用线性激活函数，所有其它层使用下面的leaky ReLU 激活函数

我们使用平方和误差是因为它很容易进行优化，但是它并不完全符合最大化平均精度的目标。

分类误差与定位误差的权重是一样的，这可能并不理想。

另外，在每张图像中，许多网格单元不包含任何对象。这将导致这些单元格的“置信度”为零，这可能导致模型不稳定。为了改善这一点，我们增加了边界框坐标预测的损失，并减少了不包含目标边界框的置信度预测的损失 。

平方和误差也可以在大box和小box中同样加权误差。我们的误差指标应该反映出，大box中小偏差的重要性不如小box中小偏差的重要性。为了部分解决这个问题，我们直接预测边界框宽度和高度的平方根，而不是宽度和高度。

YOLO 每个网格单元预测多个边界框。在训练时，每个目标我们只需要一个边界框预测器来负责。我们根据哪个预测器的预测值与真实值之间具有当前最高的 IOU 来指定哪个预测器“负责”预测该目标。

这导致边界框预测器之间的专一化。每个预测器可以更好地预测特定大小、长宽比或目标的类别，从而改善整体召回率。

如果目标存在于该网格单元中（前面讨论的条件类别概率），则损失函数仅惩罚分类误差。如果预测器“负责”真实边界框（即该网格单元中具有最高 IOU 的预测器），则它也仅惩罚边界框坐标误差

为了避免过度拟合，我们使用 dropout 和大量的数据增强。

Inference

与训练时一样，预测测试图像的检测只需要一次网络评估。在VOC 上，每张图像上网络预测 98 个边界框（图像被划分成 7*7 的格子，每个格子预测两个边界框，总共 98 个边界框）和每个框的类别概率。YOLO 在测试时非常快，因为它只需要运行一次网络评估.

网格强化了边界框预测中的空间多样性。然而，一些大的目标或靠近多个网格单元边界的目标可以被多个网格单元很好地定位。非极大值抑制（NMS）可以用来修正这些多重检测。

在得到推理结果后，如何获取我们真正想要的信息呢？

yolo后处理就是模型的输出进行处理，得到我们想要的坐标框的 $x y w h$ 以及 $c o n f i d e n c e$
在这里插入图片描述
学习笔记

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bdB1sYQ4-1670143551092)(https://gitee.com/lizheng0219/picgo_img/raw/master/img2/image-20221204163144547.png)]

这是yolov1的模型，他将图像划分成了7x7个网格，每个网格负责预测两个边界框，每个边界框都有5个信息$x、y、w、h、confidence $ ，（这个confidence是该区域有目标框的概率），共预测20个类，每个类都有一个置信度信息（这个confidence是这个框是猫是狗的概率），所以最终输出为 $7 * 7 * 30$

在这里插入图片描述