YOLO系列论文阅读（v1--v3）

news2026/2/13 16:39:43

搞目标检测，绕不开的一个框架就是yolo，而且更糟糕的是，随着yolo的发展迭代，yolo网络可以做的事越来越多，语义分割，关键点检测，3D目标检测。。。这几天决定把YOLO系列彻底梳理一下，在进入大模型时代前，我们欣赏一下这个CNN时代最具影响力的作品。

前YOLO时代

在YOLO出现之前，目标检测已经大部迈向了CNN时代。从RCNN到FastRCNN, 再到FasterRCNN。可以看到，模型的速度越来越快，网络结构越来越简洁，启发式的方法论在一步步被抛弃。

但是，基于RCNN的方法需要预先通过region proposal network选择锚框，在保证了精度的同时，也大大耽误了速度。显然，目标检测的发展遇到了瓶颈。此时，YOLO，SSD等one stage方法孕育而生。

而经过多年的发展，YOLO系列在保持自己原来的快速的特点的基础上，在性能上也逐步提升，成为了目标检测在工业上落地的最优选择。

YOLO论文

YOLO1

论文题目：You Only Look Once: Unified, Real-Time Object Detection

会议： CVPR2016

链接： https://arxiv.org/pdf/1506.02640.pdf

作者： Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

YOLO v1实现了从原始图像到检测框的单一网络端到端设计。将图片分割为SxS个方块，每个方块包含2个Bbox的预测。

这里的潜在问题是：如果一个区域包含2个以上的小物体，该怎么办呢？

网络结构

网络包含24个卷积层和2个全连接层（全链接层明显开销会比较大）。此外，作者还提到了精简版的FastYOLO，包含9个卷积层，模型的输出是 7 x 7 x 30 的预测。

训练

模型训练首先采用imagenet数据进行前20个卷积层的训练（作为分类任务），随后，通过4个卷积层和2个全链接层进行检测任务的训练。

局限性

YOLO的局限性在于每一个grid最多只能输出两个物体和一种物体类别。

YOLO2

发表于： CVPR2017

论文标题：YOLO9000: Better, Faster, Stronger

论文链接：https://arxiv.org/pdf/1612.08242.pdf

作者： Joseph Redmon, Ali Farhadi

YOLOv2的网络架构优化

其实，在YOLOv1种就已经提到，YOLO对于多物体的检测能力有限，尤其是当一个grid出现多个物体时。此外，作者还提到，锚框的位置不够准确，recall较低。面对这些问题，在YOLOv2中，作者给出了解决方式，包括，1. 引入batch normalization，2. 采用高分辨率的图像训练分类器（感觉这个创新点很一般）3. 引入锚框，

这其中，比较值得一说的就是锚框，在YOLO1中通过全连接层进行猫框的预测，但是，在v2中，作者放弃这一设计，转而借鉴Faster-RCNN中提出的先验猫框的概念，通过anchor box的引入，支持的猫框数量大大增加，mAP略微下降，但是recall大大增加，总之，替换的利大于弊。

既然使用锚框，就要提供锚框先验的维度信息，作者没有使用人工选择的方式，而是选择使用K-means的方式，基于数据集找到了5个最优的大小。