YOLO系列改进

news2026/2/14 19:50:26

yolo核心思想：把目标检测转变成一个回归问题。将整个图像作为网络的输入，仅仅经过一个神经网络，得到边界框的位置及其所属的类别。

YOLOv1 CVPR2016
请添加图片描述

输出7×7×30的张量表示2个框的5个参数和20个种类。leaky ReLU，leaky并不会让负数直接为0，而是乘以一个很小的系数(恒定)，保留负数输出，但衰减负数输出。y=x,x>0；0.1x,otherwise；分而治之；端到端训练，损失函数的传播贯穿整个网络。第一个全连接层，把输入图像的所有卷积特征整合到一起；第二个全连接层，将所有神经元得到的卷积特征进行维度转换，最后得到与目标检测网络输出维度相同的维度。

YOLOv2 CVPR2017

（1）yolov2借鉴了Faster R-CNN的思想，引入Anchor机制，并利用K-means聚类的方法在训练集中聚类计算出更好的Anchor模板，大大提高了算法的召回率；
（2）同时结合图像细粒度特征，将浅层特征与深层特征相连，有助于对小尺寸目标的检测。

特点：折中，可以自己平衡速度和准确率

改进：batch normalize（BN）：加速收敛，正则化模型，可以去掉dropout，map提升2%

Convolutional with Anchor Boxs：相比于v1每张图预测98个预测框，anchor boxes可以预测1000个

Dimension Clusters：anchor遇到的第一个问题需要动手设定模板框prior 使用k-means聚类折中取得k=5

Direct location prediction：第二个问题 box预测（x,y）位置时，模型不稳定。直接预测对于网格单元的相对位置。w和h通过bbox prior调整。模型提高5%

Fine-Grained Features：添加passthough层，从26×26的分辨率得到特征

multi-scale training：用多种分辨率的输入图片进行训练

darknet-19：backbone使用darknet-19搭配BN加速收敛

YOLOv3结构框图
请添加图片描述

CBL：最小组件Conv+BN+Leaky Relu激活函数组成

Res unit：借鉴Resnet残差结构，网络更深

ResX：CBL+n个Res unit，CBL用来下采样 608–>304–>152–>76–>38–>19 1/32

Concat：张量拼接；

add：张量相加，纬度不变=shortcut

Backbone：每个ResX包含1+2*X个卷积层，Darknet=1+（1+2×2）+（1+2×8）+（1+2×8）+（1+2×4）+FC全连接层（不包含）=53

改进点：predictions across scales：输出三种不同尺度的 feature map。深度255原因：coco80个类别，每个单元需要3个box，每个box还需要五个位置参数，3×（5+80）=255

v3对bbox预测时采用logistic regression可以去掉不必要anchor。

YOLOv4结构框图

请添加图片描述

组件：

CBM：最小组件Conv+Bn+Mish激活函数

CBL：Conv+Bn+Leaky_relu

Res_unit：Resnet网络中的残差结构

CSPX：借鉴CSPNet网络，由卷积层和X个Res_unit模块Concate组成

SPP：采用1×1,5×5,9×9,13×13的最大池化方式，多尺度融合。通过最大池化将不同尺寸的输入图像变得尺寸一致，使得输入图像不再限制于固定尺寸，增大感受野。

Backbone：每个CSPX包含5+2*X个卷积层，1+（5+2×1）+（5+2×2）+（5+2×8）+（5+2×8）+（5+2×4）=72

创新点：

输入端：Mosaic数据增强、cmBN、SAT自对抗训练

BackBone主干网络：CSPDarknet53、Mish激活函数、Dropblock缓解过拟合

Neck：SPP模块（有效的增加主干特征的接收范围，显著的分离了最重要的上下文特征）、FPN+PAN结构

Prediction：训练时的损失函数CIOU_Loss、预测框筛选的nms变为DIOU_nms

**IOU_Loss：**主要考虑检测框和目标框重叠面积。

**GIOU_Loss：**在IOU的基础上，解决边界框不重合时的问题。

**DIOU_Loss：**在IOU和GIOU的基础上，考虑边界框中心点距离的信息。

**CIOU_Loss：**YOLOv4采用CIOU_Loss，在DIOU的基础上，考虑边界框宽高比的尺度信息。

Mosaic数剧增强：随机缩放、随机裁剪、随机排布的方式进行拼接。均衡小中大三类目标

BackBone：608->304->152->76->38->19 CSPNet将基础层的特征映射划分为两部分，通过跨阶段层次结构将其合并，减少计算量保证准确率。

FPN层自顶向下传达强语义特征，而特征金字塔则自底向上传达强定位特征，

深度学习backbone汇总

非轻量化：

LeNet5：(1998)
AlexNet：(2012)
VGG：(2014)
GoogLeNet（InceptionNet）系列：Inception-v1（GoogleNet）: (2015)、Inception-v2 （2015，BN-inception）、Inception-v3 (2015)、Inception-v4: (2017)、Inception-resnet-v2： (2017)
Resnet： (2016)
ResNet变种：ResNeXt （2016）、ResNeSt（2020）、Res2Net（2019）、DenseNet （2017）
DPNet：(2017)
NasNet：(2018)
SENet及其变体SKNet：SENet（2017）、SKNet（2019）
EfficientNet 系列：EfficientNet-V1(2019)、EfficientNet-V2(2021)
Darknet系列：Darknet-19 （2016， YOLO v2 的 backbone）、Darknet-53 （2018， YOLOv3的 backbone）
DLA (2018, Deep Layer Aggregation)

轻量化：

SqueezeNet：（2016）
MobileNet-v1：（2017）
XCeption：（2017, 极致的 Inception）
MobileNet V2：（2018）
ShuffleNet-v1：(2018)
ShuffleNet-v2：(2018)
MnasNet：（2019）
MobileNet V3 （2019）
CondenseNet（2017）
ESPNet系列：ESPNet （2018）、ESPNetv2 （2018）
ChannelNets
PeleeNet
IGC系列：IGCV1、IGCV2、IGCV3
FBNet系列：FBNet、FBNetV2、FBNetV3
GhostNet
WeightNet
MicroNet

ViT（Vision Transformer ）Backbone结构

ViT-H/14 和 ViT-L/16（2020）（Vision Transformer，ViT）
Swin Transformer（2021）
PVT（2021, Pyramid Vision Transformer）
MPViT （CVPR 2022，Multi-path Vision Transformer, 多路径 Vision Transformer）
EdgeViTs （CVPR 2022，轻量级视觉Transformer）

（CNNs+Transformer / Attention）Backbone结构

CoAtNet（2021）

BoTNet（2021）

YOLOv5结构框图

请添加图片描述

输入端：Mosaic数据增强(随机缩放、随机裁剪、随机排布的方式进行拼接)、自适应锚框计算(初始设定长宽的锚框)、自适应图片缩放 trick(datasets.py的letterbox函数)对原始图像添加最少的黑边减少冗余结果显著，训练未采用，预测采用

Backbone：Focus结构：切片操作，将608×608×3–>304×304×12

CSP结构：YOLOv4借鉴CSPNet网络，YOLOv5的CSP2应用在Neck上加强网络特征融合能力

CSP是由n和gd控制的，n = n_ = max(round(n * gd), 1) if n > 1 else n

Neck：FPN+PAN结构

Prediction：GIOU_Loss DIOU_nms对重叠框有所改进

YOLOv7

请添加图片描述

改进点：

RepVGG（2021）：RepVGG无论是在精度还是速度上都已经超过了 ResNet、EffcientNet 以及 ResNeXt 等网络。采用结构重参数化，（1）训练时，使用ResNet-style的多分支模型（特点：增加模型的表征能力）（2）测试时，转化成VGG-style的单线路模型（特点：速度更快、更省内存并且更加的灵活）

将BN和3x3卷积进行融合，转换成3x3卷积：将BN公式拆解为一元二次方程（y1 = k1* x1 + b1）；然后与损失函数（y2 = k2* x2 + b2）进行合并得到新的方程（y3 = k3* x3 + b3）。

多分支融合：将1x1卷积 + BN全部转换为3x3卷积，然后与3x3卷积进行合并，得到一个3x3卷积。

YOLOv8
请添加图片描述