yolov7结构改进策略解析

论文链接：https://arxiv.org/abs/2207.02696
代码链接：https://github.com/WongKinYiu/yolov7
具体分割如何训练，请参考我之前的博客论文：
https://blog.csdn.net/qq_41920323/article/details/129464115?spm=1001.2014.3001.5502
一、论文做出的贡献如下：
1）设计了几种可训练的bag-of-freebies，使实时检测器可以在不提高推理成本的情况下大大提高检测精度；
2）对于目标检测的发展，作者发现了两个新的问题，即模块重参化如何高效替代原始模块，以及动态标签分配策略如何处理好不同输出层的分配。因此在本文中提出了方法进行解决。
3）作者为实时探测器提出了“扩展”和“复合缩放”（extend” and “compound scaling”)方法，可以更加高效地利用参数和计算量，同时，作者提出的方法可以有效地减少实时探测器50%的参数，并且具备更快的推理速度和更高的检测精度。（这个其实和YOLOv5或者Scale YOLOv4的baseline使用不同规格分化成几种模型类似，既可以是width和depth的缩放，也可以是module的缩放）

二、相关工作
2.1 实时检测器
目前最先进的实时探测器主要基于YOLO和FCOS，如果需要研发更先进的实时检测器，通常需要具备以下特征：

（1）更快和更高效的网络架构；
（2）更有效的特征积分方法；
（3）更准确的检测方法；
（4）更鲁棒的损失函数；
（5）更有效的标签分配方法；
（6）更有效的训练方式。
2.2 模型重参化
模型重参化策略在推理阶段将多个模块合并为一个计算模块，可以看作是一种集成技术，可以将其分为模块级集成和模型级集成两类。
对于模型级重新参数化有两种常见的操作:
1）一种是用不同的训练数据训练多个相同的模型，然后对多个训练模型的权重进行平均。
2）一种是对不同迭代次数下模型权重进行加权平均。

这种方法在训练过程中将一个整体模块分割为多个相同或不同的模块分支，但在推理过程中将多个分支模块集成到一个完全等价的模块中。然而，并不是所有提出的重参化模块都可以完美地应用于不同的架构。
考虑到这一点，作者开发了新的重参数化模块，并为各种架构设计了相关的应用程序策略。下图是作者使用重参化实现构建的多个module，按照分组数不同进行排列，
模块参考：https://github.com/WongKinYiu/yolov7/blob/main/models/common.py
在这里插入图片描述
2.3 模型缩放
模型缩放通过扩大或缩小baseline，使其适用于不同的计算设备。模型缩放方法通常包括不同的缩放因子，如:
input size（输入图像大小）
depth（层数）
width（通道数）
stage（特征金字塔数量）

从而在网络的参数量、计算量、推理速度和精度方面实现很好的权衡。网络架构搜索(NAS)也是目前常用的模型缩放方法之一。

三、模型设计架构
3.1 高效的聚合网络
在大多数关于设计高效网络的论文中，主要考虑的因素是参数量、计算量和计算密度。但从内存访问的角度出发，还可以分析输入/输出信道比、架构的分支数和元素级操作对网络推理速度的影响（shufflenet论文提出)。在执行模型缩放时还需考虑激活函数，即更多地考虑卷积层输出张量中的元素数量。
在这里插入图片描述
图2(b)中CSPVoVNet是VoVNet的一个变体。除了考虑上述几个设计问题外，CSPVoVNet的体系结构还分析了梯度路径，使不同层能够学习更多样化的特征。上面描述的梯度分析方法还能使推理速度更快、模型更准确（看下图！其实和Resnext有点像，但比它复杂一些）。
在这里插入图片描述
图2（c）中的ELAN出于以下设计考虑——“如何设计一个高效的网络？”得出结论是：通过控制最短最长梯度路径，更深的网络可以有效地进行学习并更好地收敛。

因此，在论文中，作者提出了基于ELAN的扩展版本E-ELAN，其主要架构如图2(d)所示。在大规模ELAN中，无论梯度路径长度和计算模块数量如何，都达到了稳定的状态。但如果更多计算模块被无限地堆叠，这种稳定状态可能会被破坏，参数利用率也会降低。论文提出的E-ELAN采用expand、shuffle、merge cardinality结构，实现在不破坏原始梯度路径的情况下，提高网络的学习能力。

在体系结构方面，E-ELAN只改变了计算模块中的结构，而过渡层的结构则完全不变。作者的策略是利用分组卷积来扩展计算模块的通道和基数，将相同的group parameter和channel multiplier用于计算每一层中的所有模块。然后，将每个模块计算出的特征图根据设置的分组数打乱成G组，最后将它们连接在一起。此时，每一组特征图中的通道数将与原始体系结构中的通道数相同。最后，作者添加了G组特征来merge cardinality。除了维护原始的ELAN设计架构外，E-ELAN还可以指导不同的分组模块来学习更多样化的特性。
3.2 基于连接的模型的模型缩放
缩放和YOLOv5、Scale YOLOv4、YOLOX类似，depth and width和module scale：
在这里插入图片描述
四、训练策略
4.1 卷积重参化
尽管RepConv在VGG上取得了优异的性能，但将它直接应用于ResNet和DenseNet或其他网络架构时，它的精度会显著降低。作者使用梯度传播路径来分析不同的重参化模块应该和哪些网络搭配使用。通过分析RepConv与不同架构的组合以及产生的性能，作者发现RepConv中的identity破坏了ResNet中的残差结构和DenseNet中的跨层连接，这为不同的特征图提供了梯度的多样性。
在这里插入图片描述
基于上述原因，作者使用没有identity连接的RepConv结构。图4显示了作者在PlainNet和ResNet中使用的“计划型重参化卷积”的一个示例：

4.2 辅助训练模块
深度监督是一种常用于训练深度网络的技术，其主要概念是在网络的中间层增加额外的辅助头，以及以辅助损失为指导的浅层网络权重。即使对于像ResNet和DenseNet这样收敛效果好的网络结构，深度监督仍然可以显著提高模型在许多任务上的性能。下图(a)和(b)分别显示了“没有”和“有”深度监督的目标检测器架构，在本文中，作者将负责最终的输出头称为引导头，将用于辅助训练的头称为辅助头。
在这里插入图片描述
接下来讨论标签分配的问题。在过去，在深度网络的训练中，标签分配通常直接指的是ground truth，并根据给定的规则生成hard label（未经过softmax）。然而近年来，以目标检测为例，研究者经常利用网络预测的质量分布来结合ground truth，使用一些计算和优化方法来生成可靠的软标签（soft label）。例如，YOLO使用bounding box预测和ground truth的IoU作为软标签。

论文作者将网络预测结果与ground truth一起考虑后再分配软标签的机制称为“标签分配器”。无论辅助头或引导头，都需要对目标进行深度监督。那么，‘’如何为辅助头和引导头合理分配软标签？”，这是作者需要考虑的问题。目前最常用的方法如下图（c）所示，即将辅助头和引导头分离，然后利用它们各自的预测结果和ground truth执行标签分配。

本文提出的方法是一种新的标签分配方法，通过引导头的预测来引导辅助头以及自身。换句话说，首先使用引导头的prediction作为指导，生成从粗到细的层次标签，分别用于辅助头和引导头的学习，具体可看图(d)和(e)：
在这里插入图片描述
图（d）：引导头引导“标签分配器”预测结果和ground truth进行计算，并通过优化（在utils/loss.py的SigmoidBin(）函数中，
传送门：https://github.com/WongKinYiu/yolov7/blob/main/utils/loss.py 生成软标签。这组软标签将作为辅助头和引导头的目标来训练模型。
这样做的目的是使引导头具有较强的学习能力，由此产生的软标签更能代表源数据与目标之间的分布差异和相关性。此外，作者还可以将这种学习看作是一种广义上的余量学习。通过让较浅的辅助头直接学习引导头已经学习到的信息，引导头能更加专注于尚未学习到的残余信息。

图（e）： Coarse-to-fine引导头使用到了自身的prediction和ground truth来生成软标签，引导标签进行分配。然而，在这个过程中，作者生成了两组不同的软标签，即粗标签和细标签，其中细标签与引导头在标签分配器上生成的软标签相同，粗标签是通过降低正样本分配的约束，允许更多的网格作为正目标（可以看下FastestDet的label assigner，不单单只把gt中心点所在的网格当成候选目标，还把附近的三个也算进行去，增加正样本候选框的数量）。原因是一个辅助头的学习能力并不需要强大的引导头，为了避免丢失信息，作者将专注于优化样本召回的辅助头。对于引导头的输出，可以从查准率中过滤出高精度值的结果作为最终输出。然而，值得注意的是，如果粗标签的附加权重接近细标签的附加权重，则可能会在最终预测时产生错误的先验结果。

4.3 其他可训练策略
1）Batch normalization：目的是在推理阶段将批归一化的均值和方差整合到卷积层的偏差和权重中。
2）YOLOR中的隐式知识结合卷积特征映射和乘法方式：YOLOR中的隐式知识可以在推理阶段将计算值简化为向量。这个向量可以与前一层或后一层卷积层的偏差和权重相结合。
3）EMA Model：EMA 是一种在mean teacher中使用的技术，作者使用 EMA 模型作为最终的推理模型。