【YOLOv8】YOLOv8改进系列（5）----替换主干网络之EfficientFormerV2

主页：HABUO🍁主页：HABUO

🍁YOLOv8入门+改进专栏🍁

🍁如果再也不能见到你，祝你早安，午安，晚安🍁

【YOLOv8改进系列】：

【YOLOv8】YOLOv8结构解读

YOLOv8改进系列（1）----替换主干网络之EfficientViT

YOLOv8改进系列（2）----替换主干网络之FasterNet

YOLOv8改进系列（3）----替换主干网络之ConvNeXt V2

YOLOv8改进系列（4）----替换C2f之FasterNet中的FasterBlock替换C2f中的Bottleneck

💯一、EfficientFormerV2介绍

1. 简介

2. EfficientFormerV2 的设计

2.1 网络架构设计

2.2 网络架构示意图

2.3 关键设计选择的性能对比

3. 实验结果

3.1 ImageNet-1K 分类

3.2 下游任务

4. 关键结论

💯二、具体添加方法

第①步：创建EfficientFormerV2.py

第②步：修改task.py

(1)引入创建的EfficientFormerV2文件

(2)修改_predict_once函数

(3)修改parse_model函数

第③步：yolov8.yaml文件修改

第④步：验证是否加入成功

💯一、EfficientFormerV2介绍

论文题目：《Rethinking Vision Transformers for MobileNet Size and Speed》
论文地址：https://arxiv.org/pdf/2212.08059v1

1. 简介

这篇论文介绍了一种名为 EfficientFormerV2 的新型高效视觉模型，旨在解决如何在移动设备上实现与 MobileNet 相当的模型大小和推理速度的同时，达到与 Vision Transformers (ViTs) 相似的高性能。

论文的核心目标是探索是否可以设计出一种 Transformer 模型，使其在移动设备上的推理速度和模型大小与 MobileNet 相当，同时保持高性能。为此，作者提出了 EfficientFormerV2，并通过以下方法实现这一目标：

重新审视 ViTs 的设计选择，提出一种低延迟、高参数效率的改进型超网络（supernet）。
引入一种细粒度的联合搜索策略，同时优化模型的延迟和参数数量，以找到高效的架构。

2. EfficientFormerV2 的设计

2.1 网络架构设计

EfficientFormerV2 的设计基于以下关键改进：

统一的前馈网络（FFN）：将局部信息建模模块（如池化层）替换为深度可分离卷积（DWCONV），并将其集成到 FFN 中，简化了网络结构。
多头自注意力（MHSA）改进：通过在 Value 矩阵中注入局部信息，并引入 Talking Head 机制，提升注意力模块的性能。
高效的注意力机制：通过“Stride Attention”方法，将高分辨率特征的注意力计算简化为固定分辨率，从而减少计算复杂度。
注意力下采样：结合局部和全局信息的下采样策略，进一步优化性能。

2.2 网络架构示意图

EfficientFormerV2 的网络架构分为四个阶段，分别处理不同分辨率的特征（1/4、1/8、1/16 和 1/32）。前两个阶段主要使用统一的 FFN 捕获局部信息，后两个阶段结合局部 FFN 和全局 MHSA 模块，以平衡局部和全局信息的建模。

2.3 关键设计选择的性能对比

论文通过实验验证了不同设计选择对性能的影响，例如：

统一的 FFN 设计相比基线模型提升了 0.6% 的准确率，且没有增加延迟。
引入 Talking Head 和局部信息建模后，准确率进一步提升至 80.8%，同时保持参数和延迟不变。
通过 Stride Attention 和注意力下采样，模型在高分辨率特征上的性能和效率得到显著提升。

3. 实验结果

3.1 ImageNet-1K 分类

EfficientFormerV2 在 ImageNet-1K 数据集上进行了广泛的实验，结果表明：

EfficientFormerV2-S0 在与 MobileNetV2 相同的延迟和参数量下，Top-1 准确率高出 3.9%。
EfficientFormerV2-S1 在与 MobileNetV2×1.4 相当的延迟下，准确率高出 4.3%，且模型大小减少了 2倍。
EfficientFormerV2-L 在较大的模型规模下，达到了与 EfficientFormer-L7 相同的准确率，但模型大小减少了 3.1倍。

此外，EfficientFormerV2 在 iPhone 12 和 Pixel 6 等移动设备上的推理延迟表现出色，证明了其在实际应用中的高效性。

3.2 下游任务

EfficientFormerV2 还在目标检测、实例分割和语义分割等下游任务中进行了验证：

在 MS COCO 数据集上，EfficientFormerV2-L 在与 EfficientFormer-L3 相同的模型大小下，检测和分割性能分别提升了 3.3 APbox 和 2.3 APmask。
在 ADE20K 数据集上，EfficientFormerV2-S2 的语义分割性能（mIoU）比 PoolFormer-S12 高出 5.2%，证明了其作为特征提取器的有效性。

4. 关键结论

EfficientFormerV2 通过重新审视 ViTs 的设计选择，并引入细粒度的联合搜索算法，成功实现了在移动设备上与 MobileNet 相当的模型大小和推理速度，同时保持了高性能。这一成果为在资源受限的硬件上部署 Transformer 模型提供了新的思路，并为未来的研究提供了有价值的参考。