【YOLOv8】YOLOv8改进系列（8）----替换主干网络之Swin Transformer

主页：HABUO🍁主页：HABUO

🍁YOLOv8入门+改进专栏🍁

🍁如果再也不能见到你，祝你早安，午安，晚安🍁

【YOLOv8改进系列】：

【YOLOv8】YOLOv8结构解读

YOLOv8改进系列（1）----替换主干网络之EfficientViT

YOLOv8改进系列（2）----替换主干网络之FasterNet

YOLOv8改进系列（3）----替换主干网络之ConvNeXt V2

YOLOv8改进系列（4）----替换C2f之FasterNet中的FasterBlock替换C2f中的Bottleneck

YOLOv8改进系列（5）----替换主干网络之EfficientFormerV2

YOLOv8改进系列（6）----替换主干网络之VanillaNet

YOLOv8改进系列（7）----替换主干网络之LSKNet

💯一、Swin Transformer介绍

1. 简介

2. LSKNet架构设计

背景知识

研究方法

3. 实验与结果

4. 关键结论

💯二、具体添加方法

第①步：创建SwinTransformer.py

第②步：修改task.py

(1)引入创建的SwinTransformer文件

(2)修改_predict_once函数

(3)修改parse_model函数

第③步：yolov8.yaml文件修改

第④步：验证是否加入成功

💯一、Swin Transformer介绍

论文题目：《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》
论文地址：https://arxiv.org/pdf/2103.14030

1. 简介

论文介绍了一种新的视觉Transformer模型——Swin Transformer，它旨在成为计算机视觉领域的通用骨干网络。Swin Transformer通过其独特的层次化结构和移位窗口（Shifted Windows）机制，解决了传统Transformer在视觉任务中的计算复杂度问题，并在图像分类、目标检测和语义分割等多个任务中取得了优异的性能。

2. LSKNet架构设计

背景知识

传统的卷积神经网络（CNN）在计算机视觉领域占据主导地位，而Transformer架构在自然语言处理（NLP）中取得了巨大成功。然而，将Transformer直接应用于计算机视觉面临两大挑战：

视觉元素的尺度变化大：与语言中的固定尺度词元不同，视觉元素的尺度变化范围很大。
图像分辨率高：图像中的像素分辨率远高于文本中的单词，这使得Transformer在高分辨率图像上的计算复杂度呈二次方增长，难以处理密集预测任务。

研究方法

为了解决上述问题，Swin Transformer提出了以下创新点：

层次化Transformer结构：通过逐步合并小尺寸图像块（patches），构建层次化的特征图，从而能够处理不同尺度的视觉元素。
移位窗口机制：在计算自注意力时，将图像划分为非重叠的局部窗口，并在连续的Transformer块之间交替使用常规窗口划分和移位窗口划分。这种机制不仅保持了计算效率，还允许跨窗口连接，增强了模型的表达能力。
线性计算复杂度：通过在局部窗口内计算自注意力，Swin Transformer的计算复杂度与图像大小呈线性关系，使其适用于高分辨率图像和密集预测任务。

3. 实验与结果

Swin Transformer在多个计算机视觉任务上进行了广泛的实验，结果表明其性能显著优于现有的CNN和Transformer模型：

图像分类：在ImageNet-1K数据集上，Swin Transformer取得了87.3%的top-1准确率，超越了之前的最佳模型。
目标检测：在COCO数据集上，Swin Transformer取得了58.7 box AP和51.1 mask AP的性能，分别比之前的最佳结果高出+2.7 box AP和+2.6 mask AP。
语义分割：在ADE20K数据集上，Swin Transformer取得了53.5 mIoU的性能，比之前的最佳模型高出+3.2 mIoU。

4. 关键结论

Swin Transformer通过其层次化结构和移位窗口机制，有效地解决了传统Transformer在视觉任务中的计算复杂度问题，并在多个任务中取得了突破性的性能。其设计不仅适用于图像分类，还能很好地支持密集预测任务，如目标检测和语义分割。此外，Swin Transformer的线性计算复杂度使其能够处理高分辨率图像，为计算机视觉领域提供了一个强大的通用骨干网络。