YOLO11全解析：从原理到实战，全流程体验下一代目标检测

news2026/4/7 10:59:04

前言

一、模型介绍

二、网络结构

1.主干网络（Backbone）

2.颈部网络（Neck）

3.头部网络（Head）

三、算法改进

1.增强的特征提取

2.优化的效率和速度

3.更高的准确性与更少的参数

4.环境适应性强

5.支持广泛的任务

四、性能表现

五、损失函数

六、YOLO11使用详解

1.添加模型

2.创建数据集

3.数据标注

4.模型训练

5.模型预测

总结

1.网络结构与性能提升

2.算法改进与任务扩展

3.灵活部署与广泛应用

前言

YOLO11作为这YOLO系列的最新力作，无疑将目标检测算法推向了一个新的高度。YOLO11在2024年9月30日的YOLOVision活动中正式发布了，这一新版本不仅在性能上有了显著提升，还在功能多样性上迈出了重要一步。

一、模型介绍

YOLO11是由Ultralytics团队于2024年9月30日发布的，它是YOLO（You Only Look Once）系列中的最新成员。YOLO11在之前版本的YOLO基础上引入了新功能和改进，以进一步提高性能和灵活性。这使得YOLO11成为目标检测和跟踪、实例分割、图像分类和姿态估计等多种计算机视觉任务的理想选择。

二、网络结构

YOLO11采用改进的骨干和颈部架构，增强了特征提取能力，提高了物体检测的精确度和复杂任务的表现。相比较于YOLOv8模型，其将CF2模块改成C3K2，同时在SPPF模块后面添加了一个C2PSA模块，且将YOLOv10的head思想引入到YOLO11的head中，使用深度可分离的方法，减少冗余计算，提高效率。

1.主干网络（Backbone）

YOLO1增加了一个C2PSA模块，并且将C2f替换为了C3k2。相比于C2f，当超参数c3k=True时，瓶颈块替换为 C3k，否则还是C2f,而C3k相比于C3则是可以让使用者自定义卷积块大小，更加灵活。C2PSA扩展了C2f，通过引入PSA( Position-Sensitive Attention)，旨在通过多头注意力机制和前馈神经网络来增强特征提取能力。它可以选择性地添加残差结构（shortcut）以优化梯度传播和网络训练效果。同时，使用FFN 可以将输入特征映射到更高维的空间，捕获输入特征的复杂非线性关系，允许模型学习更丰富的特征表示。

2.颈部网络（Neck）

YOLO11使用PAN结构，并在其中也使用了C3K2模块。这种结构设计有助于聚合来自不同尺度的特征，并优化特征的传递过程。C3K2模块其实就是C2F模块转变出来的，它代码中有一个设置，就是当c3k这个参数为FALSE的时候，C3K2模块就是C2F模块，也就是说它的Bottleneck是普通的Bottleneck；反之当它为true的时候，将Bottleneck模块替换成C3模块。

3.头部网络（Head）

YOLO11的Head部分和YOLOV8是近似的，YOLO11在head部分的cls分支上使用深度可分离卷积，具体代码如下：

self.cv2 = nn.ModuleList(
            nn.Sequential(Conv(x, c2, 3), Conv(c2, c2, 3), nn.Conv2d(c2, 4 * self.reg_max, 1)) for x in ch
        )
        self.cv3 = nn.ModuleList(
            nn.Sequential(
                nn.Sequential(DWConv(x, x, 3), Conv(x, c3, 1)),
                nn.Sequential(DWConv(c3, c3, 3), Conv(c3, c3, 1)),
                nn.Conv2d(c3, self.nc, 1),
            )
            for x in ch
        )

三、算法改进

YOLO11在其前身基础上引入了几项重要进步。主要改进包括：

1.增强的特征提取

YOLO11采用改进的骨干和颈部架构，增强了特征提取能力，提高了物体检测的精确度。

2.优化的效率和速度

精炼的架构设计和优化的训练流程实现了更快的处理速度，同时保持了准确性和性能之间的平衡。

3.更高的准确性与更少的参数

YOLO11m在COCO数据集上实现了更高的均值平均精度（mAP），同时使用比YOLOv8m少22%的参数，使其在不妥协准确性的情况下更加计算高效。

4.环境适应性强

YOLO11可以在多种环境中部署，包括边缘设备、云平台以及支持NVIDIA GPU的系统。

5.支持广泛的任务

YOLO11支持多种计算机视觉任务，如物体检测、实例分割、图像分类、姿态估计和定向物体检测（OBB）。

四、性能表现

YOLO11引入精炼的架构设计和优化的训练流程，实现更快的处理速度，同时保持精度和性能之间的最佳平衡。通过模型设计的进步，YOLO11m在COCO数据集上实现了更高的均值平均精度（mAP），同时使用比YOLOv8m少22%的参数，使其在不妥协准确性的情况下更加计算高效。YOLO11可以无缝部署在各种环境中，包括边缘设备、云平台以及支持NVIDIA GPU的系统，确保最大灵活性。无论是物体检测、实例分割、图像分类、姿态估计，还是定向物体检测（OBB），YOLO11都旨在应对多样的计算机视觉挑战。

五、损失函数

Loss 计算包括 2 个分支：分类和回归分支，没有了之前的 objectness 分支。分类分支依然采用 BCE Loss。回归分支使用了 Distribution Focal Loss（DFL Reg_max默认为16）+ CIoU Loss。3 个Loss采用一定权重比例加权即可。

这里重点介绍一下DFL损失。目前被广泛使用的bbox表示可以看作是对bbox方框坐标建模了单一的狄拉克分布。但是在复杂场景中，一些检测对象的边界并非十分明确。如下图左面所示，对于滑板左侧被水花模糊，引起对左边界的预测分布是任意而扁平的，对右边界的预测分布是明确而尖锐的。对于这个问题，有学者提出直接回归一个任意分布来建模边界框，使用softmax实现离散的回归，将狄拉克分布的积分形式推导到一般形式的积分形式来表示边界框。