Datawhale AI夏令营第五期 CV方向 Task2笔记

news2026/3/25 15:47:41

Task2：建模方案解读与进阶

YOLO介绍

YOLO（You Only Look Once）是一种流行的目标检测算法，于2015年首次提出。YOLO的核心思想是将目标检测任务转化为一个回归问题，通过单个卷积神经网络（CNN）直接从图像中预测边界框（bounding box）和类别概率。YOLO算法以其速度快和性能好而著称，特别适合实时目标检测任务。

YOLO算法的网络结构受到了GoogLeNet的启发，包含24个卷积层和2个全连接层，其中使用了1×1的卷积层来代替GoogLeNet中的inception模块。YOLO通过将输入图像分割成一个个格子（grid cell），每个格子负责预测中心点落在该格子内的目标。每个单元格会预测多个边界框以及边界框的置信度（confidence score），其中包括边界框含有目标的可能性和边界框的准确度。

YOLO算法还包括一个损失函数，它考虑了边界框的坐标预测误差、置信度预测误差和分类预测误差。特别是，对于边界框的宽和高（w和h），YOLO采用了对它们求平方根的方式来进行回归，这样的设计使得对小目标的检测更为敏感。

YOLO算法经过多次迭代，发展出了多个版本，包括YOLOv2、YOLOv3、YOLOv4等，每个版本都在速度和准确性上进行了优化和改进。例如，YOLOv2引入了anchor boxes来改善对不同尺度目标的检测能力，YOLOv3进一步改进了检测头和损失函数，YOLOv4则在backbone和neck部分进行了更多的创新。

YOLO算法广泛应用于智能安防、自动驾驶、工业检测和医学影像分析等领域，其高效的目标检测能力为这些领域带来了显著的性能提升。随着技术的不断发展，YOLO算法在目标检测技术中仍然占据着重要的地位，并持续推动着相关领域的进步。

YOLOv8

在baseline代码中，主要运用的是yolov8模型，所以本次主要对yolov8进行介绍：

YOLOv8于2023年1月10日发布，它支持图像分类、物体检测和实例分割任务。YOLOv8引入了以下关键特性和改进：

新架构：包括新的骨干网络和无锚点（Anchor-Free）检测头，提高检测准确性和效率。
性能提升：在保持高速度的同时，精度也得到了提升，适用于实时目标检测任务。
多种预训练模型：提供不同规模的模型，以适应不同的任务和性能要求。
多功能性：支持多种计算机视觉任务，并兼容多种操作模式，便于部署和开发。
易用性：通过Python或CLI简单操作，易于安装和使用。
创新改进：包括深度可分离卷积（MDSConv）和改进的空间金字塔（Improve-SPPF）算法，进一步提高模型性能。

YOLOv8的设计目标是在速度和准确性之间取得平衡，适用于从边缘设备到云API的不同硬件平台，满足多种应用场景的需求。

YOLOv8s网络结构

网络结构图来自： yolov8s网络模型结构图_yolov8网络结构图-CSDN博客

该网络结构主要分为三部分：

主干网络（Backbone）

作用：负责从输入图像中提取特征。
组件：通常包括卷积层（Conv）、批量归一化（BN）、激活函数（如SiLU）等。
特点：在图片描述中，主干网络包含多个卷积层和Cross Stage Partial Networks（CBS），这些结构有助于提取多尺度和多深度的特征。

颈部网络（Neck）

作用：连接主干网络和检测头，进一步增强特征的表达能力。
组件：可能包括C2F、S8D、以及特征图的上采样和拼接（Concat）。
特点：颈部网络使用Spline和Bottleneck结构进行特征的平滑处理和维度调整，以及使用MaxPool进行特征图的降采样。

检测头（Head）

作用：负责最终的检测任务，如预测边界框和类别概率。
组件：可能包括特定的卷积层（C2F）和激活函数，以及用于边界框预测的特定层。
特点：检测头通常会输出多个尺度的特征图，这些特征图用于在不同尺度上进行目标检测。

总的来说，主干网络利用卷积层和批量归一化等操作提取特征，颈部网络通过特征融合和维度调整增强特征表达，最终检测头在多尺度上生成目标的边界框和类别概率，整个模型设计旨在实现高效且精确的目标检测。

YOLOv8系列

YOLOv8系列中的"S"、"N"、"M"和"X"代表不同规模的模型，它们在复杂性、性能和推理速度上有所区别：

YOLOv8-S (Small)：小型模型，具有较低的参数量和计算复杂度，适合于需要快速推理的应用场景，但可能在检测精度上有所折衷。
YOLOv8-N (Nano)：更小型的模型，进一步减少了参数量和计算需求，推理速度最快，但可能在更复杂的目标检测任务中精度较低。
YOLOv8-M (Medium)：中等规模的模型，提供了较好的性能和速度平衡，适用于大多数目标检测任务，适合于在普通硬件上使用。
YOLOv8-X (Extra Large)：超大模型，具有最多的参数和最高的计算复杂度，提供最高的检测精度，但相应的推理速度最慢，适合于对精度要求极高的应用场景。

YOLOv8-X相比于其他尺寸的模型，能够在更复杂的图像环境中提供更加精确的检测结果，但也需要更强大的计算资源。这些不同规模的模型允许用户根据自己的硬件能力和应用需求选择最合适的模型。例如，如果应用场景对速度要求极高，可以选择YOLOv8-N或YOLOv8-S；如果对检测精度有更高要求，可以选择YOLOv8-M或YOLOv8-X。