YOLO网络结构特点收录
YOLO(You Only Look Once)网络结构随着版本迭代不断进化,以下是一些关键版本的网络结构特点概述:
YOLOv1
- 输入:将图像调整至固定尺寸,如448x448像素。
- 骨干网络:初期版本使用较为简单的网络结构,类似于GoogLeNet但不包含全连接层。
- 输出:直接预测出7x7(或根据设置调整的SxS)网格中的边界框信息和类别概率,每个网格预测B个边界框,输出维度为SxSx(Bx5+C),其中5代表边界框的参数(x, y, w, h, 置信度),C为类别数。
YOLOv2
- 输入尺寸灵活性:支持多尺度训练,输入尺寸更加灵活。
- 骨干网络改进:采用Darknet-19作为骨干网络,增加了批量归一化和残差连接。
- 多尺度预测:在不同尺度的特征图上进行检测,以更好地覆盖不同大小的目标。
- 锚框(Anchor Boxes):引入锚框概念,预先定义一组边界框比例,减少模型对边界框形状的预测负担。
YOLOv3
- 骨干网络:升级为Darknet-53,更深更宽,提高了特征提取能力。
- 多尺度检测头:在不同层的特征图上应用检测头,分别对应不同尺度的目标检测,例如在3个不同尺度的特征图上进行预测,尺寸分别是13x13、26x26、52x52。
- 边界框数量增加:每个网格预测更多数量的边界框(如3个),提高了检测的多样性。
YOLOv4
- 骨干网络:采用CSPDarknet53作为主干网络,提高了效率和准确性。
- Neck(颈部结构):结合SPP(空间金字塔池化)模块和PAN(路径聚合网络)以增强特征融合,SPP有助于捕获多尺度特征,PAN则是通过上采样和跳连结构整合不同尺度的特征。
- 训练技巧:引入了Mish激活函数、DropBlock正则化、CIoU损失函数等,进一步提升了模型性能。
通用特点
- 跳跃连接(Skip Connections):在不同层次之间通过跳跃连接传递信息,特别是在解码阶段结合低层的细粒度特征和高层的语义信息,以提高定位精度。
- 端到端训练:YOLO模型是端到端训练的,从图像输入到边界框和类别预测输出一次性完成,无需预选区域生成步骤。
从图像输入到边界框和类别预测输出一次性完成,无需预选区域生成步骤。
每个版本的YOLO都在前一代基础上进行了优化和创新,旨在提高检测精度的同时保持高效的运行速度,使其成为实时目标检测任务的理想选择。
了解更多知识请戳下:
@Author:懒羊羊