YOLO 社区自前两次发布以来一直情绪高涨!随着中国农历新年2023兔年的到来,美团对YOLOv6进行了许多新的网络架构和训练方案改进。此版本标识为 YOLOv6 v3.0。对于性能,YOLOv6-N在COCO数据集上的AP为37.5%,通过NVIDIA Tesla T4 GPU测试的吞吐量为1187 FPS。YOLOv6-S以484 FPS的速度得到了超过45.0%的AP,超过了相同规模的其他主流检测器(YOLOv5-S、YOLOv8-S、YOLOX-S和PPYOLOE-S)。YOLOv6-M/L在相似的推理速度下也比其他检测器实现了更好的精度性能(分别为50.0%/52.8%)。此外,凭借扩展的Backbone和Neck设计,YOLOv6-L6实现了最先进的实时精度。
YOLOv6贡献
YOLOv6的新功能总结如下:
- 我们用双向级联(
BiC
)模块更新检测器的颈部,以提供更准确的定位信号。SPPF
被简化为SimCSPSPF
块,它带来了性能提高,速度下降可忽略不计。(SimCSPSPF
和我之前提出的SPPFCSPC
结构相同) - 我们提出了一种锚辅助训练(
AAT
)策略,以在不影响推理效率的情况下,享受基于锚和无锚范例的优点。(这一点也比较有意思,v7
作者在我的issue
中是这么回答的issue) - 我们深化 YOLOv6,使其在主干和颈部具有另一个阶段,这增强了它在 COCO 数据集上以高分辨率输入实现新的最先进性能。
- 我们采用了一种新的自蒸馏策略来提高 YOLOv6 小模型的性能,其中
DFL
的较重分支在训练期间被用作增强的辅助回归分支,并在推断时被移除,以避免显著的速度下降。
BiFusion Neck 融合的原理
BiFusion Neck 融合的原理其实并不是很难理解,有些博主解析的过于复杂,其实无非就是4
步:
- 对同尺度特征图使用
1×1
卷积降维; - 对大尺度特征图先使用
1×1
卷积降维,再使用3×3
步长为2
的卷积进行下采样; - 对小尺度特征图 使用
2×2
的转置卷积进行上采样, - 然后将这三部分得到的特征图
Conca
拼接起来,使用1×1
卷积再次降维;
BiFusion Neck结构图
我这里把YOLOv6的颈部网络完美移植到了YOLOv5
参数量与计算量
模型 | 参数量(parameters) | 计算量(GFLOPs) |
---|---|---|
yolov5s | 7225885 | 16.5 |
yolov5s BiFusion Neck | 7397565 | 17.5 |
很巧妙的改进~
代码修改方式:
yolo.py
中加入nn.ConvTranspose2d
BiFusion Neck 配置文件
yolov5s-Bifusion.yaml
# YOLOv5 🚀 by Ultralytics, GPL-3.0 license
# by迪菲赫尔曼 ,仅供学习交流,别tm倒卖!
# Parameters
nc: 80 # number of classes
depth_multiple: 0.33 # model depth multiple
width_multiple: 0.50 # layer channel multiple
anchors:
- [10,13, 16,30, 33,23] # P3/8
- [30,61, 62,45, 59,119] # P4/16
- [116,90, 156,198, 373,326] # P5/32
# YOLOv5 v6.0 backbone
backbone:
# [from, number, module, args]
[[-1, 1, Conv, [64, 6, 2, 2]], # 0-P1/2
[-1, 1, Conv, [128, 3, 2]], # 1-P2/4
[-1, 3, C3, [128]],
[-1, 1, Conv, [256, 3, 2]], # 3-P3/8
[-1, 6, C3, [256]],
[-1, 1, Conv, [512, 3, 2]], # 5-P4/16
[-1, 9, C3, [512]],
[-1, 1, Conv, [1024, 3, 2]], # 7-P5/32
[-1, 3, C3, [1024]],
[-1, 1, SPPF, [1024, 5]], # 9
]
# YOLOv5 v6.0 head
head:
[[-1, 1, Conv, [512, 1, 1]], #10
[-1, 1, nn.ConvTranspose2d, [512, 2, 2, 0, 0, 512]], #11
[ 6, 1, Conv, [256, 1,1]], #12
[ 4, 1, Conv, [128, 1,1]], #13
[-1, 1, Conv, [128, 3,2]], #14
[[11, 12, 14], 1, Concat, [1]], # cat backbone P4 #15
[-1, 1, Conv, [512, 1,1]], # 16
[-1, 3, C3 , [512, False]], # 17
[-1, 1, Conv, [256, 1, 1]], # 18
[-1, 1, nn.ConvTranspose2d, [256, 2, 2, 0, 0, 256]], #19
[ 4, 1, Conv, [ 128, 1,1 ] ], #20
[ 2, 1, Conv, [ 64, 1,1 ] ], #21
[-1, 1, Conv, [ 64, 3,2 ] ], #22
[[19, 20, 22], 1, Concat, [1]], #23 cat backbone P3
[-1, 1, Conv, [256, 1,1]], #24
[-1, 3, C3 , [256, False]], #25 out
[-1, 1, Conv, [256, 3, 2]], #26
[[-1, 18], 1, Concat, [1]], #27 cat head P4
[-1, 3, C3 , [512, False]], #28 out (P4/16-medium)
[-1, 1, Conv, [512, 3, 2]], #29
[[-1, 10], 1, Concat, [1]], #30 cat head P5
[-1, 3, C3 , [1024, False]], # 31 (P5/32-large)
[[25, 28, 31], 1, Detect, [nc, anchors]], # Detect(P3, P4, P5)
]
yolov5m-Bifusion.yaml
# YOLOv5 🚀 by Ultralytics, GPL-3.0 license
# by迪菲赫尔曼 ,仅供学习交流,别tm倒卖!
# Parameters
nc: 80 # number of classes
depth_multiple: 0.67 # model depth multiple
width_multiple: 0.75 # layer channel multiple
anchors:
- [10,13, 16,30, 33,23] # P3/8
- [30,61, 62,45, 59,119] # P4/16
- [116,90, 156,198, 373,326] # P5/32
# YOLOv5 v6.0 backbone
backbone:
# [from, number, module, args]
[[-1, 1, Conv, [64, 6, 2, 2]], # 0-P1/2
[-1, 1, Conv, [128, 3, 2]], # 1-P2/4
[-1, 3, C3, [128]],
[-1, 1, Conv, [256, 3, 2]], # 3-P3/8
[-1, 6, C3, [256]],
[-1, 1, Conv, [512, 3, 2]], # 5-P4/16
[-1, 9, C3, [512]],
[-1, 1, Conv, [1024, 3, 2]], # 7-P5/32
[-1, 3, C3, [1024]],
[-1, 1, SPPF, [1024, 5]], # 9
]
# YOLOv5 v6.0 head
head:
[[-1, 1, Conv, [512, 1, 1]], #10
[-1, 1, nn.ConvTranspose2d, [512, 2, 2, 0, 0, 512]], #11
[ 6, 1, Conv, [256, 1,1]], #12
[ 4, 1, Conv, [128, 1,1]], #13
[-1, 1, Conv, [128, 3,2]], #14
[[11, 12, 14], 1, Concat, [1]], # cat backbone P4 #15
[-1, 1, Conv, [512, 1,1]], # 16
[-1, 3, C3 , [512, False]], # 17
[-1, 1, Conv, [256, 1, 1]], # 18
[-1, 1, nn.ConvTranspose2d, [256, 2, 2, 0, 0, 256]], #19
[ 4, 1, Conv, [ 128, 1,1 ] ], #20
[ 2, 1, Conv, [ 64, 1,1 ] ], #21
[-1, 1, Conv, [ 64, 3,2 ] ], #22
[[19, 20, 22], 1, Concat, [1]], #23 cat backbone P3
[-1, 1, Conv, [256, 1,1]], #24
[-1, 3, C3 , [256, False]], #25 out
[-1, 1, Conv, [256, 3, 2]], #26
[[-1, 18], 1, Concat, [1]], #27 cat head P4
[-1, 3, C3 , [512, False]], #28 out (P4/16-medium)
[-1, 1, Conv, [512, 3, 2]], #29
[[-1, 10], 1, Concat, [1]], #30 cat head P5
[-1, 3, C3 , [1024, False]], # 31 (P5/32-large)
[[25, 28, 31], 1, Detect, [nc, anchors]], # Detect(P3, P4, P5)
]
本代码仅供学习交流使用,切勿倒卖,转载请注明出处 !!