1.钢铁缺陷数据集介绍

NEU-DET钢材表面缺陷共有六大类，分别为：'crazing','inclusion','patches','pitted_surface','rolled-in_scale','scratches'

每个类别分布为：

训练结果如下：

2.基于yolov5s的训练

map值0.742：

2.1 Inception-MetaNeXtStage

论文地址： https://arxiv.org/pdf/2303.16900.pdf

代码： GitHub - sail-sg/inceptionnext: InceptionNeXt: When Inception Meets ConvNeXt

单位：NUS, Sea AI Lab(颜水成等人)

摘要：受ViT的 long-range 建模能力的启发，大核卷积来扩大感受野用于提升模型性能，比如ConvNeXt了采用7x7深度卷积。虽然这种深度操作符只消耗少量FLOPs，但高内存访问成本，它在很大程度上损害了强大计算设备上的模型效率。为了解决这个问题，我们提出将大核深度卷积分解为沿通道维度的四个并行分支，即小平方内核、两个正交带核和一个恒等映射。通过这种新的Inception深度卷积，我们构建了一系列网络，即IncepitonNeXt，它们不仅具有高吞吐量，而且保持了有竞争力的性能。

图 1：准确性和训练之间的权衡吞吐量。所有模型均在 DeiT 训练下进行训练超参数 [61、37、38、69]。训练吞吐量在批量大小为 128 的 A100 GPU 上测量。ConvNeXt-T/kn 表示具有深度卷积的变体内核大小为 n × n。 InceptionNeXt-T 兼具两者ResNet-50 的速度和 ConvNeXt-T 的准确性。

图 2：MetaFormer、MetaNext、ConvNeXt 和 InceptionNeXt 的框图。

将Inception的思想和ConvNeXt的设计相结合，从而实现了对大核深度卷积的有效分解。这种分解不仅减少了参数量和计算量，而且保留了大核深度卷积的优势，即扩大了感受野和提高了模型性能。

对应博客：涨点神器：CVPR2023 InceptionNeXt当Inception遇见ConvNeXt，在Yolov5/Yolov7/Yolov8即插即用，小目标检测涨点明显_AI小怪兽的博客-CSDN博客

2.2 DCNV3

论文：https://arxiv.org/abs/2211.05778

代码：GitHub - OpenGVLab/InternImage: [CVPR 2023 Highlight] InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

理论部分参考知乎：CVPR2023 Highlight | 书生模型霸榜COCO目标检测，研究团队解读公开 - 知乎

不同于近来聚焦于大核的CNN方案，InternImage以形变卷积作为核心操作(不仅具有下游任务所需的有效感受野，同时具有输入与任务自适应空域聚合能力)。所提方案降低了传统CNN的严格归纳偏置，同时可以学习更强更鲁棒的表达能力。ImageNet、COCO以及ADE20K等任务上的实验验证了所提方案的有效性，值得一提的是：InternImage-H在COCO test-dev上取得了新的记录65.4mAP。