论文地址:https://arxiv.org/pdf/2208.03641v1.pdf
代码地址:https://github.com/labsaint/spd-conv
卷积神经网络(CNN
)在图像分类、目标检测等计算机视觉任务中取得了巨大的成功。然而,在图像分辨率较低或对象较小的更困难的任务中,它们的性能会迅速下降。
这源于现有CNN
体系结构中一个有缺陷但却很常见的设计,即使用strided convolution
和/或池化层
,这导致了细粒度信息的丢失和较低效率的特征表示的学习。为此,我们提出了一种新的CNN
模块,称为SPD-Conv
,以取代每个strided convolution
和每个池化层
(从而完全消除了它们)。SPD-Conv
由 space-to-depth
(SPD)层和non-strided convolution
(Conv)层组成,可以应用于大多数CNN
架构。
我们在两个最具代表性的计算机视觉任务下解释了这种新的设计:目标检测和图像分类。然后,我们通过将SPD-Conv
应用于YOLOv5
和