目标检测算法-SSD

news2026/3/28 0:48:22

1. SSD介绍

计算机确定图像中一个物体的位置需要四个参数：中心点的x轴、y轴坐标、框的高和宽。

当一张图片被传入SSD的网络中时，图片首先会被调整为300*300的大小。为了防止失真，其会在图片的边缘加上灰条。

之后SSD会将这种图片分为六种不同大小的网格，分别为 $38\times 38，5\times 5，19\times 19，3\times 3，10\times 10，1\times 1$ 的网格。

由于图像经过多次卷积压缩后，小物体的特征容易消失，所以 $38\times 38，19\times 19$ 的网格用于检测小物体， $3\times 3，1\times 1$ 的网格用于检测大物体。

对于下图中的猫来说，它在图像中属于一个比较大的物体，因此使用 $5\times 5$ 或者 $3\times 3$ 的网格来检测。

每个网格中心负责网格内部物体的检测，如果物体的中心落在这个区域，这个物体的位置就由这个网格点来确定。

在这里插入图片描述

总结而言，SSD不过是把一张踢平划分成不同的网格，当某一个物体的中心点落在这个区域，这个物体就由这个网格来确定。

2. SSD网络整体结构

在这里插入图片描述

特征提取：在VGG的基础上进行改变，增加一些卷积层。

先验框，即锚框。

每一个网格都存在先验框，它以网格的中心为中心，存在多个先验框。这些先验框是我们事先在图中生成好的，我们之后的预测结果就会对这些先验框进行调整，获得我们的预测结果。

在这里插入图片描述

如 $38\times 38$ 的网格，每个网格对应来4个先验框。

3. 特征提取模块

在这里插入图片描述

如图所示，输入的图片经过了改进的VGG网络（Conv1->fc7）和几个另加的卷积层（Conv6->Conv9），进行特征提取：

输入一张图片后，被resize到300x300的shape
conv1，经过两次[3,3]卷积网络，输出的特征层为64，输出为(300,300,64)，再2X2最大池化，该最大池化步长为2，输出net为(150,150,64)。
conv2，经过两次[3,3]卷积网络，输出的特征层为128，输出net为(150,150,128)，再2X2最大池化，该最大池化步长为2，输出net为(75,75,128)。
conv3，经过三次[3,3]卷积网络，输出的特征层为256，输出net为(75,75,256)，再2X2最大池化，该最大池化步长为2，输出net为(38,38,256)。
conv4，经过三次[3,3]卷积网络，输出的特征层为512，输出net为(38,38,512)，再2X2最大池化，该最大池化步长为2，输出net为(19,19,512)。
conv5，经过三次[3,3]卷积网络，输出的特征层为512，输出net为(19,19,512)，再3X3最大池化，该最大池化步长为1，输出net为(19,19,512)。
利用卷积代替全连接层，进行了一次[3,3]卷积网络和一次[1,1]卷积网络，分别为fc6和fc7，输出的通道数为1024，因此输出的net为(19,19,1024)。（从这里往前都是VGG的结构）
conv6，经过一次[1,1]卷积网络，调整通道数，一次步长为2的[3,3]卷积网络，输出的通道数为512，因此输出的net为(10,10,512)。
conv7，经过一次[1,1]卷积网络，调整通道数，一次步长为2的[3,3]卷积网络，输出的通道数为256，因此输出的net为(5,5,256)。
conv8，经过一次[1,1]卷积网络，调整通道数，一次padding为valid的[3,3]卷积网络，输出的通道数为256，因此输出的net为(3,3,256)。
conv9，经过一次[1,1]卷积网络，调整通道数，一次padding为valid的[3,3]卷积网络，输出的特征层为256，因此输出的net为(1,1,256)。