目标检测算法SSD与FasterRCNN

news2026/2/14 1:51:57

目标检测算法SSD与FasterRCNN

SSD:（ Single Shot MultiBox Detector）特点是在不同特征尺度上预测不同尺度的目标。

SSD网络结构

在这里插入图片描述
首先对网络的特征进行说明：输入的图像是300x300的三通道彩色图像。

网络的第一个部分贯穿到Vgg16模型 Conv5的第三层上

在这里插入图片描述
整个SSD网络的第一个预测特征层就是conv4的第三层，得到的是38x38的512通道的特征图。

采用vgg网络通常是将大小进行减半，通道数进行翻倍的操作。300 150 75 38即为ssd网络的第一个预测特征层。

之后我们对maxpooling进行一个更改操作。变为3x3步幅为1是特征层的大小保持不变。

之后FC6和FC7替代的是vgg网络中的两个全连接层:首先是通过3x3的卷积核步距为2对其进行一个缩放处理得到的是19x19的一个特征输出，之后连接一个1x1的卷积核进行通道的融合，从而得到了第二个预测的特征。

后面的分析过程基本相同：按照图示来进行分析即可，最后会得到6个预测特征层4
即为1x1的256通道的预测特征层。

不同特征尺度上预测不同尺度的目标：在较小的特征层上检测较大的目标，在较大的特征层上检测较小的目标。

在这里插入图片描述

Default Box的scale以及aspect设定

在这里插入图片描述
论文中的原文提到了conv4_3 conv10_2和conv11_2我们只使用4个default box而其他的层使用的是默认的6个default box并且这4个default box会忽略掉1：3和3：1的两个比例。

不使用论文中的计算公式而采用:下面提供的比例和尺度信息。

在这里插入图片描述

下面的图表从总体上说明了各个特征图的Default Box的scale以及aspect

在这里插入图片描述
总共会生成：38x38x4 + 19x19x6 + 10x10x6 + 5x5x6 + 3x3x4 + 1x1x4 = 8732个Default Box

与ssd论文网络结构图中的8732个特征层相同。
也体现了之前学习的动手学深度学习中的多尺度锚框的思想，在特征图的每一个像素位置生成锚框。

在这里插入图片描述

图示即为在feature map1 feature map4中生成的锚框。

在这里插入图片描述

Predictor的实现

预测器的实现步骤

首先我们会采用（C+4)×k =cxk+4xk个卷积核来进行预测其中ck个是用来预测我们的类别分数。4k即为边界框回归参数。x y w h

注意是：c是包含背景类别的

在这里插入图片描述

损失函数计算

$g)=\frac{1}{N}\left(L_{c o n f}(x, c)+\alpha\right.$

损失的计算也主要包括两个部分组成，分别是类别损失和定位损失两个部分。

其中N为匹配到的正样本个数，α为1

类别损失的概率为：(相当于是一个softmax的损失)

$L_{\text {conf }}(x, c)=-\sum_{i \in \text { Pos }}^{N} x_{i j}^{p} \log \left(\hat{c}_{i}^{p}\right)-\sum_{i \in N e g} \log \left(\hat{c}_{i}^{0}\right) \quad \text { where } \quad \hat{c}_{i}^{p}=\frac{\exp \left(c_{i}^{p}\right)}{\sum_{p} \exp \left(c_{i}^{p}\right)}$

在这里插入图片描述
定位损失与FastRcnn相同，具体参考fastRcnn的部分进行补充学习。

$\begin{aligned} L_{l o c}(x, l, g) & =\sum_{i \in P o s}^{N} \sum_{m \in\{c x, c y, w, h\}} x_{i j}^{k} \operatorname{smooth}_{\mathrm{L} 1}\left(l_{i}^{m}-\hat{g}_{j}^{m}\right) \\ \hat{g}_{j}^{c x}=\left(g_{j}^{c x}-d_{i}^{c x}\right) / d_{i}^{w} & \hat{g}_{j}^{c y}=\left(g_{j}^{c y}-d_{i}^{c y}\right) / d_{i}^{h} \\ \hat{g}_{j}^{w}=\log \left(\frac{g_{j}^{w}}{d_{i}^{w}}\right) & \hat{g}_{j}^{h}=\log \left(\frac{g_{j}^{h}}{d_{i}^{h}}\right) \end{aligned}$

Faster R-CNN

FastR-CNN算法流程可分为3个步骤

一张图像生成1K~2K个候选区域（使用SelectiveSearch方法）
将图像输入网络得到相应的特征图，将SS算法生成的候选框投影到
特征图上获得相应的特征矩阵
将每个特征矩阵通过R0Ipooling层缩放到7x7大小的特征图，接着将
特征图展平通过一系列全连接层得到预测结果。

在这里插入图片描述

FasterR-CNN算法流程可分为3个步骤

将图像输入网络得到相应的特征图
使用RPN结构生成候选框，将RPN生成的候选框投影到特征图上获得相应的特征矩阵
将每个特征矩阵通过R0I pooling层缩放到7x7大小的特征图,接着将特征图展平通过一系列全连接层得到预测结果

RPN + Fast R-CNN

RPN替代SS算法分析

在这里插入图片描述

对于特征图上的每个3x3的滑动，窗口，计算出滑动窗口中心点对应
原始图像上的中心点，并计算出K个anchor boxes(注意和proposal的差异)。

4k：即为边界框的回归坐标参数。
2k: 即为k个锚框是背景和其他类别的概率信息。

根据原图和特征图的比例关系，确定特征图中的每个像素在原图中所对对应的位置信息。在以该点为中心计算出k个锚框。

在这里插入图片描述

尺度与比例的计算

三种尺度(面积){128x128,256x256,512x512}
三种比例{1:1, 1:2。2:1}

将尺度与比例进行融合：每个位置(每个滑动窗口)在原图上都对应有3x3=9anchor

在这里插入图片描述
对于一张1000x600x3的图像，大约有60x40x9(20k)个anchor，忽略跨越边界的anchor以后，剩下约6k个anchor。对于RPN生成的候选框之间存在大量重叠，基于候选框的cls得分，采用非极大值抑制，IoU设为0.7，这样每张图片只剩2k个候选框。

损失函数计算

损失函数的计算同样包括了边界框回归损失与分类损失。

$L\left(\left\{p_{i}\right\},\left\{t_{i}\right\}\right)=\frac{1}{N_{c l s}} \sum_{i} L_{c l s}\left(p_{i}, p_{i}^{*}\right)+\lambda \frac{1}{N_{\text {reg }}} \sum_{i} p_{i}^{*} L_{\text {reg }}\left(t_{i}, t_{j}^{*}\right)$

Ncls表示一个mini-batch中的所有样本数量256
Nreg表示anchor位置的个数(不是anchor个数)约2400

其中的回归损失的计算如下：

$\begin{array}{l} L_{\text {reg }}\left(t_{i}, t_{i}^{*}\right)=\sum_{i} \operatorname{smooth}_{L_{1}}\left(t_{i}-t_{i}^{*}\right) \\ t_{i}=\left[t_{x}, t_{y}, t_{w}, t_{h}\right] \quad t_{i}^{*}=\left[t_{x}^{*}, t_{y}^{*}, t_{w}^{*}, t_{h}^{*}\right] \end{array}$

ti表示预测第i个anchor的边界框回归参数
ti*表示第i个anchor对应的GTBox的回归参数

下面给出回归参数的计算公式：
$\begin{array}{l} t_{x}=\left(x-x_{a}\right) / w_{a}, t_{y}=\left(y-y_{a}\right) / h_{a}, \\ t_{w}=\log \left(w / w_{a}\right), t_{w}=\log \left(h / h_{a}\right), \\ t_{x}^{*}=\left(x^{*}-x_{a}\right) / w_{a}, t_{y}^{*}=\left(y^{*}-y_{a}\right) / h_{a}, \\ t_{w}^{*}=\log \left(w^{*} / w_{a}\right), t_{h}^{*}=\log \left(h^{*} / h_{a}\right) \end{array}$
带入smoothl1函数中得到最后的结果