论文阅读（三十二）：EGNet: Edge Guidance Network for Salient Object Detection

news2025/7/13 0:42:10

文章目录

1.Introduction
2.Related Works
3.Salient Edge Guidance Network
- 3.1Complementary information modeling
- - 3.1.1Progressive salient object features extraction
  - 3.1.2Non-local salient edge features extraction
- 3.2One-to-one guidance module
4.Experiments
- 4.1Implementation Details
- 4.2Datasets and Evaluation Metric
- 4.3Ablation Experiments and Analyses

论文：EGNet: Edge Guidance Network for Salient Object Detection
论文链接：EGNet: Edge Guidance Network for Salient Object Detection
代码链接：Github

1.Introduction

常见用于显著性目标检测任务的深度学习方法大多存在边缘轮廓不清晰、显著性不能精确提取的问题，因此本文利用VGG网络的特性，即第二个池化层输出的特征图具有良好的边缘信息特征，而最后一层具有丰富的显著性特征，故将边缘信息特征与显著性特征进行像素级的融合，得到具有清晰轮廓的显著性目标。
总的来说，本文研究了显著边缘特征和显著目标特征之间的关系，并利用显著边缘特征来帮助显著目标特征更准确地定位显著对象，尤其是边界信息。贡献如下：

1.提出EGNet模型来建模显著目标信息和显著边缘信息，以保留显著目标的边界。
2.EGNet模型允许这两个互补的任务相互帮助来互相优化，从而改善了预测的显著性图。

2.Related Works

以往的工作往往专注于优化显著目标的细节信息，而没有充分利用显著边缘检测和显著目标检测之间的互补性。本研究计了两个模块来独立提取这两种特征，并将二者进行融合，使得显著的边缘信息不仅可以提高边缘的质量，而且可以使定位更加准确。

3.Salient Edge Guidance Network

在这里插入图片描述

3.1Complementary information modeling

EGNet使用VGG作为主干网络（截断了最后三个全连接层），得到了六个编码器 $C o n v 1 - 2 、 C o n v 2 - 2 、 C o n v 3 - 3 、 C o n v 4 - 3 、 C o n v 5 - 3 、 C o n v 6 - 3$ 的输出结果。其中 $C o n v 1 - 2$ 感受野较小被舍弃，将其余编码器输出记为：
在这里插入图片描述
其中， $C o n v 2 - 2$ 的输出 $C^{(2)}$ （低级特征）保留较多细节信息，因此从中提取边缘特征，从其他输出中提取显著目标信息。

3.1.1Progressive salient object features extraction

在这里插入图片描述
为获取丰富的上下文特征，在PSFEM（渐进式显著对象特征提取模块，Progressive Salient Object Features Extraction Module）模块中使用卷积层将编码器输入的特征图转换为单通道预测掩码，且每张特征图都通过深度监督帮助模型训练。
在这里插入图片描述
将六个编码器模块对应的侧路径记为 $S^{(i)},i∈\{1,2,3,4,5,6\}$ ，每条侧路径上都有 $C o n v$ 模块（对应上图中黄色的 $C o n v$ 模块），该模块中包含三个卷积层（ $T 1 、 T 2 、 T 3$ ），每个卷积层后都有 $R e LU$ 函数。这些 $C o n v$ 模块中的卷积层参数如上表所示，依次为卷积核大小、填充大小、卷积核个数。 $D$ 则是将多通道特征图转换为单通道显著性图的过渡卷积层。

3.1.2Non-local salient edge features extraction

在这里插入图片描述

NLSEM（非局部显著边缘特征提取模块）模块用于对显著边缘信息进行建模并提取显著边缘特征。由于编码器 $C o n v 2 - 2$ 中保存较多的边缘细节信息，因此选择从该编码器的输出中提取局部边缘信息。为此，需要先从深层特征图中获取显著对象的语义信息、位置信息，便于在浅层特征图中定位显著目标区域。若直接将深层特征图不断下采样至低层，则其包含的语义信息会被逐渐稀释。为此，本文设计了一个位置传播方式，用于将深层特征图包含的位置信息传播到侧路径 $S^{(2)}$ 中，使得浅层特征图更关注于显著区域边缘信息的提取。
融合后的特征图 $\overline{C}^{(2)}$ 表示为：
在这里插入图片描述

$\hat{F}^{(6)}$ ：经过 $C o n v$ 操作后的深层特征图。
$C^{(2)}$ ： $C o n v 2 - 2$ 编码器的输出。
$T r an s (*, θ)$ ：参数为 $θ$ 的卷积层，用于改变特征通道数。
$ϕ$ ：ReLU激活函数。
$U p ()$ ：上采样操作，通过双线性插值实现。

之后与其他侧路径相同，将 $\overline{C}^{(2)}$ 输入到包含三个卷积运算的 $C o n v$ 模块中增强特征，这些卷积的参数可参考上表。模型中添加了额外的显著边缘监督来监督显著边缘特征，使用了交叉熵损失函数：
在这里插入图片描述

3.2One-to-one guidance module

在这里插入图片描述
NLSEM模块获取了显著边缘特征（记为 $F_E$ ）、PSFEM模块获取了显著目标特征（对应路径 $S^{(i)},i∈\{3,4,5,6\}$ ，显著特征记为 $\hat{F}^{(i)}$ ）。若直接通过采样操作从上到下逐渐融合显著边缘特征和多分辨率显著目标特征，则显著目标特征会在采样过程中被稀释。为此提出一对一指导模块，利用显著边缘特征来指导显著目标特征在分割和定位方面表现更好。
具体做法为，在路径 $S^{(i)},i∈\{3,4,5,6\}$ 中增加了子路径，将显著边缘特征融合到增强后的显著目标特征中，得到显著边缘引导特征，记为 $G^{(i)}$ ：
在这里插入图片描述
之后与PSFEM模块一样，在每个子边路径中使用 $C o n v$ 增强显著边缘引导特征，并通过过渡卷积层将其转换为单通道的显著性图。
每个显著性图加入模型训练的深度监督：

最后将各尺度的显著性图融合，得到最终的显著性图。最终显著性图的损失函数为：
在这里插入图片描述
由此可得总的损失函数：

4.Experiments

4.1Implementation Details

模型包含以VGG、ResNet为骨干的两个版本，新增卷积层的权重均以截断正态随机初始化（ $σ = 0.01$ ），偏置初始化为0。学习率为 $5e^{-5}$ 、权重衰减为0.0005、动量为0.9、每条支路生成的显著性图对应权重为1、轮次为124，且每15轮后将学习率除以10。在推理过程中，可以得到一张预测的显著边缘图和一组显著性目标图，使用融合后的显著性目标图作为最终的显著性图。