文章目录
- Abstract
- 1.Introduction
- 2.Scale Variation
- Proposed Method
- 3.1Network Overview
- 3.2Aggregate Interaction Module
- 3.3 Self-Interaction Module
- 3.4Consistency-Enhanced Loss
- 4.Experiments
- 4.1Implementation Details
- 4.2 Comparison with State-of-the-arts
- 4.3Ablation Study
论文:Multi-scale Interactive Network for Salient Object Detection(用于显著性目标检测的多尺度交互网络)
论文链接:Multi-scale Interactive Network for Salient Object Detection
代码链接:Github
Abstract
本文提出了聚合交互模块来整合来自相邻水平的特征,其中由于只使用小的上/下采样率,引入了较少的噪声。为了从集成特征中获得更高效的多尺度特征,在每个解码器单元中嵌入自交互模块。此外,尺度变化引起的类不平衡问题削弱了二元交叉熵损失的效果,导致预测结果的空间不一致。因此,本文利用一致性增强的损失来突出前/背景差异并保持类内一致性。
1.Introduction
上图中,绿色块、橙色块和灰色块分别表示编码器、传输层和解码器中不同的卷积块。左列表示常见的编码器与传输层之间的连接模式;右列表示传输层和解码器之间的连接模式。
本文提出了一种聚合交互策略(Aggregate Interaction Strategy,AIM)以更好地利用多层次特征,避免不同分辨率特征图之间的差异对特征融合造成干扰,并有效整合来自相邻分辨率的上下文信息。
模型结构采用架构(h),本文的主要贡献如下:
- 1.提出多尺度交互模块(MINet,Multi-scale Interactive Network)用于显著性目标检测任务,其包含的聚合交互模块(Aggregate Interaction Module,AIM)通过相互学习的方式有效地利用相邻层的特征,自交互模块(Self-Interaction Module,SIM)使网络能够自适应地从数据中提取多尺度信息,更好地处理尺度变化。
- 2.提出一致性增强的损失函数用于模型训练,帮助模型均匀突出整个显著区域,更好地处理由于物体的不同尺度导致的前后区域像素不平衡问题,且无需任何后处理或额外的参数。
2.Scale Variation
尺度变化是显著性目标检测任务的主要难题之一。一方面,嵌入在不同分辨率特征中的物体信息量随着物体尺度的变化而变化,另一方面,每个卷积层只具有处理特定规模的能力。因此,本研究通过构建多路径特征提取结构,从单层对多尺度信息进行表征。
- Multi-level Information(多层次信息):由于相邻编码器提取的特征抽象程度相近,因此MINet模型只融合相邻层的特征,以获得丰富的尺度信息。
- Multi-scale Information(多尺度信息):本文提出了一个由两个分支交互学习特征的多尺度处理模块,可以学习到丰富的多尺度信息。此外,过大和过小的对象会导致前景和背景样本之间的不平衡,从而削弱像素级监督的效果。本研究中引入一致性增强损失(CEL)作为交叉熵损失的辅助,其对物体的大小不敏感,而更关注预测的整体效果,有助于获得更均匀的显著性结果。
Proposed Method
3.1Network Overview
网络结构如上图所示。模型以大小为
(
320
,
320
,
3
)
(320,320,3)
(320,320,3)的RGB图像作为输入,处理流程为:
- 1.以预训练的VGG-16或ResNet-50的特征图提取网络作为编码器来提取多层次特征和抽象。
- 2.使用 A I M s ( { A I M i } i = 0 4 ) AIMs(\{AIM^i\}^4_{i=0}) AIMs({AIMi}i=04)对编码器提取的特征进行集成,并以相邻层的特征作为输入,为当前分支提供相关的补充。
- 3.使用 S I M s ( { S I M i } i = 0 4 ) SIMs(\{SIM^i\}^4_{i=0}) SIMs({SIMi}i=04)和融合单元(FU,Fusion Unit)将输出的特征进行组合,并在真实掩模的监督下生成最终预测。
后续内容均以VGG-16作为网络主干。
3.2Aggregate Interaction Module
特征提取网络中,不同层次的卷积层对应着不同程度的特征抽象。多层次集成可以增强不同分辨率特征的表示能力。
- 浅层特征:可以进一步加强细节信息,抑制噪声。
- 中间层特征:同时考虑了语义信息和细节信息,可以根据网络本身的需要自适应调整不同抽象信息在特征中的比例,从而实现更灵活的特征利用。
- 深层特征:可以挖掘更丰富的语义信息。
聚合交互模块(AIM,Aggregate Interaction Module)通过交互式学习策略来聚合特征。设第
i
i
i个AIM模块为
A
I
M
i
AIM_i
AIMi,其输入是来自编码器提取的特征
f
e
i
−
1
、
f
e
i
、
f
e
i
+
1
f_{e}^{i-1}、f_{e}^{i}、f_{e}^{i+1}
fei−1、fei、fei+1。
上图依次展示了模型中的三种
A
I
M
AIM
AIM模块结构,其中,
(
a
)
(a)
(a)代表
A
I
M
0
AIM_0
AIM0,
(
b
)
(b)
(b)代表
A
I
M
k
,
k
∈
{
1
,
2
,
3
}
AIM_k,k∈\{1,2,3\}
AIMk,k∈{1,2,3},
(
a
)
(a)
(a)代表
A
I
M
4
AIM_4
AIM4。
经过卷积+BN+ReLU处理后,来自编码器的输出分为本地分支(
B
1
B^1
B1)与辅助分支(
B
0
、
B
2
B^0、B^2
B0、B2)。通过池化、邻域插值和卷积操作对
B
0
、
B
2
B^0、B^2
B0、B2分支进行调整,并通过逐元加法将它们合并到
B
1
B^1
B1分支中,之后通过卷积操作实现特征融合并减少通道数,再通过残差连接得到最终的输出。整个流程如下:
3.3 Self-Interaction Module
自交互模块(SIM,Self-Interaction Module)和融合单元将输出的特征进行组合,并在真实掩模的监督下生成最终预测。SIM模块结构图:
首先通过卷积层降低输入特征的分辨率和通道数,在每个分支中,SIM模块都会对低分辨率特征进行上采样、对高分辨率特征进行下采样,使其与其他分支的特征具有相同的分辨率。不同分辨率、通道数特征的交互操作可获得大量的不同尺度的知识,并以较低的参数量化来主要保持高分辨率信息。此外还采用了残差连接。在经过上采样、归一化和非线性处理后,采用融合单元(FU)对SIM和残差支路的双路径进行处理,将SIM集成到解码器中,使得网络在训练阶段能够自适应地处理不同样本的尺度变化。计算公式如下:
其中,
f
S
I
M
i
f^i_{SIM}
fSIMi表示
S
I
M
i
SIM_i
SIMi模块的输出,
M
(
⋅
)
M(·)
M(⋅)表示分支合并,
B
S
I
M
i
,
j
B^{i,j}_{SIM}
BSIMi,j表示
S
I
M
i
SIM_i
SIMi的第
j
j
j个分支
B
j
B^j
Bj。输入特征
f
a
d
d
i
f^i_{add}
faddi计算如下:
U
i
+
1
(
⋅
)
U^{i+1}(·)
Ui+1(⋅)和
F
i
+
1
(
⋅
)
F^{i+1}(·)
Fi+1(⋅)表示表示自顶向下路径中的第
i
+
1
i+1
i+1个上采样操作和融合单元。
3.4Consistency-Enhanced Loss
本文提出一致性增强损失(CEL)辅助模型训练:
其中,
P
∈
R
N
×
H
×
W
×
1
P∈R^{N×H×W×1}
P∈RN×H×W×1表示一批次数据中的N张显著性图(
N
=
b
a
t
c
h
_
s
i
z
e
N=batch\_size
N=batch_size),
S
i
g
m
o
i
d
(
C
o
n
v
(
⋅
)
)
Sigmoid(Conv(·))
Sigmoid(Conv(⋅))表示解码器中具有非线性激活函数的最后一个卷积层。二进制交叉熵损失(BCEL)函数计算公式如下:
其中,
G
∈
{
0
,
1
}
N
×
H
×
W
×
1
G∈\{0,1\}^{N×H×W×1}
G∈{0,1}N×H×W×1表示真实掩模。
4.Experiments
4.1Implementation Details
模型采用DUTS-TR数据集作训练数据集,在训练阶段,随机水平翻转、随机旋转和随机颜色抖动作为数据增强技术来避免过度拟合问题。以 b a t c h _ s i z e = 4 batch\_size=4 batch_size=4训练了50个epoch,编码器(即VGG-16和ResNet-50)使用在ImageNet数据集上预训练的相应模型初始化,其余参数由PyTorch的默认设置初始化。使用SGD优化器,其权重衰减为5e-4,初始学习率为1e-3,动量为0.9。此外,采用了一个系数为0.9的ploy学习率调整策略,图像输入尺寸为 320 × 320 × 3 320 × 320×3 320×320×3。
4.2 Comparison with State-of-the-arts
上表列出了含有六个指标的详细实验结果。使用红、绿、蓝依次表示性能前三名。
上图列出了一些有代表性的例子。
4.3Ablation Study
- Effectiveness of the AIMs and SIMs
使用类似FPN的网络架构作为基准模型,其使用横向连接将最浅层的通道数减少到32,其他层减少到64。可见,两个模块都在基线上实现了显著的性能改进。
从可视化结果可见,由于交互式特征学习可以捕获更丰富的多尺度上下文信息,因此AIMs和SIMs可以有效地抑制背景干扰并完全分割显著目标。