SELAFUSE: SEARCH A LIGHTWEIGHT ARCHITECTURE FOR TARGET-AWARE INFRARED AND VISIBLE IMAGE FUSION
(SELAFUSE: 搜索轻量级架构以实现目标感知的红外和可见光图像融合)
尽管深度学习技术最近在红外和可见光图像融合方面表现出出色的性能,但高效地保留独特的目标仍然是一个具有挑战性的问题。在本文中,我们提出了一种 ** 基于神经体系结构搜索 (NAS)的轻量级体系结构** ,可以高效地实现IVIF任务。具体而言,我们构建了具有灵活的硬件敏感正则化约束的基于搜索的体系结构,可以有效地自动探索特征表示。此外,基于显着性的损失函数旨在保留不同的目标和纹理细节。受协作原理的激励,我们还在损失函数中制定了硬件约束,以发现有效的操作。结果,我们可以高效地生成目标不同的融合结果。
现有的深度学习方法一般采用相同的架构甚至相同的权重从多模态图像中提取特征,而不考虑模态之间的固有属性。此外,我们无法判断手动设计的体系结构中是否存在冗余,从而降低了网络速度。随着神经架构搜索 (NAS)的兴起,网络结构的设计逐渐从手工设计转变为算法搜索。考虑到NAS已成功用于低级计算机视觉任务,我们致力于为IVIF任务搜索有效的体系结构。
贡献
1)我们提出了一种基于原理的硬件敏感搜索策略,以构建轻量级体系结构,该体系结构可根据多模态图像进行自我调整。
2)我们为无监督学习制定了基于显着性的损失函数,以获得包含突出显示对象和丰富纹理细节的融合结果。
3)广泛的实验表明,与其他最先进的方法相比,我们的方法以更少的参数具有更高的效率和融合性能。
方法
Flexible fusion-specific architecture.
为了解决这些问题,我们采用了一种可区分的NAS算法来搜索IVIF任务的最佳架构。根据相关工作,预定义的网络级结构不仅可以缩小搜索空间,降低计算成本,而且可以提高网络的性能和效率。考虑到IVIF任务是一个低级的计算机视觉任务,我们预先定义了网络由三个相同的单元组成,如图1所示,它们是包含五个节点的非循环图。
在每个单元格中,后续节点与所有前面的节点连接。有向无环图最大化具有有限数量节点的单元格的搜索空间。此外,这些节点之间的连接表示混合操作,这是一种可区分的搜索策略,可将离散的搜索空间放宽为连续的搜索空间。混合操作是我们预先定义的几个候选操作的加权平均值。混合操作可以表述为:
请注意,None运算符表示两个节点之间没有连接,我们引入None运算符以使网络更加稀疏并减少结构冗余。
Hardware-sensitive search strategy.
为了搜索轻量级体系结构,我们在搜索过程中引入了对硬件敏感的正则化约束,这可以降低搜索到的体系结构的计算成本。在搜索阶段,我们正在解决一个二级优化问题,它可以表述为:
其中,α 表示三个小区的架构参数,ω 表示网络的权重,☆表示最优权重。此外,LVal和LTra分别表示基于验证集和训练集计算的损失。LLatency(α) 可以计算为:
其中 α 表示超级网络第i条边的权重,运算符LAT (·) 表示计算相应操作的延迟的过程。
Loss Function.
请注意,LLatency已在上面制定,这部分是关于LVal和LTra的定义。由于它们的计算过程是相同的,因此我们在下文中将其记为LFuse。融合损耗由两部分组成,定义如下:
其中我们使用Lmse来约束融合结果和源图像之间的强度差异,并用Lssim对其进行补充以约束对比度和结构的差异。Μ 用于权衡两个术语的影响。Lmse和Lssim公式化为:
SSIM (·) 表示计算结构相似性的过程。w1和w2是视觉注意图,通过以下公式计算:
其中SM(·) 表示计算显著性图的过程。在这里,我们使用softmax函数来放大两个显着性映射之间的差异。显著性图的计算公式为:
其中OnesI (·) 表示与源图像具有相同形状的矩阵,如果源图像在此位置的像素值等于i,则用1填充,否则为0。SalI (i) 表示特定像素值i的显著性,其计算公式为: