Infrared and visible image fusion via parallel scene and texture learning
(基于并行场景和纹理学习的红外与可见光图像融合)
本文提出了一种基于并行场景和纹理学习的红外和可见光图像融合方法。我们的主要目标是部署深度神经网络的两个分支,即内容分支和细节分支,从源图像中同步提取不同的特征,然后重构融合图像。内容分支主要关注coarse-grained信息,用于估计源图像的全局内容。细节分支主要关注图像的fine-grained信息,设计了一种全方位空间变异递归神经网络,更准确地对源图像的内部结构进行建模,并以显式的方式提取纹理相关特征。
由于硬件设备的理论和技术限制,从单一模态传感器或在单一拍摄设置下获得的信息不能有效和全面地描述成像场景。因此,出现了图像融合技术,其目的是联合收割机由多模式传感器或在不同拍摄设置下捕获的互补信息。在图像融合技术中,红外和可见光图像融合可能是应用最广泛的。可见光图像通过捕捉反射光,包含丰富的纹理细节信息,符合人眼观察规律,但容易受到各种环境的影响而失去目标。相反,红外图像主要检测热辐射信息。它们的特点是高对比度,可以有效地区分背景和突出目标,同时它们受到甚至恶劣环境的影响非常小。然而,大多数红外图像包含的纹理细节很少,而可见光图像丢失了显著目标的像素强度信息。因此,红外图像和可见光图像的互补性为我们提供了将这两种特征结合起来的可能性,以达到目标突出和纹理细节丰富的预期效果。此外,红外与可见光图像融合由于其融合结果的优异性能,在目标检测、行人再识别、跟踪、语义分割等高级视觉领域得到了广泛的应用
在过去的几十年中,已经提出了大量的融合算法,包括传统的融合方法和基于深度学习的方法。传统的图像融合方法主要是利用相关的数学变换将源图像变换到变换域,然后在变换域进行活性水平测量或人工设计融合策略来实现图像融合。传统方法的大多数融合过程可以总结如下。首先利用特定的变换对源图像进行特征提取,然后根据特征的特点设计特定的融合策略,最后通过相应的逆变换重构融合图像。Xing等人利用泰勒展开理论对源图像进行分解,设计了一种基于卷积稀疏表示和梯度惩罚的融合规则虽然传统的融合方法进行了比较令人满意的性能,在多数情况下,存在一些缺点和瓶颈。一方面,手工设计和测量活动水平越来越复杂的追求优越的融合性能不能满足实时计算机视觉任务的要求。另一方面,传统的特征提取方法通常利用均匀变换对源图像进行特征提取,没有考虑红外和可见光图像的固有特性。
近年来,随着深度学习的迅速发展,神经网络强有力的非线性拟合能力和突出的特征提取能力推动了图像融合技术的巨大进步。当前基于深度学习的融合方法可以归纳为三类,即基于自动编码器(AE)的方法、基于端到端卷积神经网络(CNN)的方法和基于生成对抗网络(GAN)的方法。对于基于AE的融合方法,首先在大规模图像数据集上训练自动编码器,以获得令人信服的特征提取和图像重建能力。随后,利用经过良好训练的自动编码器从源图像中提取互补信息,然后通过一些特定的融合规则(例如逐元素求和和级联)进行合并。最后,通过自动编码器从融合后的特征重构融合图像。然而,由于手工制定的融合规则,例如元素加权求和和元素最大值,整个基于AE的融合框架不是完全可学习的。因此,其他研究者试图探索端到端融合框架来避免这一缺点。首先构建网络框架,设计特定的损失函数来指导网络的训练,而不需要人工设计融合规则。基于神经网络的图像特征提取和图像重建框架可以实现端到端的隐式特征提取和图像重建。考虑到红外与可见光图像融合缺乏真实感,一些研究进一步将图像融合看作融合图像与源图像之间的对抗博弈。具体地说,基于GAN的融合方法通过限制灰度和纹理细节的概率分布,使融合图像与源图像保持一致。
尽管基于深度学习方法产生令人满意的融合性能,仍有一些障碍,应该被征服。一般来说,现有的基于深度学习方法依赖于神经网络的令人信服的能力从源图像中提取深度特性。然而,他们通常在一个隐式的方式提取深度特性。大多数基于深度学习融合方法不能保证提取的特征可以准确模型源图像的内部结构。大多数基于深度学习的融合方法不能保证提取的特征能够准确地描述源图像的内部结构。因此,在特征提取过程中,会丢失一些细节信息,如边缘、纹理等。为了赋予提取的特征图更明确的物理意义,Zhang等人将统一图像融合建模为梯度和强度的比例保持(PMGI),其设计强度路径和梯度路径以分别保持强度和梯度信息。然而,由于约束条件不充分,梯度路径无法提取出具有丰富纹理信息的合适特征。我们将从图1中的梯度路径提取的特征图可视化,以直观地演示这一缺点。注意,通过PMGI的梯度路径提取的特征与普通特征没有显著差异,并且PMGI的融合结果丢失了一些细节信息。
针对上述问题,提出了一种基于并行场景和纹理学习的图像融合框架,实现了粗粒度和细粒度信息的并行保存。首先,将该框架划分为两个并行的深度神经网络分支,即内容分支和细节分支,并行编码全局信息和建模源图像的内部结构。其次,针对大多数基于深度学习的融合方法中隐式特征提取的问题,在细节分支中提出了全向空间变体递归神经网络(RNN),用于从源图像中显式提取纹理相关特征。在内容分支、细节分支之间以及内容分支和细节分支之间引入跳跃连接,弥补了特征提取过程中的信息丢失。从图1中可以观察到由细节分支和PMGI的梯度路径提取的特征之间的差异。细节分支提取的特征包含了许多显著的纹理细节,有利于提高融合图像的纹理细节和融合结果的视觉效果。
贡献
1)提出了一种基于并行场景和纹理学习的红外与可见光图像融合框架,该框架能够同时关注粗粒度和细粒度信息。
2)该方法将全方向空间变体的RNN引入到细节分支中,以明确的方式对源图像的内部结构进行建模,从而保证融合结果具有锐化的边缘和丰富的纹理细节。据我们所知,这是第一次将递归神经网络引入红外与可见光图像融合领域。
3)大量的实验表明,与现有的算法相比,该算法具有更好的性能。与其他同类算法相比,该算法能够生成纹理细节丰富、边缘锐化、目标突出的融合结果。此外,该方法还可以获得相对较少的运行时间消耗。
相关工作
Deep learning-based fusion methods
基于AE的融合方法。由于自动编码器可以通过无监督的方式学习输入数据的有效表示的特性,基于AE的方法非常适合于图像融合。大多数基于AE的融合方法首先在大量高质量图像上对自动编码器进行预训练,以实现特征提取和图像重建。然后,通过人工设计的融合策略进行特征的融合。例如,Li等人创新性地利用了具有密集块的自动编码器结构,其中采用两种传统融合策略来合并融合层中的特征,称为DenseFuse。通过引入稠密连接,使编码网络的特征映射包含更多细节,从而得到保留更多信息的融合结果。近年来,一种基于嵌套连接的网络被提出,它可以从多尺度的角度保留大量的输入信息。它以信息化的方式提出了空间注意力和通道模型作为融合策略,以描述每个空间位置和每个具有深度特征的通道的重要性。
端到端基于CNN的融合方法。针对人工规则的缺点和复杂性,提出了多种基于神经网络的端到端图像融合框架。基于神经网络的方法充分利用了神经网络强大的特征表示能力。Zhang等人提出了一个典型的端到端统一框架,称为IFCNN ,以解决不同的融合任务。利用两个卷积层提取源图像的显著特征,并选择合适的融合策略对深层特征进行融合。最后,通过两个附加的卷积层对融合后的特征进行融合,生成融合图像。该框架的优点在于,所提出的网络只需要在一种类型的图像数据集上训练,然后根据源图像的类型选择合适的融合策略。此外,Zhang等人提出了基于梯度和强度路径的端到端框架。具体而言,为不同的融合任务设计了一个通用损失函数,并调整了权重。为了解决各种图像融合任务中的通用性障碍块,Xu等提出了一种参数统一的单一模型和弹性权重合并算法,可应用于不同的图像融合任务。此外,考虑到图像融合中缺乏地面真实信息,Ma等人在损失函数中利用显著性掩模来引导网络检测红外图像中的显著性目标,并与可见光图像背景中丰富的纹理细节进行融合。
基于GAN的融合方法。生成对抗网络具有很强的无监督估计概率分布的能力,是无监督图像融合的理想方法。Ma等人首先将GAN引入到图像融合领域,并提出了一种新的基于GAN的框架,称为FusionGAN,它可以在没有监督信息的情况下保留重要特征。在FusionGAN的基础上,引入细节损失和目标边缘增强损失,进一步增强融合图像的纹理细节。然而,单一的对抗性鉴别器容易导致不平衡的融合。为了改善这一缺点,Xu等人提出了双鉴别器条件GAN 来实现图像融合,它增加了一个红外鉴别器来区分融合图像和红外图像之间的差异。注意机制已经被采用到图像处理社区中,例如显著性检测、语义分割和图像恢复。为此,AttentionFGAN将多尺度注意机制集成到基于GAN的图像融合框架中,这有助于生成器将注意力集中在前景目标和背景细节上。
Recurrent neural network(RNN)
递归神经网络(RNN) 在人工神经网络中占有重要地位。通常,RNN被用于分析序列数据或时间序列数据。RNN是前向神经网络和卷积神经网络的衍生,它可以从先验输入中获取信息,影响当前的输入和输出,这使得它们可以应用于顺序或时间问题,如语音识别和图像字幕。RNN现在用于许多计算机视觉任务。Wang等人将RNN引入到多标签图像分类中,以明确利用图像中的标签依赖性。而在对象检测领域,递归连接被并入每个卷积层,这大大增强了整合框架的上下文信息的能力,这对于对象识别具有重要意义。然而,RNN在计算机视觉领域的应用也存在不足。标准RNN使用不变权重矩阵,其不能直接应用于具有空间变化的结构变化的图像。为了解决上述挑战,Liu等人通过采用基于输入图像结构的权重图提出了空间变化RNN。权重图与揭示重要内部结构(例如,显著边缘)和纹理细节的图形表示相关联。空间变量RNN用于将先前隐藏的状态q [ n − 1]转换为当前状态q [ n ],输入像素信息x [ n ]位于位置n。具体地,一维RNN中的空间传递关系可以用公式表示如下:
其中w [ n ]是平衡x [ n ]和q [ n ]之间的贡献的加权系数,算子◦表示元素式乘法。空间变体的RNN揭示了CNN黑盒模型,并表示了图像的内部结构。因此,空间变化的RNN被许多计算机视觉研究所采用。
本文提出了一种基于内容分支和细节分支的高效图像融合框架。内容分支倾向于编码全局信息并保留源图像的大部分场景信息。此外,我们在细节分支中引入空间变体的RNN,以更精确地建模源图像的内部结构,并以明确的方式提取纹理相关特征。两种融合策略然后用来整合互补信息的功能水平。最后,融合图像和丰富的纹理细节和重要的目标是重建的合并深特性。
方法
Problem formulation
我们提出的方法的融合过程的总体框架如图2所示。
如图2所示,利用内容分支提取红外和可见光图像的场景相关特征,表示为:
内容分支负责对全局内容进行编码并保留源图像的场景信息。同时,我们设计了一个细节分支来加强结构信息的表达。具体地说,使用具有空间变体RNN的细节分支来更精确地建模源图像的内部结构,并以显式方式提取纹理相关特征。此外,输入图像与其对应的梯度图的级联被作为细节分支的输入,以保留来自源图像的更多信息,其描述如下:
值得注意的是,我们利用修正的空间变体RNN模型来实现上述函数,该函数不同于Eq.(1)。修改的空间变化RNN模型的定义如下:
如Eq.(4)引入两个独立的加权映射W和H。在这些情况下,当前图像像素信息x [ n ]和先前隐藏状态q [ n − 1]可以被更灵活地调整。当h [ n ]接近零时,从q [ n − 1]到q [ n ]的传播被截断,并且仅考虑当前像素信息x [ n ]。此外,当h [ n ]得到较大的值时,它保持从q [ n − 1]到q [ n ]的传播,因此倾向于选择纹理特征。
本文引入了一种类似于内容分支的编码器-解码器架构,以基于输入生成独立的权重映射w和h。由于该网络和内容分支之间的类似属性和特征表示,图3中示出了到内容分支的一些跳过连接。
此外,通过由多个Resblock组成的网络,从输入中提取深度特征x。一维空间变体RNN将生成的权重图w和h与深度特征x集成,以递归地产生隐藏图,如图3右上方所示。此外,为了更好地模拟源图像的内部结构,我们考虑全向空间变体RNN从四个不同的方向扫描输入。从左到右和从右到左,每行输入被视为一个序列。例如,如果我们把输入的一个像素看作x [ n ],那么从左到右,它左边的像素是x [ n − 1],而从右到左,它右边的像素是x [ n − 1]。同样,对于另外两个方向:从上到下和从下到上,每一列输入被视为一个序列。从图3中,我们可以看到全向空间变体RNN是如何工作的。因此,生成四个不同的隐藏图以学习不同的纹理相关特征。然后,我们通过选择最优方向来集成这些特征图,其中每个位置处的响应最大。这里,最大池用于选择所需纹理信息传播的方向。最后,提取纹理相关特征。
在特征提取之后,我们分别采用元素最大化和加法策略合并场景相关的特征图和纹理相关的特征图。在内容分支,m∈{1,2,…M}和M = 16个代表scene-related特性的数字地图。{ Φ 1 Φ^1 Φ1Sir。 Φ M Φ^M ΦMSir}和{ Φ 1 Φ^1 Φ1Svi,。 Φ M Φ^M ΦMSvi}分别表示红外和可见scene-related特性。最大的策略制定如下:
在细节分支中,k ∈ { 1,2,.。。,K},K = 16表示纹理相关特征图的数量。{
Φ
1
Φ^1
Φ1Tir,…,
Φ
K
Φ^K
ΦKTir }和{
Φ
1
Φ^1
Φ1Tvi,…,
Φ
K
Φ^K
ΦKTvi }分别表示与红外和可见光纹理相关的特征图。细节分支用于捕获高频响应并明确保留纹理细节。因此,为了尽可能多地保留高频信息,我们采用了一种添加策略来集成纹理相关特征。添加策略定义如下:
其中ΦT是细节分支的融合特征,称为纹理相关特征。场景相关特征ΦS和纹理相关特征ΦT在通道维度中如下连接:
最后,使用图像重建单元Fr(·)来充分整合场景相关信息和纹理相关信息,并从合并的特征图Φf生成融合图像If:
Loss functions
我们定义了两种损失,强度损失和细节损失。强度损失主要限制重建图像的像素强度分布与源图像一致。而细节损失则促使重建图像包含更多的纹理细节。因此,我们最小化总损耗L以训练我们的自动编码器网络,定义如下:
其中λ1和λ2是平衡强度损失Lint和细节损失Ldet的权重。一方面,重建图像被约束为具有与输入图像相似的像素强度分布。强度损失Lint计算如下:
其中O和I分别是输出和输入图像。H和W表示输入和输出图像的高度和宽度,以及
||·||1代表L1 范数。该损失计算输出O和输入I之间的绝对距离。
另一方面,利用细节损失来增强约束,从而使重建图像具有丰富的纹理和锐化的边缘。类似地,细节损失Ldet定义如下:
Network structure
如图3所示,我们的网络结构包含三个部分,即内容分支、细节分支和图像重建单元。
Content branch
基于CNN构建内容分支。如图3所示,考虑到在DenseFuse和STDFusionNet中采用的编码器-解码器架构的功效,内容分支通过一些特定设计构建在残差块的顶部。
在内容分支中,编码器和解码器都包含三个块。每个块包含两个卷积层,每个卷积层的核大小为3 × 3,编码器中的第一层除外。为了扩大感知域,编码器中第一层的核大小为5 × 5。所有卷积层都具有泄漏整流线性单元(LeakyReLU)激活层。为了弥补在下采样和上采样操作中的信息丢失,我们在编码器和解码器之间引入了跳跃连接。更重要的是,细节分支中的去卷积模块的特征映射与内容分支中的那些特征映射级联在一起,以在上采样阶段期间保留更多细节。
Detail branch
细节分支也是在CNN的基础上构造的。我们采用与内容分支相同的编码器-解码器体系结构,具有附加的跳跃连接以生成权重映射w和h。该体系结构包含与内容分支类似的属性,并且它们以相应的尺度表示它们的特征映射,这使得到内容分支的跳跃连接更加合理,如图3所示。
此外,为了缓解梯度消失或爆炸的问题,引入了Resblock。Resblock的详细结构如图3右下角所示。
每个Resblock包含三个模块,称为M1、M2和M3。每个模块都有一个卷积层,除了M2外,其核大小为1 × 1,其核大小为3 × 3。LeakyReLU在M1和M2中作为激活函数应用。此外,设计了一个跳连接映射层,克服了Resblock输入输出维数不一致的问题,其核大小也为1 × 1。最后,将M3的输出和跳跃连接映射层相加,然后执行LeakyReLU激活函数,以获得Resblock的输出。该算法引入了核大小为3 × 3的卷积层和3个Resblocks来获取输入的深度特征。在细节分支中,我们利用具有学习的权重图w和h的深度特征x,以基于Eq.(4)获得纹理相关的特征图。
Image reconstruction unit
在从输入中提取出场景相关特征和纹理相关特征后,采用元素最大化和加法策略对这些特征进行整合,然后将两类特征进行级联。最后,我们部署了两个额外的卷积层来充分科普场景相关和纹理相关的信息,并获得融合图像。每个卷积层的核大小为3 × 3,步长为1。第一层使用LeakyReLU作为激活函数,而第二层的激活函数是Tanh。