1.摘要
本文提出了一种基于保留细节的对抗学习的红外和可见光图像融合的端到端模型。它能够克服传统融合方法中基于活动级别测量和融合规则的手动和复杂设计的局限性。考虑到红外和可见光图像的特定信息,我们设计了两个损失函数,包括细节损失和目标边缘增强损失,以提高细节信息的质量并锐化红外目标的边缘,这在生成对抗网络的框架下实现。
2.引言
FusionGAN也是这篇文章作者之前的工作,但是FusionGAN仅仅是依靠对抗训练来增加额外的细节信息,这是不稳定和不确定的,导致大量的细节信息的丢失,另一方面,FusionGAN的内容损失只重视可见光图像中的边缘信息,而忽略了红外图像中的边缘信息,融合结果中的目标边缘往往比较模糊。为了克服这两个挑战,本文设计了两个损失函数,即,细节损失和目标边缘增强损失,提高红外目标的细节信息质量,锐化红外目标的边缘。
为了进行定性比较,除了FusionGAN之外,我们还考虑了各向异性扩散融合(ADF),这是一种最近引入的基于传统策略的红外和可见光图像融合方法。ADF,FusionGAN和我们的方法的融合结果如图1所示。显然,ADF仅保留了源图像中的纹理信息,但丢失了热辐射信息,这导致融合图像中的低对比度目标。FusionGAN和我们的方法都可以保留热辐射分布和纹理细节。然而,我们的结果中的目标边界比FusionGAN的结果更清晰,并且我们的结果中的树更详细。
- 首先,FusionGAN的融合结果趋于平滑和模糊,这是通过优化𝓁2范数的常见问题。针对这一问题,本文提出了细节损失的概念,以约束融合结果与可见光图像在语义层次上更加相似,这样既能使融合结果更加清晰,又能保留更多有用的细节信息。
- 第二,FusionGAN被设计为保留红外图像的辐射信息,忽略了纹理可以反映的细节信息(例如显著物体的边缘)为了解决这个问题,我们设计的目标边缘增强损失,以进一步优化目标的纹理,从而导致在融合结果中的目标更清晰的表示。与FusionGAN相比,细节损失和目标边缘增强损失在很大程度上保留了源图像中的有用信息。
- 第三,我们深化了GAN框架中的生成器和鉴别器。深度网络具有更强的特征表示能力,具有更强的优化损失函数的能力,从而提高了融合结果的性能。
- 第四,我们在两个公开的数据集上提供了我们的方法和九种最先进的方法之间的定性和定量比较。我们的方法可以生成具有清晰突出和边缘锐化的目标以及更多纹理的融合图像。
3.相关工作
融合方法可以分为七类,如表1所示。
-
第一类多尺度变换方法是最常用于融合的方法,它假设源图像可以分解为多个层级。通过根据特定的融合规则融合这些层级,可以得到最终的目标融合图像。用于分解和重构的最流行的变换包括小波变换、金字塔变换、曲波变换及其变种。
-
第二类是基于稀疏表示的方法。已经发现图像可以用过完备字典中的稀疏基的线性组合来表示,这是确保这种方法性能良好的关键因素。
-
第三类是基于神经网络的方法,它们具有适应性强、容错能力强和抗噪声能力强的优点,并且在处理神经信息时可以模拟人脑的知觉行为系统。
-
第四类是基于子空间的方法,旨在将高维输入图像投影到低维子空间中。鉴于图像中经常存在冗余信息,低维子空间可以帮助捕捉原始图像的内在结构。
-
第五类是基于显著性的方法。人类的视觉注意往往会捕捉到比其邻居更重要的对象或像素。在这个类别的方法中,突出显示具有显著对象的区域的强度,从而提高融合图像的视觉质量。
-
第六类是混合方法,即同时利用多种融合策略来实现更好的效果。
-
第七类是基于深度学习的方法,近年来在图像融合领域取得了显著的进展。这些方法通过神经网络的学习和优化,能够实现高质量的图像融合效果。
传统的像素级损失函数,如均方误差(MSE),在图像生成中被广泛使用。然而,这种损失函数通常会使生成的结果过于平滑,导致感知图像质量较差。近年来,越来越多的研究人员在图像风格转换和图像超分辨率等问题中使用感知损失来解决这些问题。==感知损失通常用于比较从卷积网络中提取的高层特征,而不是直接比较像素本身。==对比了从神经网络中提取的特征,结果表明,这种损失可以解决由非线性表示引起的不适定逆问题。用预训练的VGG网络提取的特征之间的欧氏距离替代了低层像素级的误差度量。采用感知损失,进而生成了更优秀的图像。受到使用感知损失的优势的启发,我们在我们的损失函数中引入了一个细节项来提升融合性能。然而,与通常通过预训练的VGG网络计算的感知损失不同,我们在研究中使用判别器作为特征提取器来计算细节损失。
4.方法
4.1. Motivation
给定一对红外图像和可见光图像,我们的目标是融合这两种图像类型,并构建一个保留红外图像中目标显著性和可见光图像中丰富细节信息的融合图像。使用卷积神经网络(CNN)来生成融合图像可以克服手动设计活动水平测量和融合规则的困难。然而,这种方法存在两个挑战:
-
一方面,在深度学习领域,训练一个优秀的网络需要大量带标签的数据。换句话说,在CNN训练过程中,需要ground truth进行监督。然而,在图像融合问题中,真正的融合图像并不存在。为了解决这个问题,我们将融合问题转化为回归问题,其中需要一个损失函数来指导回归过程。鉴于我们的融合目的,GTF的目标函数是一个很好的选择,它旨在保留红外辐射信息和可见光纹理细节。
-
另一方面,GTF中的细节信息仅表示为梯度变化,这意味着其他重要的细节信息,如对比度和饱和度,被忽略了。然而,这种细节信息通常无法用数学模型来描述。
注:GTF是指"Guided Total Variation",它是一种图像融合方法。在图像融合中,GTF的目标是通过最小化总变差来平衡融合图像的平滑性和细节保留性。总变差是图像中像素值的变化的绝对值之和。GTF方法通过引导总变差项,结合其他约束条件,实现对融合图像的控制,以达到更好的融合效果。
受到最近关于风格转移的研究启发,建立生成器和判别器之间的最小最大博弈的GAN可能是一个更好的解决方案。我们首先通过使用生成器解决GTF中的目标函数来生成一个类似于GTF结果的融合图像。然后将包含可见光图像的结果发送给判别器,判断该图像是否来自源数据。通过建立生成器和判别器之间的对抗性,当判别器无法区分融合图像和可见光图像时,我们就假设我们的融合图像包含足够的细节信息。通过使用这种方法,细节信息是由神经网络自动表示和选择的,而不是手动设计的规则。此外,我们的损失函数除了对抗损失之外,还包含了额外的细节损失和目标边缘增强损失。这些项目使得我们的模型在对抗过程中保持稳定,并具有非常有希望的融合性能。
我们方法的框架如图2所示。在训练阶段,我们首先将红外图像
I
r
I_r
Ir和可见光图像
I
v
I_v
Iv在通道维度上堆叠,然后将堆叠后的图像输入到生成器G中,类似于ResNet中的操作。在损失函数的指导下,我们可以从G中获得原始融合图像
I
f
I_f
If。随后,我们将
I
f
I_f
If与
I
v
I_v
Iv一起输入到鉴别器D中,其结构类似于VGG-Net,以判断哪个样本来自源数据。以上训练过程会重复进行,直到D无法区分融合图像和可见光图像为止。最终,我们获得了具有突出显示和锐化边缘目标以及更丰富纹理的生成器G。
疑问:直到D无法区分融合图像和可见光图像为止,那么红外图像的信息怎么办
答:鉴别器只对融合图像和可见光图像进行对抗训练,并没有直接对红外图像进行训练。然而,在这个方法中,红外图像的特征是通过与可见光图像一起输入到生成器中来融合到最终的融合图像中的。因此,通过对融合图像和可见光图像进行对抗训练,可以使生成器学习如何将两种类型的信息结合起来以产生最佳的融合结果。虽然鉴别器没有直接对红外图像进行训练,但是通过与可见光图像一起输入到生成器中,红外图像的特征仍然被考虑在内,并且可以影响最终的融合结果。
4.2 Network architecture
所提出的模型由一个生成器和一个鉴别器组成,基于不同的网络架构,如图3所示。与我们先前的FusionGAN 相比,我们加深了生成器和鉴别器的层数,提升了特征表示能力,以改善融合性能。
- 特别地,生成器基于ResNet 进行设计。在我们的生成器网络中,残差块的激活函数采用参数化修正线性单元(RELU),而不是典型的RELU。参数化RELU与Leaky RELU 相同,只是斜率通过反向传播进行自适应学习。此外,我们使用1×1卷积层替代全连接层,并构建完全卷积网络,不受输入图像大小的限制。
在融合任务中,目标是从源红外图像和可见光图像中提取有价值的信息。因此,与一般的GAN不同,我们的模型不包含反卷积或池化层。池化层会丢失一些细节信息,而反卷积层会向输入插入额外的信息,这两种情况都会导致对源图像的真实信息描述不准确。
- 鉴别器的设计基于VGG11网络。VGG11网络中使用了五个卷积层和五个最大池化层。相比之下,我们网络中的每个卷积层后面都跟着一个BN层,已被证明可以有效加速网络训练。对于激活函数,我们用参数化RELU替代了普通的RELU,以调整反向传播过程中的泄漏程度。然后,鉴别器用于判断图像是否为可见光图像,因此,大规模的全连接网络可以用简单的卷积层来替代。因此,生成器和鉴别器网络都可以视为完全卷积网络,对不同尺寸的输入图像具有鲁棒性。
4.3. Loss function
生成器损失由内容损失、细节损失、目标边缘增强损失和对抗性损失组成,并且它们表示如下: L o s s t o t a l = L i m a g e + α L g r a d i e n t ⏟ c o n t e n t l o s s + β L d e t a i l + δ L t e e + γ L a d v e r s a r i a l Loss_{total} = \underbrace{L_{image}+\alpha L_{gradient}}_{\ content \quad loss}+\beta L_{detail}+\delta L_{tee}+\gamma L_{adversarial} Losstotal= contentloss Limage+αLgradient+βLdetail+δLtee+γLadversarial
内容损失限制融合图像的像素强度与红外图像相似,并且梯度变化与可见光图像相似,这类似于GTF的目标函数。细节损失 L d e t a i l L _{detail} Ldetail 和对抗损失 L a d v e r s a r i a l L_{adversarial} Ladversarial 旨在为融合图像添加更丰富的细节信息。目标边缘增强损失 L t e e L_{ tee} Ltee 用于增强融合图像中突出目标的边缘。我们将内容损失表示为图像损失 L i m a g e L_{image} Limage 和梯度损失 L g r a d i e n t L_{gradient } Lgradient的总和。然后,我们使用权重参数 𝛼、𝛽、𝛿、𝛾 来控制生成器损失中不同项目之间的权衡。
Content loss
- 基于MSE如下定义逐像素图像损失𝐿图像:
L i m a g e = 1 W H ∑ x = 1 W ∑ y = 1 H ( I r ( x , y ) − I f ( x , y ) ) 2 ( 2 ) L_{image}=\frac{1}{WH}\sum_{x=1}^W \sum_{y=1}^H(I_{r_{(x,y)} }-I_{f_(x,y)})^2 \quad (2) Limage=WH1x=1∑Wy=1∑H(Ir(x,y)−If(x,y))2(2)
其中, I r I _r Ir 是原始红外图像, I f I_ f If 是生成器的最终输出,W 和 H 表示图像的宽度和高度。图像损失使得融合图像在像素强度分布方面与红外图像一致。需要注意的是,我们选择𝓁 2 范数,因为它是二次的。与𝓁 1 范数相比,𝓁 2 范数是可导的,并且易于优化。
- 为了融合丰富的纹理信息,我们受GTF启发设计了梯度损失,如下所示:
L g r a d i e n t = 1 W H ∑ x = 1 W ∑ y = 1 H ( D v ( x , y ) − D f ( x , y ) ) 2 ( 3 ) L_{gradient}=\frac{1}{WH}\sum_{x=1}^W \sum_{y=1}^H(D_{v_{(x,y)} }-D_{f_(x,y)})^2 \quad (3) Lgradient=WH1x=1∑Wy=1∑H(Dv(x,y)−Df(x,y))2(3)
其中, D v ( x , y ) D_{v_{(x,y)}} Dv(x,y)表示可见图像的梯度,并且 D f ( x , y ) D_{f_{(x,y)}} Df(x,y)表示融合图像的梯度。梯度损失被定义为 D v ( x , y ) D_{v_{(x,y)}} Dv(x,y)和 D f ( x , y ) D_{f_{(x,y)}} Df(x,y)之间的MSE。
Detail loss
我们将融合图像和可见图像之间的鉴别器特征图的差异定义为细节损失,如下所示:
L d e t a i l = ∑ i = 1 N ∑ j = 1 M ( ϕ v ( i , j ) − ϕ f ( i , j ) ) 2 ( 4 ) L_{detail}=\sum_{i=1}^N\sum_{j=1}^M (\phi_{v_{(i,j)}}-\phi_{f_{(i,j)}})^2 \quad (4) Ldetail=i=1∑Nj=1∑M(ϕv(i,j)−ϕf(i,j))2(4)
其中,𝜙 表示通过鉴别器内部的卷积获得的特征图, ϕ v \phi _v ϕv和 ϕ f \phi _f ϕf 分别表示可见图像和融合图像的特征表示,N 和 M 表示由常规特征图计算得到的结果图像的宽度和高度。
对于其他计算机视觉任务,通常会使用预训练的 VGG-Net 产生的感知损失来提高性能。当使用 VGG-Net 提取高级特征时,这种方法是一个很好的选择。然而,VGG-Net 是使用 ImageNet 数据集进行预训练的,不包含红外图像。此外,在 VGG-Net 中从融合图像(热辐射信息和可见纹理信息)中提取高级特征是不确定的。因此,将可见图像和融合图像混合作为 VGG-Net 的输入会有问题。实际上,我们网络的判别器是由融合图像和可见图像进行训练的。在训练过程中,判别器能够提取较好的融合图像和可见图像的特征,这就是为什么我们使用判别器而不是 VGG-Net 来提取高级特征的原因(我们将在实验中验证这一点)。此外,当优化细节损失时,梯度损失也会减少。
注:预训练的VGG-Net产生的感知损失是指使用预训练的VGG-Net模型计算生成图像与目标图像之间的特征差异,并将该特征差异作为损失函数的一部分。通过比较生成图像和目标图像在VGG-Net的高层特征表示上的差异,可以量化生成图像与目标图像之间的感知差异。这种感知损失被广泛用于图像风格转换、图像超分辨率等任务中,以帮助生成更具视觉感知质量的结果。
Target edge-enhancement loss
我们将目标边缘增强损失 L t e e L_{tee} Ltee公式化如下:
L t e e = 1 W H ∑ x = 1 W ∑ y = 1 H ( I r ( x , y ) − I f ( x , y ) ) 2 ( 5 ) L_{tee}=\frac{1}{WH}\sum_{x=1}^W \sum_{y=1}^H(I_{r_{(x,y)} }-I_{f_(x,y)})^2 \quad (5) Ltee=WH1x=1∑Wy=1∑H(Ir(x,y)−If(x,y))2(5)
实际上,这个项类似于 L i m a g e L_{ image} Limage ,为了使目标边界更加清晰,我们设计了一个权重图 G,用于更加关注目标边界区域,并与 L i m a g e L_{ image} Limage 相乘。其中,G 的定义如下:
G ( x , y ) = N k = 3 ( D r ( x , y ) ) + N k = 5 ( D r ( x , y ) ) + N k = 7 ( D r ( x , y ) ) , ( 6 ) G(x,y)=N_{k=3}(D_{r(x,y)})+N_{k=5}(D_{r(x,y)})+N_{k=7}(D_{r(x,y)}) ,\quad(6) G(x,y)=Nk=3(Dr(x,y))+Nk=5(Dr(x,y))+Nk=7(Dr(x,y)),(6)
其中,N代表高斯核,k对应于核半径, D r ( x , y ) D_{r(x,y)} Dr(x,y)表示红外图像的梯度。在这里,我们经验性地使用𝑘=3, 5, 7作为我们的默认配置,以达到令人满意的视觉效果。显然,我们的G图具有三个特点;
- 首先,大多数区域的权重为0,因为这些区域可以通过 L i m a g e L_{image} Limage 很好地优化,所以在 L t e e L_{ tee} Ltee 中不需要再次优化它们。
- 其次,在红外目标边界区域的权重较大,这使得我们的模型能够在训练过程中专注于红外目标边界,而这些边界在可见图像中可能被忽略。
- 第三,在接近边缘区域的部分可以获得较小的权重,这将在边缘区域的两侧实现平滑过渡。
虽然目标边缘增强损失函数(Ltee)与图像重建损失(Limage)的表达式非常相似,但它们的作用是不同的。Limage主要用于保留红外图像中的热辐射信息和纹理细节信息,以及在可见光图像中保留目标形状和轮廓信息。而Ltee则主要用于增强红外图像中目标边缘的清晰度和准确性,使其更加接近真实情况。 直观上来看,Limage主要关注整个图像的重建质量,而Ltee则更加关注目标边缘区域的清晰度和准确性。因此,在训练过程中,通过同时使用这两个损失函数可以使模型更好地学习到红外图像和可见光图像之间的关系,并进一步提高融合结果的质量。
Adversarial loss
我们的生成器网络采用对抗性损失(adversarial loss)来生成更好的融合图像。对抗性损失基于鉴别器对所有训练样本的概率 l o g D θ D ( G θ G ( I m i x ) ) logD_{\theta_D}(G_{\theta_G}(I^{mix})) logDθD(GθG(Imix))进行定义,具体如下所示:
L a d v e r s a r i a l = ∑ n = 1 N l o g D θ D ( G θ G ( I m i x ) ) , ( 7 ) L_{adversarial}=\sum_{n=1}^NlogD_{\theta_D}(G_{\theta_G}(I^{mix})), \quad (7) Ladversarial=n=1∑NlogDθD(GθG(Imix)),(7)
其中, I m i x I_{ mix} Imix 是红外图像和可见图像的叠加, l o g D θ D ( G θ G ( I m i x ) ) logD_{\theta_D}(G_{\theta_G}(I^{mix})) logDθD(GθG(Imix))是融合图像与可见图像相似的概率,N 是批处理的大小。
Training detail
我们在TNO数据集上训练了我们提出的模型,该数据集包含45个不同的场景,并选择了45对红外和可见光图像进行训练。这些图像对已经事先对齐,对于未对齐的图像对需要进行图像配准。在每次迭代中,我们还对原始红外和可见光图像对进行88×88的随机裁剪,并作为输入进行训练。输入(即像素强度)被归一化到-1到1的范围内。在训练过程中,我们使用Adam优化器来优化损失函数。对于每次迭代,生成器和鉴别器都会更新其参数。在测试过程中,我们将整个堆叠图像放入生成器中,然后获得与输入相同大小的融合图像。
5. 实验
Training settings and fusion metrics
我们的训练参数设置如下:批量图像大小为64,训练迭代次数为400,鉴别器训练步数为2。参数𝛼、𝛽、𝛿和𝛾的设置如下:𝛼 = 100,𝛽 = 0.2,𝛿 = 5和𝛾 = 0.005。学习率设置为10^-5。所有模型都是使用TNO数据集进行训练的。
Validation of detail loss
细节损失在我们提出的方法中起着重要作用。通过应用细节损失,我们的模型变得更加稳定,融合性能也得到了改善。因此,在本节中,我们着重验证了细节损失在 L o s s t o t a l Loss_{ total} Losstotal 中没有添加目标边缘增强损失的情况下的效果。我们设计了几个实验来展示如何从图像中提取特征来计算细节损失,并确认细节损失确实可以改善融合图像中的细节信息。
感知损失在图像风格转换中被广泛使用。现有的方法通常将预训练的VGG-Net作为特征提取器,并比较从生成的图像和目标图像提取的pool5层的特征图。感知损失使生成的图像在像素级别和语义级别上与目标图像相似。==在我们提出的方法中,细节损失的功能与感知损失几乎相同。==但是,预训练的VGG-Net和pool5层的特征图可能不适用于红外和可见光图像融合的任务,因为预训练的VGG-Net仅在可见光图像上进行训练,几乎无法提取红外信息的高级特征。相反,我们的鉴别器是在融合图像和可见光图像上进行训练的,因此鉴别器可能可以提取红外信息。为此,使用鉴别器作为细节损失计算的特征提取器更加合适。
为了验证上述想法,我们在接下来进行了以下实验:
-
实验1:训练两个不同的模型。第一个模型我们称为VGG-model,其中使用预训练的VGG-Net作为特征提取器。第二个模型我们称为D-model,其中使用鉴别器作为特征提取器。我们比较了融合图像和可见光图像之间的pool5层的特征图。由于对红外和可见光图像融合有用的信息可能不包含在pool5的特征图中,
-
我们还进行了实验2,比较了两个模型中不同层的特征图,如pool5、pool4、pool3、pool2。
-
最后,我们进行实验3,以验证细节损失在促进融合性能的作用。
通过这些实验,我们可以验证细节损失的有效性以及使用鉴别器作为特征提取器的合理性。
Experiment 1
图4展示了一些典型的融合结果,其中分别使用预训练的VGG-Net和鉴别器作为特征提取器。前两行呈现了TNO数据集中四个场景(烟雾、人物、长凳和树木)的原始红外和可见光图像。剩下的两行对应于VGG-model和D-model的融合结果。从结果中可以看出,VGG-model的融合结果几乎无法保持红外图像中目标的高对比度特性,而仅依赖可见光图像的纹理信息。例如,在第一个例子中,烟雾后面的人完全看不到,而在其他三个例子中,融合结果只能保留不再突出的人的模糊轮廓。然而,D-model的结果能够很好地保留突出的目标,并且还包含了丰富的可见光图像细节,尤其是在前两个例子中锐化的树枝。这表明预训练的VGG-Net在提取可见光图像的高级特征方面具有较强的能力,但在红外图像上则不具备。因此,VGG-model中的细节损失使得融合结果更加关注保留更多的细节信息,而不是突出目标。相比之下,D-model更适合保留热辐射和纹理细节信息。
Experiment 2
接下来,我们使用不同层的特征图(如pool2、pool3、pool4和pool5层)来计算细节损失,对我们的D-model和VGG-model进行测试。我们选择了一对图像称为"sand path"进行评估,如图5所示。根据结果,对于D-model,四个融合图像几乎具有相同的特征,即图像看起来像是经过锐化处理的红外图像,具有清晰的突出目标和丰富的细节信息。然而,在pool5层的结果中,道路上的栅栏更清晰可见。对于VGG-model,我们观察到无论使用VGG-Net的哪个层来计算细节损失,融合结果都无法保持红外图像中目标的高对比度特性。这表明在可见光图像上预训练的VGG-Net无法提取红外信息的高级特征。为了对D-model选择最佳层进行综合评估,我们在INO数据集的一对红外和可见光图像序列上测试了这四个候选层,并计算了包括EN、SD、CC、SF、SSIM和VIF在内的六个融合度量指标进行比较。结果如图6所示。可以明显看出,pool5层在大多数图像对上具有最佳的性能。因此,我们使用鉴别器作为特征提取器,并使用pool5层的特征图来计算细节损失。
Experiment 3
我们进一步展示了带有和不带有细节损失的模型的融合结果,以验证细节损失在提升融合性能中的作用。我们选择了TNO数据集中的三个不同场景,如Kaptein_1654、sand path和bush进行评估,如图7所示。从Kaptein_1654的帐篷、sand path的栅栏以及bush的树叶中可以看出,带有细节损失的模型的结果中细节信息明显更丰富,尽管两者都能很好地保留红外图像中的显著目标。
此外,我们对TNO数据集中的40个样本进行了六个融合度量指标的定量评估,结果如图8所示。从结果可以看出,我们带有细节损失的模型在每个图像对上的所有六个指标上始终优于不带细节损失的模型。因此,细节损失确实能够增强融合图像的视觉效果,并改善定量融合度量指标。
Validation of target edge-enhancement loss
接下来,我们解释为什么设计了G map来计算目标增强损失,并基于D-model验证目标增强损失的功能。
为了有效地保留红外目标的边缘,最直观的想法是设计一个类似于
L
g
r
a
d
i
e
n
t
L_{gradient}
Lgradient 的损失函数,将
D
v
(
x
,
y
)
D_{v_{(x,y)}}
Dv(x,y)替换为
D
r
(
x
,
y
)
D_{r_{(x,y)}}
Dr(x,y)。然而,如图9所示,红外图像的边缘图是离散且杂乱的,因为红外图像通常包含大量噪声,这将影响融合性能。因此,我们选择采用不同半径的高斯核来滤波边缘图,从而获得一个连续且平滑的地图,称为G map,如图9所示。在我们的论文中,核的半径经验性地设置为3、5和7。此外,我们还在图10中提供了一些不同核半径组合的定性结果。从结果中可以看出,
N
k
=
3
+
N
k
=
5
+
N
k
=
7
N_{k =3} + N_{k =5} +N_{k =7}
Nk=3+Nk=5+Nk=7的G map通常能产生最佳的视觉效果。因此,我们将其设置为默认设置。
在图11中,我们展示了FusionGAN、D-model(带有细节损失的FusionGAN)和我们的方法(带有细节损失和目标增强损失的FusionGAN)的一些代表性融合结果。无论是FusionGAN还是D-model的结果,红外目标的边缘都含有明显的毛刺,比如bush中的前额边缘和Kaptein_1123中的肘部边缘。相比之下,我们的方法通过目标增强损失可以很好地解决这个问题,我们的结果中目标边界得到了良好的保留和增强。除了红外目标边界的增强外,我们还发现细节损失和目标增强损失可以同时进行优化,没有明显的冲突。证据是我们的融合结果中还包含了许多细节信息,这些信息在D-model中得到了保留,但在FusionGAN中不存在,比如bush中的树叶、sand path中的栅栏和Kaptein_1123中的条纹。这证明了我们目标增强损失的有效性。
Influence of different architectures
在本节中,我们研究了框架中不同架构的影响。一方面,我们研究了网络深度的影响。考虑到我们的5个残差块网络已经足够深,我们选择了一个较浅的网络,命名为ShallowNet,例如一个由4个残差块组成的网络,用于进行比较。另一方面,我们研究了应用不同类型架构(称为DenseNet)的影响,例如使用密集连接。具体而言,我们在一个由4个残差块组成的网络中添加了密集连接。
图12展示了三种不同架构在三个不同场景上的融合结果。我们可以发现,这三种架构都能很好地保留辐射信息,但在细节信息的保留上存在差异。例如,在ShallowNet的结果中,红色框中的细节很难辨认,但在其他两种架构中它们很清晰。此外,与DenseNet相比,我们的融合结果中的目标更加突出,例如在所有三个场景中的人物。因此,我们得出结论:较深的网络和密集连接都可以提高融合图像的细节质量,与密集连接相比,更深的架构可以更好地保留红外信息。
Comparative experiments
Results on TNO dataset
TNO数据集包含了不同军事相关场景的夜间多光谱图像,包括增强视觉、近红外和长波红外或热红外图像,这些图像使用不同的多波段相机系统进行了配对。我们从该数据集中选择了45对红外和可见光图像作为训练集,并选择了12对作为测试集。我们从测试集中选择了五对典型图像,如掩体、烟雾、湖泊、Kaptein_1123和沙路,用于进行质量展示,如图13所示。
图13中的前两行显示了原始的红外和可见光图像。我们的融合结果显示在最后一行,而其余的十行对应于其他竞争方法的结果。所有的方法都能在一定程度上将两个源图像进行融合。因此,很难判断哪种方法是最好的。然而,其他方法的融合结果中的目标(如掩体、窗户、湖泊和人体)在融合图像中的显著性较低,除了GTF和FusionGAN方法之外,这表明红外图像中的热辐射信息没有被很好地保留。这一观察结果可以归因于这些方法倾向于利用源图像中的细节信息,从而导致后续的目标检测和定位等任务变得困难。
结果还表明,我们提出的方法与GTF和FusionGAN方法相比,在突出显示融合图像中的目标方面表现出更好的效果。然而,我们的方法提供了额外的优势,可以保留更多的细节信息并生成更锐利的红外目标边缘。例如,在Kaptein_1654的例子中,我们的结果中的树木轮廓与GTF相比更清晰、更锐利,而道路上的条纹在我们的结果中更加明显。
此外,我们对这十一种方法在测试集中的所有12对红外和可见光图像上进行了定量比较。
六个评价指标的结果如图14所示。我们的方法在大多数图像对上明显获得了最好的EN、SD、SF和VIF,并且在包括CC在内的五个评价指标的平均值相对于其他方法最大。最大的EN表明我们的融合图像比其他七种竞争方法拥有更丰富的信息。最大的SD意味着我们的融合图像具有最好的图像对比度。最大的CC表明我们的融合图像与两个源图像具有强相关性。最大的SF表示我们的融合图像具有更丰富的边缘和纹理。最大的VIF意味着我们的融合结果更符合人类视觉系统。然而,我们的方法通常生成相对较低的SSIM。这是因为为了同时保留辐射信息和梯度信息,融合图像中一些区域的像素强度可能在训练过程中发生变化,这些区域既不像红外图像也不像可见光图像,导致源图像和融合图像之间的结构相似性较低。图15展示了一个典型的例子,可见光图像中的停车线是白色的,在红外图像中无法看到;然而,为了保留地面的辐射信息和停车线的边缘纹理,融合图像中的停车线区域变黑,既不像红外图像也不像可见光图像。类似的现象也可以在卡车和导向板的区域观察到。因此,同时保留热辐射和丰富的纹理细节的目标将不可避免地降低SSIM指数。
Results on INO dataset
为了验证方法的通用性,我们在TNO数据集上训练的模型上对INO数据集进行了测试。INO数据集由加拿大国家光学研究所提供,包含了多对可见光和红外视频,代表了在不同天气条件下拍摄的不同场景。我们从名为"trees and runner"的视频中获取了90对红外和可见光图像对进行比较。
图16展示了六个融合指标的定量比较结果。我们的方法在所有图像对中都具有最好的SD、CC、SF和VIF。显然,评价指标的平均值相对于其他十种方法最大。对于EN指标,我们的方法与GTF之间的差距很小,仅次于GTF;受内容损失的限制,我们的方法无法获得最好的SSIM。此外,我们观察到IVIFDLF方法在不同帧之间的评价指标变化很大,特别是SSIM和VIF。这是因为在IVIFDLF中,降采样操作后的图像重建会导致融合结果与源图像之间的错配,而这种错配在每一帧中都有所变化,导致结果不稳定。
我们还在表2中展示了十一种方法的运行时间比较。相比其他十种方法,我们的方法实现了可比的效率。
6.总结
我们提出了一种基于生成对抗网络的红外与可见光图像融合方法,能够同时保留红外图像中的热辐射信息和可见光图像中丰富的纹理细节。所提出的方法是一个端到端的模型,可以避免传统融合策略中手动和复杂的活动级别测量和融合规则的设计。特别地,我们设计了两个损失函数,即细节损失和目标边缘增强损失,以改善融合性能。细节损失用于更好地利用源图像中的纹理细节,而目标边缘增强损失旨在增强红外目标的边缘。由于这两个损失函数的作用,我们的结果可以同时很好地保留热辐射信息、红外目标边界和纹理细节信息。我们在实验中验证了使用细节损失和目标边缘增强损失的有效性。定性和定量比较显示了我们方法相对于现有方法的优越性。此外,我们的方法不仅产生了较好的视觉效果,而且通常保留了源图像中最多或接近最多的信息量。