U2Fusion: A Unified Unsupervised Image Fusion Network
(U2Fusion:一种统一的无监督图像融合网络)
研究提出了一种新颖的统一监督和管理端到端图像融合网络,称为U2Fusion,能够解决不同的融合问题,包括多模态,多曝光,和多聚焦融合。利用特征提取和测量信息,U2Fusion自动估计相应的源图像的重要性,提出了自适应信息保存度。因此,不同的融合统一在同一个框架任务。基于自适应度,网络是训练保护自适应融合结果与源图像之间的相似性。因此,大大减轻深度学习应用在图像融合的障碍,例如,地面实况要求和专门设计的指标。通过避免失去以前的融合功能训练顺序单一模型不同的任务时,我们获得一个统一的模型,该模型适用于多个融合任务。此外,一个新的红外和可见图像数据集,RoadScene (https://github.com/hanna-xu/RoadScene),释放为基准评价提供一种新的选择。定性和定量实验结果在三个典型图像融合任务验证U2Fusion的有效性和普遍性。
介绍
不同的融合任务往往有着相似的目标,即通过整合多幅源图像的重要信息和互补信息来合成图像。然而,在不同的任务中,待整合的重要信息随着源图像的类型不同而变化很大,从而限制了大多数方法对特定任务的有效性。神经网络具有很强的特征表示能力,可以统一地表示各种信息。这可能会形成一个统一的融合框架,这将在本研究中进行探讨。此外,通过在一个统一的模型中解决不同的融合问题,这些任务可以相互促进。例如,假设统一模型已经进过多曝光图像融合的训练,它能够改善多模态或多焦点图像中曝光不足/曝光过度区域的融合性能。因此,通过收集多个任务的优势,统一模型可以为每个单一融合任务获得更好的结果,比多个单独训练的模型具有更强的泛化能力。
针对这些问题,提出了一种统一的无监督图像融合网络U2Fusion。在信息保存方面,首先采用特征提取器从源图像中提取丰富而全面的特征。然后,对特征信息的丰富程度进行度量,确定特征的相对重要性,从而反映源图像与融合结果之间的相似性关系。较高的相似度意味着在结果中保留了该源图像中的更多信息,从而导致较高的信息保留程度。在这些策略的基础上,训练DenseNet模块以生成融合结果,而不需要地面实况。
贡献
1)我们提出了一个用于各种图像融合任务的统一框架。更具体地说,我们用统一的模型和统一的参数解决不同的融合问题。我们的解决方案缓解了一些缺点,如不同问题的单独解决方案、训练的存储和计算问题以及持续学习的灾难性遗忘。
2)本文通过约束融合图像与源图像之间的相似性,提出了一种新的无监督图像融合网络,以克服大多数图像融合问题中普遍存在的障碍,即:缺乏普遍的基本事实和无参考度量。
3)我们发布了一个新的红外和可见光对齐图像数据集RoadScene,为图像融合基准评估提供了一个新的选项。可在www.example.com上查阅https://github.com/hanna-xu/RoadScene。
4)我们在六个多模态、多曝光和多聚焦图像融合的数据集上测试了所提出的方法。定性和定量结果验证了U2Fusion的有效性和通用性。
本文的初步版本见FusionDN新的贡献主要来自四个方面
1)改进了信息保持度分配策略。通过对提取的特征进行信息度量来分配信息保留度,而不是原始源图像中的信息量和信息质量。通过考虑额外的方面,改进的策略提供了一种改进的综合测量来捕获源图像的本质特征。
2)其次,对损失函数进行了修正。梯度损失的去除减轻了伪边缘,并且增加的基于像素强度的损失有助于减小融合图像中的亮度偏差。
3)我们将第一个任务从可见光(VIS)和红外(IR)图像融合替换为多模态图像融合,其中包括可见光-红外和医学图像融合。
4)最后,我们在其他公开数据集上验证了U2 Fusion。
相关工作
Image Fusion Methods
Methods Based on Traditional Fusion Framework
传统的融合框架可以大致总结为图2。由于重建通常是提取的逆过程,因此这些算法的关键在于两个重要因素:特征提取和特征融合。通过对这些方法进行改进,可以设计这些方法来解决多模态、多曝光或多聚焦图像融合。
为了解决特征提取问题,人们提出了大量的传统方法。它们所依据的理论可以分为四个有代表性的类别:i)多尺度变换,例如拉普拉斯金字塔(LP)、低通金字塔比率(RP)、梯度金字塔(GP)、离散小波(DWT)、离散余弦(DCT)、曲波变换(CVT)、shearlet等;
ii)稀疏表示; iii)子空间分析,例如,独立分量分析(ICA)、主分量分析(PCA)、非负矩阵分解(NMF)等;iv)混合方法。然而,这些人工设计的提取方法使得融合方法越来越复杂,从而增加了设计融合规则的难度。提取方法需要进行相应的修改,以解决不同的融合任务。此外,还需要注意提取方法的适当性,以确保特征的完整性。为了克服这些限制,一些方法在特征提取中引入卷积神经网络(CNN),或者作为一些子部分,或者作为整个部分。
然后,基于提取的特征确定融合规则。常用的融合规则包括最大值、最小值、加法、l1范数等。然而,这些人工设计的融合规则的选择有限,即使在一些基于神经网络的方法中,也会对性能的提高产生影响。
值得注意的是,有一些方法脱离了这一框架,如基于梯度传递和总变差最小化的VIS-IR图像融合方法、通过优化结构相似性指数的多曝光图像融合方法、基于稠密SIFT的多聚焦图像融合方法等。这些方法所基于的算法或度量专用于特定的融合任务。
End-to-end Models
对于一些基于端到端的融合方法:略
针对上述局限性,本文提出了一种统一的无监督图像融合网络,该网络具有以下特点。i)它是一个端到端的模型,不受人工设计融合规则的限制。ii)它是一个用于各种融合任务的统一模型,而不是特定目标,例如:独特的问题、指标的特异性、对二进制掩码的需求等。iii)这是一个无监督的模型,不需要真实数据。iv)通过不断学习解决新任务而不丧失原有能力,它可以用统一模型参数解决多个任务。
Continual Learning
在持续学习环境中,学习被认为是要学习的一系列任务。在训练阶段,权重适应新任务,而不忘记先前学习的权重。为了避免存储来自先前学习的任务的任何训练数据,提出了许多基于弹性权重合并(EWC)的算法,其包括正则化项,以迫使参数保持接近先前任务训练的参数。这些技术已经被广泛应用于许多实际问题,如人的再识别、实时车辆检测和情感识别等。
方法
Problem Formulation
针对图像融合的主要目标,为了保留源图像中的重要信息,我们的模型基于测量来确定这些信息的丰富度。如果源图像包含丰富的信息,那么它与源图像的相似度就显得非常重要。因此,该方法的关键问题是探索一种统一的度量方法来确定源图像的信息保持程度。与监督学习中最大化融合结果与真实图像之间的相似度不同,我们的方法依赖于这样的程度来保持与源图像的自适应相似性。作为一种无监督的模型,它适用于难以获得真实数据的多融合问题。
对于期望的测量,主要问题是不同类型的源图像中的重要信息变化很大。例如,在IR和正电子发射断层摄影(PET)图像中,重要信息是热辐射和功能响应,其被呈现为像素强度分布。在维斯和磁共振成像(MRI)图像中,重要信息是反射光和由图像梯度表示的结构内容。在多聚焦图像中,要保留的信息包括景深(DoF)内的对象。在多曝光图像中,可以增强与场景内容有关的重要信息。上述可变性给设计统一的信息度量带来了相当大的困难,这些信息度量是为特定任务而设计的,当面临其他问题时不再有效。它们基于不同任务中的某些表面级特征或特定属性,难以统一方式预先确定。我们通过综合考虑源图像的多方面特性来解决这一问题。为此,我们提取了浅层特征(纹理、局部形状等)和深层特征(内容、空间结构等)用于估计信息测量。
U2Fusion的流程图如图3所示。利用表示为I1和I2的源图像,训练DenseNet以生成融合图像If。特征提取的输出是特征图ΦC1(I1),· · ·,ΦC5(I1)和 ΦC1(I2),· · ·,ΦC5(I2)然后,对这些特征图执行信息测量,产生由gI1和gI2表示的两个测量。经过后续处理,最终的信息保持度表示为ω1和ω2。I1、I2、If、ω1和ω2用于损失函数,无需真实数据。在训练阶段,测量ω1和ω2,并用于定义损失函数。然后,对DenseNet模块进行优化,使损失函数最小。在测试阶段,不需要测量ω1和ω2,因为DenseNet已经过优化。
Feature Extraction
与融合任务中训练的模型相比,用于其他计算机视觉任务的模型通常使用更大和更多样化的数据集来训练。因此,通过这些模型提取的特征是丰富和全面的。受感知损失的启发,我们采用预训练的VGG-16网络进行特征提取,如图4所示。在我们的模型中,输入I 已统一在单个通道中,我们将其复制到三个通道中,然后将其馈入VGG-16。在最大池层之前的卷积层的输出是用于后续信息测量的特征图,如图4所示为ΦC1(I)、· · ·、ΦC5(I),其形状如下所示。
为了直观分析,图5中示出了多次曝光图像对的一些特征图。在原始源图像中,曝光过度的图像比曝光不足的图像包含更多的纹理细节或更大的梯度,因为后者遭受低得多的亮度。在图5中,ΦC1(I)和ΦC2(I)中的特征基于浅层特征,如纹理和形状细节。在这些层中,曝光过度的图像的特征图仍然比曝光不足的图像显示更多的信息。通过比较,较高层的特征图,ΦC4(I)和ΦC5(I)主要保留内容或空间结构等深层次特征。在这些层中,可比较的和附加的信息存在于曝光不足图像的特征图中。因此,浅层和深层特征的组合形成了人类视觉感知系统可能不容易感知的基本信息的综合表示。
Information Measurement
为了测量包含在所提取的特征图中的信息,使用它们的梯度进行评估。与一般信息论中的实体相比,图像梯度是一种基于局部空间结构的度量,具有较小的感受野。当在深度学习框架中使用时,梯度在计算和存储方面都要高效得多。因此,它们更适合应用于CNN的信息测量。信息计量定义如下:
其中ΦCj(I)是图4中第j个最大池层之前的卷积层的特征映射。k表示Dj个通道的第k个通道中的特征图。||·||F表示Frobenius范数,▽是拉普拉斯算子。
Information Preservation Degree
为了保持源图像的信息,采用自适应权值作为信息保持度,定义了融合图像与源图像相似度的权值。权重越高,则期望相似度越高,对应的源图像的信息保存程度越高。
这些自适应权重ω1、ω2是根据由Eq(1)得到的信息测定结果gI1、gI2来估计的。鉴于gI1和gI2之间的差是绝对值而不是相对值,所以它们自身相比可能太小而不能反映它们的差。因此,为了增强和体现权重中的差异,使用预定义的正常数c来缩放值以获得更好的权重分配。因此,ω1和ω2定义为:
其中我们使用softmax函数将gI1/ c,gI2/ c映射为0和1之间的真实的,并保证ω1和ω2之和为1。然后在损失函数中引入ω1和ω2来控制特定源图像的信息保留程度。
Loss Function
损失函数主要用于保存重要信息和训练适用于多个任务的单个模型。它由两部分组成,定义如下:
其中θ表示DenseNet中的参数,D是训练数据集。Lsim(θ,D)是结果和源图像之间的相似性损失。Lewc(θ,D)是为持续学习而设计的项目,如下一小节所述。λ是一个控制权衡的超参数。
我们从两个方面实现相似性约束:结构相似度和强度分布。鉴于结构相似性指数测量(SSIM)是使用最广泛的指标,模型信息的失真根据相似性,对比,和结构,我们用它来约束结构相似性I1、I2和If。因此,与ω1、ω2一起去控制信息的程度,第一项的Lsim(θ,D)被表述为:
SSIM算法关注对比度和结构的变化,而对强度分布差异的约束较弱。我们用第二项补充Lssim(θ,D),第二项由两个图像之间的均方误差(MSE)定义:
同时,通过对所有似然输出进行平均,约束MSE得到的结果相对模糊,而SSIM可以弥补这一问题。因此,这两个项目相互补偿。α控制权衡,Lsim(θ,D)公式为:
Single Model for Multi-fusion Tasks with Elastic Weight Consolidation (EWC相关介绍)
不同的融合任务通常导致特征提取和/或融合中的差异,这直接反映在不同的DenseNet参数值中。这导致训练具有相同架构但不同参数的多个模型。但由于一些参数是冗余的,这些模型的利用率可以大大提高。它激励我们用统一的参数训练单个模型,该模型集成了这些模型,从而变得适用于多个任务。
这一目的可以通过两种方式实现,即,联合训练和顺序训练,如图6所示。联合训练是一种简单的方法,其中所有的训练数据都在整个训练过程中保留。在每个批次中,随机选择来自多个任务的数据进行训练。然而,随着任务数量的增加,两个紧迫问题变得难以解决:i)由于总是保持先前任务的数据而引起的存储问题,以及ii)由于使用所有数据进行训练而引起的计算问题,这在计算难度和时间成本方面都是如此。
在序贯训练中,我们需要针对不同的任务改变训练数据,如图6(b)所示。因此,在训练过程中仅需要存储当前任务的数据,这解决了存储和计算问题。然而,当我们针对新功能的另一个任务训练模型时,会出现一个新问题:以前的训练数据不可用。随着训练过程的继续,参数被优化以解决新的问题,同时失去从先前任务中学习到的能力。这个问题被称为灾难性遗忘。为了避免这个缺点,我们应用弹性权重合并(EWC)算法来防止它。
在EWC中,当前任务θ和前一任务
θ
∗
θ^∗
θ∗的参数值之间的平方距离根据它们对
θ
∗
θ^∗
θ∗的重要性进行加权。那些重要的参数被给予较高的权重以防止忘记从旧任务中学习到的内容,而具有较低重要性的参数可以被修改到更大程度以从新任务中学习。通过这种方式,该模型能够通过弹性权重合并进行连续学习。因此,连续学习的损失(称为Lewc(θ,D))包含在Eq(3)中的总损失函数中。将这些重要性相关权重定义为µi,Lewc(θ,D)可表示为:
其中,i表示网络中的第i个参数,µi表示相应平方距离的权重。
为了评价重要性,将µi指定为Fisher信息矩阵的对角项,并通过使用先前任务中的数据计算梯度的平方来近似,定义如下:
其中
D
∗
D^*
D∗ 表示先前任务的数据。logp(
D
∗
D^*
D∗|
θ
∗
θ^∗
θ∗)可以近似地替换为−L(
θ
∗
θ^∗
θ∗,
D
∗
D^∗
D∗)。因此,Eq(8)转换为:
由于Fisher信息矩阵可以在丢弃旧数据
D
∗
D^*
D∗ 之前计算,因此该模型不需要
D
∗
D^*
D∗ 来训练当前任务。
如果存在多个先前任务,则根据特定任务和相应数据调整Lewc(θ,D)。然后,对这些梯度的平方求平均值,得到最终µi。训练过程和数据流如图7所示。
在多任务图像融合中,θ是DenseNet的参数。首先,训练DenseNet来解决Task1,即,通过最小化在Eq(6)中定义的相似性损失来解决多模态图像融合问题。当增加解决Task2的能力时,即在多曝光图像融合问题中,首先计算重要性相关权重µi。特别是,µi表示了DenseNet中每个参数对多模态图像融合的重要性。然后,通过最小化Eq(3)中的Lewc项,合并重要参数以避免灾难性遗忘。而对重要性较小的参数进行更新,通过相应地最小化相似性损失Lsim来解决多曝光图像融合问题。最后,当我们训练多聚焦图像融合的DenseNet时,根据前两个任务计算µi。后续的弹性权重合并策略与之前相同。这样,EWC就可以根据多任务自适应图像融合的场景进行定制。
Network Architecture
在该方法中,使用DenseNet来生成融合结果If,其输入是I1和I2的级联。因此,它是一个端到端的模型,而不需要设计融合规则。如图8所示,U2Fusion中的DenseNet架构由10层组成,每层都有一个卷积,后跟一个激活函数。所有卷积层的核大小都设置为3 × 3,步长为1。在卷积之前采用反射填充以减少边界伪影。不使用池层来避免信息丢失。前9层的激活函数为斜率为0.2的LeakyReLU,而最后一层的激活函数为tanh。
此外,研究已经证明,如果在接近输入的层和接近输出的层之间建立更短的连接,则CNN可以显著地更深并且被有效地训练。因此,在前七层中,采用来自密集连接的CNN的密集连接块来改善信息流和性能。在这些层中,以前馈方式在每层和所有层之间建立捷径直接连接,如图8中的级联操作所示。这样,可以减少梯度消失的问题。也可以在减少参数数量的同时,可以进一步加强特征传播[。特征图的通道均设置为44。后续四层逐步减少特征图的通道,直至达到单通道融合结果,如图8所示。
Dealing with RGB Input
RGB输入首先被转换到YCbCr颜色空间。然后,利用亮度通道进行融合,因为结构细节主要在该通道中,并且该通道中的亮度变化比色度通道中的亮度变化更显著。Cb和Cr(色度)通道中的数据传统上被融合为:
其中C1和C2分别是第一和第二源图像的Cb/Cr通道值。Cf为融合结果对应的通道。τ设为128。然后,通过逆变换,将融合图像转换到RGB空间。这样,所有的问题都统一为单通道图像融合问题。
Dealing with Multiple Inputs
在多曝光多聚焦融合中,需要对源图像序列进行融合,即:有两个以上的源图像可用。在这种情况下,可以顺序地融合这些源图像。如图如图9和10所示,我们最初融合这些源图像中的两个。然后,将中间结果与另一源图像融合。通过这种方式,U2Fusion在理论上能够融合任意数量的输入。