DRPL: Deep Regression Pair Learning for Multi-Focus Image Fusion
本文提出了一种用于多焦点图像融合的新型深度网络,称为深度回归对学习 (DRPL)。与现有的深度融合方法将输入图像分割成小的补丁并应用分类器来判断补丁是否聚焦相比,DRPL直接将整个图像转换为二进制掩码,而无需进行任何补丁操作,随后解决了聚焦/散焦边界周围模糊水平估计的困难。同时,将一对互补源图像作为输入并生成两个相应的二进制掩码的成对学习策略引入模型,极大地对每对图像施加了互补约束,为性能的提高做出了巨大贡献。此外,由于边缘或梯度确实存在于聚焦部分中,而散焦部分没有类似的属性,因此我们还嵌入了梯度损失,以确保生成的图像完全聚焦。然后利用结构相似性指数 (SSIM) 在参考图像和融合图像之间进行权衡。
介绍
近年来,已经研究了各种多焦点图像融合方法,这些方法可以大致分为两个分支,包括空间域策略和变换域策略;
空间域方法直接计算像素级别的融合图像。具体地,根据每个像素被聚焦的程度来估计与源图像中的每个像素对应的权重,然后通过对源图像中的相应像素进行加权平均来获得融合图像中的每个像素。但是,这种加权融合通常采用基于块的融合策略,在该策略中,源图像被分解为许多固定大小的块,随后在对象边界上产生块伪像。
变换域方法假设自然图像由一系列具有不同属性的组件组成,例如纹理部分和平滑部分。通常,它们首先将源图像分解为多个系数,然后通过遵循某些融合规则来融合这些不同的系数,以获得融合的系数。最后,通过对融合系数进行反变换来获得融合的全聚焦图像。一些典型的变换域方法包含稀疏表示,子空间学习,多尺度变换和边缘保留技术。但是,这些专注于使用手工制作的功能的人为设计的转换通常在有效表示源图像方面受到限制,对各种输入条件都不具有鲁棒性。此外,对图像变换,融合规则指定和图像重建的分离学习也会导致图像质量下降。
基于深度学习的方法,一种通用的方法是将焦点部分检测视为分类问题,该问题输入图像补丁并学习分类器以确定该补丁是聚焦还是散焦。尽管这种方法成功地阻止了手工功能的使用,并且由于深度学习的强大表示能力而更有效地学习分类器,但它在很大程度上取决于基于补丁的策略。与空间域融合方法相似,这些基于深度学习的方法首先将整个图像分割为具有固定大小和步幅的重叠补丁,然后基于这些补丁进行以下操作。这种基于补丁的策略的一个限制是,很难对包含部分聚焦和部分散焦像素的边界区域进行分类。此外,这也非常耗时,因为源图像会生成大量补丁,这与我们的实时要求相去甚远。不同的是,有些学者通过利用完全卷积网络来避免基于补丁的策略。但是,他们仍然无法提取有价值的补充信息和多样化的训练集等,从而对融合图像的质量产生了较差的影响。
综上,本文提出了一种新型的深度融合网络,即深度回归对学习 (DRPL),用于多焦点图像融合。与一些采用补丁作为输入的现有方法相比,所提出的方法是完全端到端的结构,避免了分类,但属于回归。具体来说,我们首先生成大量成对的合成图像,其中每个图像都包含清晰和模糊的部分。将没有任何补丁处理的一对完整图像直接输入到网络中以预测其相关的掩码,其中每个元素表示输入像素是聚焦还是散焦。
由于这种像素到像素的回归和对偶学习,有效地利用了聚焦像素和散焦像素之间的判别信息以及每对像素之间的互补信息,从而解决了其他基于补丁的方法中存在的边界限制。
此外,根据估计的掩模,随后生成融合图像,从而允许DRPL通过引入结构相似性和边缘保留来进一步测量融合图像与地面真相参考之间的差异。
贡献
1)提出了一种端到端架构,将每个像素转换为二进制代码,以确定其是聚焦还是散焦,从而防止了补丁分解并大大加快了前进的步伐。
2)引入了一种以互补源图像为输入并估计其相应的二进制映射的成对学习策略,从而显着提高了融合图像的质量。
3)将边缘保留技术和结构相似性度量都嵌入到模型中,以进一步提高融合图像的质量。
4)使用各种具有挑战性的模板生成合成的多焦点图像数据集。它由数千个成对的图像及其相应的掩码组成,使我们能够更实际地训练网络。
5)在合成和现实世界数据集上的实验结果证明了我们的方法在多焦点图像融合上与现有的最新方法相比的有效性和优越性。
相关工作
Conventional Image Fusion Methods
最近,已经研究了各种方法,包括变换域和空间域方法,用于多焦点图像融合。作为变换域方法中的典型分支,多尺度变换技术旨在使用一些人为设计的变换,例如离散小波变换 (DWT),curvelet变换 (CVT),shearlet变换,非次采样contourlet变换 (NSCT)和形态金字塔 (MP),将源图像分解成多个尺度进行融合。同样,基于稀疏表示 (SR) 的融合方法旨在通过利用来自过度完整字典的原子的备用组合来表示源图像。然后使用某些特定规则对不同源图像对应的稀疏表示系数进行融合,然后重建融合后的图像。例如,一些学者通过利用一组更紧凑的子字典,提出了一种用于图像融合和去噪的自适应稀疏表示 (ASR)。但是,由于SR通常采用滑动窗口技术来引入伪像,因此提出了卷积稀疏表示 (CSR)来学习与整个源图像相对应的系数。此外,基于边缘保留技术的融合方法是另一种典型的融合方法,它主要保留融合图像中的纹理/锐化细节。例如,提出了引导滤波融合 (GFF)将图像分解为基础层和细节层。Chen等人提出了一种新颖的边缘模型组合,不仅可以保持锐化信息,还可以去除块伪影。
尽管已经广泛研究了基于变换域的方法,但是由于它们对变换域中的高频分量敏感,因此在融合图像中确实存在亮度和颜色失真。相比之下,基于空间域的方法直接在像素级别融合源图像。具体来说,首先将图像分割成若干个具有固定大小的块,并通过遵循一定的活动水平测量来融合每对块。由于块的大小对融合质量有很大影响,因此引入四叉树(quad-tree)技术自适应地选择不同大小的块。
Deep Learning Based Image Fusion Methods
基于深度学习的方法由于其强大的图像表示能力,通常可以获得更好的图像质量。Liu等人 和Tang等人提出了深度卷积神经网络 (CNN) 用于融合多焦点图像。这些基于CNN的方法以图像补丁为输入,并输出分类结果,以确定该补丁是否被聚焦。Yang等人然后扩展了这些CNN架构以学习多级特征 (MLFCNN) 来提高性能。此外,Yan等人提出了一种无监督的深度学习方法 (MFNet)。直接预测补丁的分配。与包含全连接层进行分配的CNN,MLFCNN和MFNet不同,有些学者使用全卷积网络 (FCN)来获取融合图像。此外,还提出了端到端架构 (多级卷积神经网络: MLCNN和多尺度视觉注意深度卷积神经网络: MADCNN),可以直接从一对源图像中获取融合图像。与这些方法相比,本文提出了一种新颖的端到端方法,然后进行数据生成,像素到像素回归,对学习,结构相似性度量和边缘保存,预测每个像素的成员资格并实现最先进的性能。
(框架:一对源图像通过全卷积网络以估计其相应的加权图。同时,根据这些地图,生成融合图像,然后使用ground truth参考来测量其结构相似性和边缘细节)
方法
如我们所见,我们首先将一对源图像输入到共享的全卷积网络中,以获取其相应的加权图。
通过执行点积和加权求和运算,然后得到融合图像。为了使此融合图像类似于地面真相参考,利用SSIM来测量它们之间的结构相似性。此外,我们发现边缘细节存在于聚焦部分中,而散焦部分中没有这种属性。因此,边缘保留测量还被嵌入到模型中,以进一步提高图像质量。
Objective Function
1) Regression Pair Learning:
在我们提出的方法中,我们没有将每个图像分成一些小块,然后通过分类框架来确定它们的类别,而是通过回归方法直接将整个输入图像转换为它们的ground truth掩模,实现了像素到像素的估计,并大大加快了前进的步伐。通常,我们可以使用以下公式来测量输出和掩模参考之间的间隙。
其中f(·) 是网络的正向输出,而 | |·| | 1表示l1范数。请注意,l1范数是一种通用测量方法,已在基于图像重建的任务中使用了许多方法,例如图像反射,图像生成和图像超分辨率。我们使用l1范数的原因是为了鼓励减少模糊。
尽管等式 (1) 能够估计每个像素的模糊或清晰水平,但它忽略了每对图像之间的关系。为了解决这个问题,引入了对学习,以充分利用每对之间的互补相关性,如公式 (2) 所示:
前两个项允许模型同时将位于同一位置的具有不同模糊级别的像素投影为0或1,从而增加了网络的种类。此外,第三项强制配对的输出彼此具有约束,确保它们彼此互补,并且防止位于两个源图像的相同位置上的像素被估计为相同的值。
2) SSIM Measurement:
通常,在图像恢复中,通常会应用结构相似性指数 (SSIM) 来进一步保留不同滑动窗口在生成的图像和源图像之间相应位置的结构相似性。设I1和I2是两个不同的图像,则它们的SSIM可以定义为:
其中w1/w2是I1/I2中的滑动窗口或补丁 (例如,如果滑动窗口的大小设置为3 × 3,然后,wi也是一个与Ii分开的3 × 3补丁,沿着固定的步幅并从左上角滑动到右下角。);
C1和C2是两个预定义的非负常数。请注意,SSIM ∈ [0,1] 越大,这两个图像之间的相似度越高。在本文中,我们还使用SSIM来测量融合图像与其ground truth参考之间的相似性。
具体地,在得到该对图像中所有像素的预测后,通过
处理是为了确保用于融合的加权图是完全互补的。然后应用SSIM来测量融合图像和ground truth之间的相似性,如下所示。
SSIM(I f,Ig) 表示等式 (3) 中所有基于窗口的SSIM值的平均值。
3) Edge Preservation:
聚焦部分包含清晰的边缘,而模糊部分缺少此属性。如图2所示,我们可以看到纹理细节确实存在于聚焦部分的边缘,但是如果将该部分转换为平滑部分,则会丢失。因此,保留融合图像I f的边缘信息是合理的,该边缘信息也存在于ground truth参考Ig中:
这种梯度差异成本有助于防止深度卷积网络生成模糊图像。请注意,由于绝对值操作,该损失确实不是相对于输入变量的导数。然而,类似于 “ReLU”,它也不是衍生产品,但在深度学习中被广泛使用,式 (6) 仍然可以通过PyTorch中的autograd策略反向传播,这是深度学习中的一般策略.
因此,我们将回归对学习,SSIM测量和边缘保留结合在一起,以获得目标函数Eq(8):
Architecture:
提出的方法的CNN架构如图4所示。在这里,我们直接将其传递到一个全卷积网络中,该网络在每个层中进行填充,并且不会更改图像的比例,从而使网络易于更改为更深或更浅的版本。为了从输入数据中获得更有价值的信息,在第一个块中,我们应用一个具有9 × 9大尺寸的内核来扩大感知场,然后是‘BN’+‘ReLU’+'Swich’图4(b) 所示。请注意,k9n64s1p4表示内核大小为9 × 9,特征图的通道为64,步幅为1,填充为4。图4(a) 、 © 和 (d) 中的k3n2s1p1和k3n64s1p1也是如此。然后将其输出通过两个具有k3n64s1p1的卷积块,如图4© 所示。之后,为了避免梯度消失并学习更强大的表示,采用了12个残差块,并在图4(d) 中显示了残差块的洞察力。对称地,输出也通过两个带有k3n64s1p1的卷积块。最后,利用k3n2s1p1卷积块和Sigmoid运算来确保加权映射确实落入 [0,1] 的范围内。请注意,第3层的输出也添加到第16层的输出中,以记住**更浅的信息。**对于内核大小,我们在第一卷积层中应用大尺寸9 × 9内核以扩大感知场。与通常使用的3 × 3内核相比,**第一层中较大的内核有助于从邻居像素收集更多信息。**然后将3 × 3大小的内核应用于所有其余层,因为与其他大小的内核 (例如5 × 5和7 × 7) 相比,该内核包含的参数要少得多,从而使我们能够连接更多的卷积层以增加非线性能力。因此,我们将9 × 9尺寸的内核应用于第一卷积层,然后在其余层中应用3 × 3尺寸的内核。