多模态学习（八）：2022 TPAMI——U2Fusion: A Unified Unsupervised Image Fusion Network

论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9151265

一.摘要

1.1 摘要翻译

1.2 摘要解析

二.Introduction

2.1 Introduciton翻译

2.2 Introduction 解析

三. related work

3.1 related work翻译

3.2 relate work解析

四. 方法

4.1 方法翻译

4.2 方法解析

五.实验

5.1实验翻译

5.2 实验解析

一.摘要

1.1 摘要翻译

本研究提出了一种新型的统一且无监督的端到端图像融合网络（U2Fusion），能够解决多模态、多曝光、多焦点等不同融合任务。通过特征提取和信息度量，U2Fusion自动估计源图像的重要性并生成自适应信息保留度，从而将不同融合任务统一到同一框架中。基于自适应保留度，网络通过保持融合结果与源图像之间的相似性进行训练，显著缓解了深度学习在图像融合中依赖真值标签和专用设计指标的核心障碍。通过避免多任务顺序训练导致的能力丢失，我们获得了适用于多种任务的统一模型。此外，本研究发布了新的对齐红外-可见光数据集RoadScene（https://github.com/hanna-xu/RoadScene），为基准测试提供新选择。在三大典型图像融合任务上的定性与定量实验结果验证了U2Fusion的有效性和普适性，代码已开源（https://github.com/hanna-xu/U2Fusion）。

1.2 摘要解析

1. 研究背景与动机

图像融合是计算机视觉领域的重要研究方向，其目标是将来自多个源图像的信息整合到一张图像中，以增强视觉效果或提取更有用的信息。传统的图像融合方法通常针对特定任务（如多模态、多曝光或多焦点）进行设计，缺乏通用性和灵活性。此外，深度学习近年来在图像处理领域取得了显著进展，但将其应用于图像融合时存在以下挑战：

缺乏真实标签（Ground-truth） ：图像融合任务本质上是无监督的，难以定义明确的“正确答案”。
特定任务需求 ：不同任务需要专门设计的损失函数或评价指标，难以实现统一框架。
模型泛化性差 ：传统方法通常只能处理单一任务，无法同时应对多种融合场景。

为了克服这些问题，本文提出了 U2Fusion ，旨在实现一个统一且无监督的框架，能够同时处理多种图像融合任务。

2.创新点

创新点：
1. 统一框架：将不同融合任务整合到一个模型中，避免任务特定的设计。
2. 无监督学习：无需 ground-truth（真实融合图像），突破传统深度学习依赖标注的限制。
3. 自适应信息保留：通过特征提取和信息测量，动态调整源图像的贡献。
解析：
- 与 DenseFuse （见上一篇blog）相比，U2Fusion 的野心更大，DenseFuse 专注于红外与可见光融合，而 U2Fusion 扩展到多任务。
- 无监督方法是亮点，解决了 DenseFuse 中仅用可见光训练导致模态偏差的问题。

3.技术细节与优势

（1）网络架构

U2Fusion 的核心是一个端到端的深度学习网络，包含以下关键组件：

特征提取模块 ：使用卷积神经网络（CNN）提取源图像的特征。
信息度量模块 ：计算源图像的重要性，并生成自适应保留权重。
融合模块 ：根据自适应权重生成最终的融合图像。

（2）训练策略

由于图像融合任务缺乏真实标签，U2Fusion 采用了一种基于 自适应相似性 的训练策略：

训练目标是最小化融合图像与源图像之间的差异，同时最大化保留重要信息。
这种策略避免了对特定任务设计复杂损失函数的需求。

-----------------------------------------------------------------------------------------------------------------------------

端到端训练： U2Fusion采用端到端训练方式，使得网络能够自动学习最优的融合策略，无需人工设计复杂的融合规则。
避免任务顺序训练的性能损失： 通过统一框架处理多任务，避免了传统顺序训练方法中，后训练任务对先前训练任务性能的“遗忘”现象。
通用性： 实验结果表明，U2Fusion在多种图像融合任务中均表现出色，验证了其通用性。
无监督： 该方法减少了对于有监督训练的依赖，在训练样本缺乏的领域有更大的优势。

--------------------------------------------------------------------------------------------------------------------------------

二.Introduction

2.1 Introduciton翻译

图像融合在安防、工业和民用领域具有广泛应用[1][2]。受硬件设备或光学成像限制，单一传感器或拍摄设置仅能捕获部分信息（如有限亮度范围的反射光、固定景深等）。图像融合旨在通过整合多源图像（不同传感器或光学设置捕获）的互补信息生成合成图像。

如图1所示，融合图像需具备更优的场景表征和视觉感知能力以支持后续任务（视频监控、场景理解、目标识别等[3][4]）。典型任务包括多模态、多曝光、多焦点图像融合，现有算法可分为传统融合框架与端到端模型[9]。传统方法受限于人工设计规则，性能提升空间有限；端到端模型依赖真实标签（监督学习）或专用指标（无监督学习），但跨任务通用真值与评价指标缺失，成为模型统一与学习方法应用的主要障碍。尽管不同任务目标相似（整合关键互补信息），但源图像类型差异导致关键信息定义不同（详见3.1节）。神经网络强大的特征表征能力为统一表征提供了可能，本研究探索的统一框架可使多任务协同优化：例如多曝光训练可增强多模态/多焦点图像中欠/过曝光区域的融合性能，从而提升单任务泛化能力。为此，我们提出无监督统一图像融合网络U2Fusion：首先通过特征提取器获取丰富特征，基于信息度量定义特征重要性（即融合结果与源图像的相似性关系，相似性越高则信息保留度越高），随后训练DenseNet[10]生成融合结果（无需真值）。本文贡献包括：

①提出首个跨任务统一模型，解决传统方法任务隔离、存储计算冗余、持续学习灾难性遗忘等问题；

②构建无监督网络，通过约束融合图像与源图像相似性突破通用真值缺失的瓶颈；

③发布对齐红外-可见光数据集RoadScene（https://github.com/hanna-xu/RoadScene）；

④在6个数据集验证有效性。相较于前期工作[11]，本文改进包括：

基于特征信息度量（而非原始图像）动态分配信息保留度；
优化损失函数（移除梯度损失抑制伪影，增加像素强度损失降低亮度偏差）；
扩展多模态融合范围（含医学影像）；
补充消融实验验证弹性权重巩固（EWC）在持续学习中的有效性（权重统计分布、训练过程中间结果分析）。

2.2 Introduction 解析

问题背景与重要性 (Problem Context & Importance)

图像融合的需求: 单一传感器或成像设置无法捕捉场景的全部信息（如可见光与红外、不同曝光度、不同焦点）。图像融合通过结合多个图像的互补信息，生成信息更丰富、视觉效果更好的图像，这对于后续的计算机视觉任务（监控、识别、理解）至关重要。
融合类型: 明确了主要的应用场景：多模态（如可见光+红外，不同类型的传感器）、多曝光（解决高动态范围问题）和多焦点（解决景深限制问题）。

现有方法的局限性 (Limitations of Existing Methods):

传统方法: 依赖手工设计的特征提取和融合规则（如小波变换、金字塔分解等）。缺点是设计复杂、规则选择有限、性能提升困难、泛化能力差。
端到端深度学习方法: 虽然性能更好，但通常依赖：
- 监督学习: 需要大量的“真值”（Ground Truth）融合图像进行训练，但在大多数融合任务中，理想的、公认的真值图像是不存在或难以定义的。
- 无监督学习: 依赖特定的无参考质量度量指标来构建损失函数。然而，设计一个通用且有效的、适用于所有融合任务的无参考度量标准同样是巨大挑战。
任务特定性: 大多数现有方法（无论是传统还是深度学习）都是为特定融合任务（如仅多曝光或仅红外-可见光）设计的，缺乏跨任务的通用性。

U2Fusion的核心思想与创新 (Core Idea & Innovation of U2Fusion)

统一框架 (Unified Framework): 这是最核心的贡献。U2Fusion 旨在用一个模型、一套参数来处理多种不同的图像融合任务（多模态、多曝光、多焦点）。这极大地提高了模型的效率和实用性，避免了为每个任务单独设计和训练模型的麻烦，并减少了存储和计算需求。
无监督学习 (Unsupervised Learning): 为了规避对真值（Ground Truth）的依赖，U2Fusion 采用无监督学习策略。这是图像融合领域的一个重要研究方向。
基于信息保留度的损失函数 (Information Preservation Degree based Loss): 这是其无监督策略的关键。模型不直接学习如何逼近一个不存在的“真值”，而是学习如何最大程度地保留来自所有源图像的关键信息。它通过以下步骤实现：
- 用特征提取器（如 DenseNet 的一部分）提取源图像的深层特征。
- 测量这些特征中的信息丰富度 (richness of information)。
- 根据信息丰富度定义每个源图像特征对于最终融合结果的相对重要性（即“信息保留度”）。
- 通过约束融合图像与源图像在特征空间上的相似性（由信息保留度加权）来训练网络。信息保留度高的源图像，其特征应与融合图像的特征更相似。
解决灾难性遗忘 (Addressing Catastrophic Forgetting): 摘要后半部分提到，通过弹性权重巩固 (EWC) 等技术，模型在学习新任务时能够保留在旧任务上学到的知识，支持持续学习 (Continual Learning)，这对于统一模型处理多任务至关重要。

其他贡献 (Other Contributions)

新数据集 (New Dataset): 发布了 RoadScene 数据集（对齐的红外与可见光图像），为该领域的研究提供了新的基准资源。
广泛验证 (Extensive Validation): 在涵盖三种主要融合任务的六个数据集上进行了实验，证明了方法的有效性和普适性。
对初步版本的改进 (Improvements over Preliminary Version): 展示了研究的迭代过程，包括改进信息保留度计算方式（基于特征而非原始图像）、优化损失函数（移除梯度损失减少伪影，增加像素强度损失减少亮度偏差）、扩展任务范围和更深入的消融研究（EWC、自适应信息保留度）。

意义与影响 (Significance & Impact):

U2Fusion 代表了图像融合领域向着更通用、自动化、无需真值方向发展的重要一步。
其“统一模型”思想有望简化融合技术的应用部署，并可能通过任务间的相互促进提升整体性能。
基于信息保留度的无监督策略为解决缺乏真值和通用评价指标这一核心难题提供了有前景的思路。
对持续学习的考虑增加了模型在现实世界中不断适应新数据或新任务类型时的实用性。

三. related work

3.1 related work翻译

1 图像融合方法

1.1 基于传统融合框架的方法

传统的融合框架可以大致概括如图2所示：

由于重建通常是提取的逆过程，这些算法的关键在于两个重要因素：特征提取和特征融合。通过修改这两个因素，可以设计出用于解决多模态、多曝光或多焦点图像融合的方法。为了解决特征提取的问题，大量的传统方法被提出。它们所基于的理论可以分为四个代表性类别：i) 多尺度变换，如拉普拉斯金字塔(LP)、低通金字塔比率(RP)、梯度金字塔(GP)、离散小波变换(DWT)、离散余弦变换(DCT) [13]、曲波变换(CVT)、剪切波变换(Shearlet)等；ii) 稀疏表示 [14]；iii) 子空间分析，例如独立成分分析(ICA)、主成分分析(PCA)、非负矩阵分解(NMF)等；以及 iv) 混合方法。然而，这些手动设计的提取方法使得融合方法日益复杂，从而加剧了设计融合规则的难度。提取方法需要相应修改以解决不同的融合任务。此外，需要特别关注提取方法的适当性以确保证特征的完整性。为了克服这些限制，一些方法在特征提取中引入了卷积神经网络(CNN)，或者作为某些子部分[15], [16]，或者作为整个部分[17], [18]。然后，基于提取的特征来确定融合规则。常用的规则包括最大值、最小值、加法、l1范数等。然而，这些手动设计的融合规则的有限选择，即使在一些基于CNN的方法中，也对性能提升构成了玻璃天花板。值得注意的是，有一些方法脱离了这个框架，例如基于梯度传递和全变分最小化的VIS-IR图像融合方法[19]，通过优化结构相似性指数的多曝光图像融合方法[20]，以及基于密集SIFT的多焦点图像融合方法[21]等。然而，这些方法所基于的算法或度量标准是专用于特定融合任务的，可能泛化性不佳。

1.2 端到端模型

为了避免设计融合规则，许多基于深度学习的算法被提了出来。这些方法通常是为特定融合任务量身定制的端到端模型。

多模态图像融合。 用于多模态图像融合的端到端模型通常是为可见光(VIS)和红外(IR)图像融合设计的。Ma等人提出了FusionGAN [5]，通过在生成器和判别器之间建立对抗博弈，以保留红外图像中的像素强度分布和可见光图像中的细节。随后，其变体[22]被提出，通过引入目标增强损失来锐化热目标的边缘。DDcGAN [23], [24]通过引入双判别器架构来增强热目标的显著性。然而，可见光和红外图像融合中的独特问题是像素强度分布和细节的保留，这并不适用于其他融合任务。此外，这类任务中通常不存在真值（ground truth）。因此，这是在多模态图像融合中利用监督学习的主要障碍。
多曝光图像融合。 为了解决这个问题，一些无监督方法被提了出来。Prabhakar等人提出了Deepfuse [7]，其中采用无参考度量MEF-SSIM作为损失函数。然而，MEF-SSIM是专门为多曝光图像设计的，通过舍弃亮度分量，因为亮度分量在这个问题中不重要。然而，它在其他任务中仍然扮演重要角色。因此，MEF-SSIM不适用于其他问题。在一些多曝光数据集中，没有用于监督学习的真值。
多焦点图像融合。 对于这个问题，Liu等人提出了一个网络来生成焦点图[25]。预定义的标签（指示它们是高质量图像还是高斯模糊图像）用于监督学习。然后，它被扩展为一个通用的图像融合框架[26]。根据泛化能力，在多焦点图像融合上训练的模型可以用于解决其他任务。此外，Guo等人提出了FuseGAN [27]，其中生成器直接产生二元焦点掩码，判别器试图区分生成的掩码与真值（通过利用归一化圆盘点扩散函数以及分离背景和前景来合成）。焦点图/掩码对于多焦点图像融合很重要，但在其他任务中并非必需，甚至不适用。所有这些方法都基于监督学习。

考虑到上述限制，提出了一个统一的无监督图像融合网络，具有以下特点：i) 它是一个端到端模型，不受手动设计融合规则限制的约束。ii) 它是一个适用于各种融合任务的统一模型，而不是针对特定目标，例如独特性问题、度量标准的特殊性、对二元掩码的需求等。iii) 它是一个无监督模型，不需要真值。iv) 通过持续学习解决新任务而不丢失旧能力，它用统一的参数解决了多个任务。

2 持续学习

在持续学习（Continual Learning）设置中，学习被视为要学习的一系列任务。在训练阶段，权重会适应新任务，而不会忘记先前学习过的任务。为了避免存储先前学习任务的任何训练数据，许多基于弹性权重巩固（Elastic Weight Consolidation, EWC）的算法被提出[28], [29]，这些算法包含一个正则化项，强制参数保持接近为先前任务训练的参数。这些技术已广泛应用于许多实际问题中，例如行人重识别[30]、实时车辆检测[31]和情感识别[32]等。在本研究中，我们执行持续学习来解决多个融合任务。

3.2 relate work解析

1. 传统融合框架

核心流程: 清晰地阐述了传统方法的“三段式”流程：特征提取 → 特征融合 → 图像重建。这是理解这类方法的基础。
特征提取技术: 列举了四大类主流的传统特征提取方法：
- 多尺度变换 (Multi-scale Transform): 如各种金字塔 (LP, RP, GP) 和变换 (DWT, DCT, CVT, Shearlet)。这类方法的核心思想是在不同尺度/频域上分解图像，提取不同层次的特征。这是最经典和广泛使用的类别。
- 稀疏表示 (Sparse Representation): 假设图像信号可以用某个字典中的少量原子线性表示，通过学习字典和稀疏系数来提取特征。
- 子空间分析 (Subspace Analysis): 如 PCA, ICA, NMF，试图找到一个低维子空间来表示图像的主要信息。
- 混合方法 (Hybrid): 结合上述多种方法的优点。
核心局限性:
- 手动设计复杂性: 特征提取和融合规则都需要人工精心设计，费时费力，且依赖专家经验。
- 任务特定性: 不同的融合任务（多模态、多曝光、多焦点）往往需要不同的提取方法和融合规则，通用性差。
- 融合规则限制: 即使特征提取得不错（甚至用了部分CNN），简单的融合规则（如max, min, add, l1-norm）限制了最终性能，形成了“玻璃天花板”。
- 特例方法: 提及了一些不完全遵循该框架但仍是传统思路的方法（如基于梯度、TV、SSIM、SIFT），但同样强调了它们的任务特定性和泛化能力差的问题。

2. 端到端模型

核心优势: 采用深度学习（主要是CNN或GAN）直接从输入图像映射到融合图像，避免了手动设计特征提取和融合规则。模型通过数据驱动的方式自动学习融合过程。
任务特定性分析: 这是本节的关键，揭示了现有端到端模型的主要问题：
- 多模态 (VIS-IR): 现有模型（如FusionGAN, DDcGAN）主要针对红外和可见光融合，关注其独特问题（保留红外强度、可见光细节、增强热目标）。这些目标和使用的对抗学习策略不直接适用于其他融合任务。最大的障碍是缺乏真值 (Ground Truth)，难以进行监督学习。
- 多曝光: 提出了无监督方法（如DeepFuse），但其依赖的损失函数 (MEF-SSIM) 是专为多曝光设计的（忽略了亮度），不适用于需要考虑亮度的其他任务。同样面临缺乏真值的问题。
- 多焦点: 现有方法通常生成焦点图/掩码，这对于多焦点融合很关键，但对其他任务不适用。这些方法通常依赖监督学习，需要预定义标签或合成的真值掩码。
共同的痛点: 反复强调了现有端到端模型的两个主要痛点：任务特定性（模型、损失函数、目标都为特定任务设计）和对监督信息（真值或特定标签）的依赖（或无监督方法依赖任务特定的度量）。

3. 定位U2Fusion

在详细分析了传统和现有端到端方法的局限性后，作者清晰地定位了 U2Fusion 的优势，直接回应前面发现的问题：
- 端到端: 克服传统方法的手动设计限制。
- 统一: 克服现有端到端模型的任务特定性。
- 无监督: 克服对真值的依赖。
- 持续学习 & 统一参数: 进一步强调其统一性，能够用一套参数通过持续学习处理多个任务，解决灾难性遗忘问题。

4. 持续学习

概念引入: 简要介绍了持续学习（或增量学习）的概念，即模型按顺序学习多个任务而不忘记旧知识。
关键技术 (EWC): 提到了弹性权重巩固 (EWC) 作为一种代表性技术，通过正则化保护对旧任务重要的权重。
与U2Fusion的关联: 说明了在本研究中，持续学习技术（如EWC）是实现用统一模型和统一参数解决多个不同融合任务的关键机制。这使得模型在学习例如多曝光融合后，再去学习多焦点融合时，不会完全丢失多曝光融合的能力。

四. 方法

4.1 方法翻译

我们的系统允许使用不同传感器和/或拍摄设置从同一相机位置捕获的信号。在本节中，我们提供了问题公式、损失函数设计、弹性权重巩固技术以及网络架构的描述。

1 问题公式

聚焦于图像融合的主要目标，即保留源图像中的关键信息，我们的模型基于测量来确定这些信息的丰富程度。如果源图像包含丰富的信息，它对融合结果的重要性就很高，融合结果应与源图像表现出高度相似性。因此，我们方法的关键问题在于探索一种统一的测量方法，以确定源图像的信息保留程度。我们的方法不是像监督学习那样最大化融合结果与真实标注（ground truth）之间的相似性，而是依赖这些保留程度来保持与源图像的自适应相似性。作为一个无监督模型，它适用于多种融合问题，这些问题通常难以获得真实标注。为了实现所需的测量，一个主要问题是不同类型源图像中的关键信息差异很大。例如，在红外（IR）和正电子发射断层扫描（PET）图像中，关键信息是热辐射和功能反应，表现为像素强度分布。在可见光（VIS）和磁共振成像（MRI）图像中，关键信息是反射光和由图像梯度表示的结构内容[19]，[23]。在多焦点图像中，需要保留的信息包括视场深度（DoF）内的物体。在多曝光图像中，关键信息涉及可以增强的场景内容。上述多样性给设计统一的测量方法带来了相当大的困难，因为针对特定任务设计的测量方法在面对其他问题时不再有效。这些方法基于某些表面特征或特定属性，而在不同任务中，这些属性难以以统一的方式预先确定。我们通过综合考虑源图像的多方面属性来解决这一问题。为此，我们提取浅层特征（纹理、局部形状等）和深层特征（内容、空间结构等）来估计信息测量。U2Fusion 的流程总结如图3所示。

以源图像表示为 $I_1$ 和 $I_2$ ，训练一个 DenseNet 来生成融合图像 $I_f$ 。特征提取的输出是特征图 $\phi _{c_1}(I_1),...,\phi _{c_5}(I_1)$ 和 $\phi _{c_1}(I_2),...,\phi _{c_5}(I_2)$ 。然后在这些特征图上进行信息测量，生成两个测量值，分别表示为 $g_{I_1}$ 和 $g_{I_2}$ 。经过后续处理，最终的信息保留程度表示为 $\omega _1$ 和 $\omega _2$ 。 $I_1$ , $I_2$ , $I_f$ , $\omega _1$ , $\omega _2$ 被用于损失函数中，无需真实标注。在训练阶段，测量 $\omega _1$ 和 $\omega _2$ 并用于定义损失函数。然后，优化 DenseNet 模块以最小化损失函数。在测试阶段，不需要测量 $\omega _1$ 和 $\omega _2$ ，因为 DenseNet 已被优化。详细定义或描述将在以下小节中给出。

1 特征提取

        与专为融合任务训练的模型相比，用于其他计算机视觉任务的模型通常在更大、更多样化的数据集上训练。因此，这些模型提取的特征丰富且全面[33]，[34]。受感知损失[35]，[36]的启发，我们采用预训练的 VGG-16 网络[37]进行特征提取，如图4所示。
        输入I 在我们的模型中被统一为单通道（我们将在第3.5节讨论这种转换），我们将其复制为三通道，然后输入到 VGG-16 中。在最大池化层之前的卷积层输出是用于后续信息测量的特征图，如图4所示，表示为 $\phi _{c_1}(I_1),...,\phi _{c_5}(I_1)$ ，其形状如下所示。

        为了直观分析，图5展示了一对多曝光图像的部分特征图。在原始源图像中，过曝图像比欠曝图像包含更多的纹理细节或更大的梯度，因为后者受低亮度的影响较大。在图5中， $\phi _{c_1}(I)$ 和 $\phi _{c_2}(I)$ 的特征基于浅层特征，如纹理和形状细节。在这些层中，过曝图像的特征图仍然显示出比欠曝图像更多的信息。相比之下，较高层（如 $\phi _{c_4}(I)$ 和 $\phi _{c_5}(I)$ ）的特征图主要保留深层特征，如内容或空间结构。在这些层中，欠曝图像的特征图中出现了可比较的和额外的信息。因此，浅层和深层特征的组合形成了对关键信息的全面表示，这些信息可能不易被人类视觉感知系统察觉。

2 信息测量

为了测量提取的特征图中包含的信息，使用其梯度进行评估。与一般信息理论衍生的实体相比，图像梯度是一种基于局部空间结构和小感受野的度量。在深度学习框架中使用时，梯度在计算和存储方面效率更高。因此，它们更适合在 CNN 中用于信息测量。信息测量定义如下：

$g_{I_I} = \frac{1}{5} \sum_{j=1}^{5} \frac{1}{H_j W_j D_j} \sum_{k=1}^{D_j} \left\| \nabla f_{C_j k}(I_I) \right\|_F^2$ (1)

其中， $f_{C_j}(I_I)$ 是图4中第 j个最大池化层之前的卷积层输出的特征图，k 表示第 k 个通道的特征图（共 $D_j$ 个通道）， $\|\cdot\|_F$ 表示 Frobenius 范数， $\nabla$ 是拉普拉斯算子。

3 信息保留程度

为了保留源图像中的信息，分配两个自适应权重作为信息保留程度，这些权重定义了融合图像与源图像之间相似性的权重。权重越高，期望的相似性越高，相应源图像的信息保留程度也越高。

这些自适应权重表示为 $\omega _1$ 和 $\omega _2$ ，根据等式 (1) 获得的信息测量结果 $g_{I_I},g_{I_2}$ 估计。由于 $g_{I_I},g_{I_2}$ 之间的差异是绝对值而非相对值，与它们自身相比可能太小，无法反映其差异。因此，为了增强并体现权重的差异，使用一个预定义的正常数 c 来缩放值，以更好地分配权重。因此， $\omega _1$ 和 $\omega _2$ 定义为：

$[\omega_1, \omega_2] = \text{softmax} \left( \left[ \frac{g_{I_1}}{c}, \frac{g_{I_2}}{c} \right] \right)$

其中，我们使用 softmax 函数将 $\frac{g_{I_1}}{c}, \frac{g_{I_2}}{c}$ 映射到 0 到 1 之间的实数，并保证 $\omega _1$ 和 $\omega _2$ 的和为1。然后， $\omega _1$ 和 $\omega _2$ 被用于损失函数中，以控制特定源图像的信息保留程度。

2 损失函数

损失函数主要设计用于保留关键信息并训练适用于多任务的单一模型。它由两部分组成，定义如下：

$L(\theta, D) = L_{sim}(\theta, D) + \lambda L_{ewc}(\theta, D)$

其中， $\theta$ 表示 DenseNet 中的参数，D 是训练数据集。 $L_{sim}(\theta, D)$ 是融合结果与源图像之间的相似性损失。 $L_{ewc}(\theta, D)$ 是为持续学习设计的一项，将在下一小节描述。 $\lambda$ 是一个超参数，用于控制权衡。我们从两个方面实现相似性约束，即结构相似性和强度分布。鉴于结构相似性指数（SSIM）是根据光线、对比度和结构信息相似性建模失真的最广泛使用的度量[38]，我们使用它来约束 $I_1, I_2$ 和 $I_f$ 之间的结构相似性。因此，使用 $\omega _1$ 和 $\omega _2$ 控制信息程度， $L_{sim}(\theta, D)$ 的第一项被表述为：

$L_{ssim}(\theta, D) = E[\omega_1 \cdot (1 - S_{I_f, I_1}) + \omega_2 \cdot (1 - S_{I_f, I_2})]$

其中， $S_{xx, yy}$ 表示两张图像之间的 SSIM 值。虽然 SSIM 关注对比度和结构的变化，但它对强度分布差异的约束较弱。我们用第二项补充 $L_{sim}(\theta, D)$ ，该项由两张图像之间的均方误差（MSE）定义：

$L_{mse}(\theta, D) = E[\omega_1 \cdot \text{MSE}_{I_f, I_1} + \omega_2 \cdot \text{MSE}_{I_f, I_2}]$

同时，通过约束 MSE 获得的结果由于平均所有可能的输出而显得相对模糊，而 SSIM 可以弥补这一问题。因此，这两项相互补偿。使用 $\alpha$ 控制权衡， $L_{sim}(\theta, D)$ 被表述为：

$L_{sim}(\theta, D) = L_{ssim}(\theta, D) + \alpha L_{mse}(\theta, D)$

3 使用弹性权重巩固（EWC）实现多融合任务的单一模型

不同的融合任务通常会导致特征提取和/或融合的差异，这直接体现在 DenseNet 参数值的多样性上。这导致需要训练多个具有相同架构但参数不同的模型。然而，由于一些参数是冗余的，这些模型的利用率可以大大提高。这激励我们训练一个具有统一参数的单一模型，整合这些模型，从而适用于多种任务。这一目标可以通过两种方式实现，即联合训练和顺序训练，如图6所示。

联合训练是一种简单方法，其中所有训练数据在整个训练过程中都保留。在每个批次中，从多个任务中随机选择数据进行训练。然而，随着任务数量的增加，两个紧迫问题变得难以解决：i) 始终保留先前任务数据导致的存储问题；ii) 使用所有数据进行训练导致的计算问题，包括计算难度和时间成本。在顺序训练中，我们需要为不同任务更改训练数据，如图6b所示。因此，在训练过程中只需存储当前任务的数据，解决了存储和计算问题。然而，当我们为新任务训练模型以获得新能力时，出现了一个新问题：之前的训练数据不可用[39]。随着训练过程的继续，参数被优化以解决新问题，同时失去了从先前任务中学到的能力。这个问题被称为灾难性遗忘。为了避免这一缺点，我们应用弹性权重巩固算法（EWC）[12]来防止它。在 EWC 中，当前任务参数 $\theta$ 与先前任务参数 $\theta^*$ 之间的平方距离根据其对 $\theta^*$ 的重要性加权。那些重要的参数被赋予更高的权重，以防止遗忘从旧任务中学到的知识，而重要性较低的参数可以更大程度地修改以学习新任务。通过这种方式，模型能够通过弹性权重巩固实现持续学习。因此，用于持续学习的损失 $L_{ewc}(\theta ;D)$ ，被包含在等式 (3) 的总损失函数中。这些与重要性相关的权重定义为 $\mu_i$ ， $L_{ewc}(\theta ;D)$ 被表述为：

$L_{ewc}(\theta ;D) = \frac{1}{2} \sum_i\mu _i (\theta _i - \theta _i^*)^2$

其中 i表示网络中的第 i 个参数， $u_i$ 表示相应平方距离的权重。为了评估重要性， $u_i$ 被指定为 Fisher 信息矩阵的对角项，并通过使用先前任务数据的梯度平方计算近似，如下定义：

$\mu _i = E \left[ \left( \frac{\partial}{\partial \theta _i^*} \log p(D^*|\theta ^*) \right)^2 \bigg|{\theta ^*} \right]$

其中 $D^*$ 表示先前任务的数据。 $\log p(D^*|\theta ^*)$ 可以近似替换为 $-L(\theta ^*, D^*)$ [12]。因此，等式 (8) 转换为：

$\mu _i = E \left[ \left(- \frac{\partial}{\partial \theta _i^*} \log p(D^*|\theta ^*) \right)^2 \bigg|{\theta ^*} \right]$

由于 Fisher 信息矩阵可以在丢弃旧数据 $D^*$ 之前计算，模型在训练当前任务时不需要 $D^*$ 。如果存在多个先前任务， $L_{ewc}(\theta ;D)$ 根据特定任务和相应数据进行调整。然后，这些梯度的平方被平均以获得最终的 $u_i$ 。训练过程和数据流如图7所示。

在多任务图像融合中， $\theta$ 是 DenseNet 的参数。首先，DenseNet 被训练以解决任务1，即通过最小化等式 (6) 定义的相似性损失来解决多模态图像融合问题。当增加解决任务2（即多曝光图像融合问题）的能力时，首先计算与重要性相关的权重 $u_i$ 。特别是， $u_i$ 指示 DenseNet 中每个参数对多模态图像融合的重要性。然后，通过最小化等式 (3) 中的 $L_{ewc}$ 项巩固重要参数，以避免灾难性遗忘；而重要性较低的参数通过最小化相应的相似性损失 $L_{sim}$ 更新以解决多曝光图像融合。最后，当我们在多焦点图像融合上训练 DenseNet 时，根据前两个任务计算 $u_i$ 。后续的弹性权重巩固策略与之前相同。通过这种方式，EWC 可以定制为多任务自适应图像融合的场景。

4 网络架构

在我们的方法中，DenseNet 被用来生成融合结果 $I_f$ ，其输入是 $I_1$ 和 $I_2$ 的拼接。因此，它是一个无需设计融合规则的端到端模型。

如图8所示，U2Fusion 中 DenseNet 的架构由 10 层组成，每层包括一个卷积后接一个激活函数。所有卷积层的核大小设置为 $3 \times 3$ ，步幅为 1。在卷积之前采用反射填充以减少边界伪影。不使用池化层以避免信息损失。前九层的激活函数是 LeakyReLU，斜率设置为 0.2，而最后一层是 tanh。此外，研究表明，如果在靠近输入的层和靠近输出的层之间建立较短的连接，CNN 可以显著加深并高效训练。因此，在前七层中，采用了密集连接 CNN [10] 中的密集连接块来改善信息流和性能。在这些层中，以前馈方式在每层与所有层之间建立了直接的快捷连接，如图8中的拼接操作所示。这种方式可以减少梯度消失问题。同时，特征传播可以进一步加强，同时减少参数数量[40]。特征图的通道数均设置为 44。随后四层逐渐减少特征图的通道数，直到达到单通道融合结果，如图8所示。

5 处理 RGB 输入

RGB 输入首先被转换为 YCbCr 颜色空间。然后，使用 Y（亮度）通道进行融合，因为结构细节主要在此通道中，且此通道的亮度变化比色度通道更明显。Cb 和 Cr（色度）通道的数据按传统方式融合：

$C_f = \frac{C_1 (|C_1 - t|) + C_2 (|C_2 - t|)}{|C_1 - t| + |C_2 - t|}$

其中 $C_1$ 和 $C_2$ 分别是第一和第二源图像的 Cb/Cr 通道值， $C_f$ 是融合结果的相应通道，t 设置为 128。然后，通过逆转换，融合图像可以转换回 RGB 空间。因此，所有问题都被统一为单通道图像融合问题。

6 处理多个输入

在多曝光和多焦点融合中，我们需要融合源图像序列，即存在两个以上的源图像。在这种情况下，这些源图像可以顺序融合。如图9和图10所示，我们首先融合其中的两个源图像。然后，将中间结果与另一个源图像融合。以这种方式，U2Fusion 理论上能够融合任意数量的输入。

4.2 方法解析

1 特征提取

方法：
- 使用预训练的 VGG-16 网络提取特征，而非 DenseFuse 的自定义密集块。
- 输入单通道图像（ $I_I$ ），复制为三通道以适配 VGG-16。
- 提取 5 个卷积层（ $f_{C1} \dots f_{C5}$ ）的特征图，分别对应浅层（纹理）和深层（内容）信息。
分析：
- VGG-16 的选择：受感知损失启发，VGG-16 在 ImageNet 上训练，特征表达丰富，适合多任务提取（文献 [33], [34]）。
- 多尺度特征：浅层（ $f_{C1}, f_{C2}$ ）捕获纹理细节，深层（ $f_{C4}, f_{C5}$ ）捕获空间结构，与图5示例吻合。
解析：
- 与 DenseFuse 的区别：DenseFuse 使用密集块从头训练，特征针对融合任务优化；U2Fusion 借用预训练 VGG-16，泛化性更强但可能不完全适配融合。
- 单通道输入：统一为单通道
- 优势：浅层和深层特征结合，提供全面信息表示，弥补人类视觉局限。

2 信息测量

方法：
- 使用特征图梯度的 Frobenius 范数衡量信息： $g_{I_I} = \frac{1}{5} \sum_{j=1}^{5} \frac{1}{H_j W_j D_j} \sum_{k=1}^{D_j} \left\| \nabla f_{C_j k}(I_I) \right\|_F^2$
- 梯度通过拉普拉斯算子计算，强调局部空间结构。
分析：
- 梯度优势：相比信息熵等全局统计，梯度计算效率高，感受野小，适合 CNN。
- 归一化：除以 $H_j W_j D_j$ （特征图尺寸和通道数），标准化不同尺度的测量。
解析：
- 与 DenseFuse 对比：DenseFuse 用 l1-范数衡量特征显著性，U2Fusion 用梯度范数，关注空间变化而非绝对强度。
- 实现细节：拉普拉斯算子可能通过 Sobel 滤波或二阶差分实现，高效但可能对噪声敏感。
- 意义：梯度反映纹理和边缘信息，与多任务需求（如多焦点、多曝光）一致。

3 信息保留程度

方法：
- 自适应权重 $\omega_1, \omega_2$ 通过 softmax 计算：
- $[\omega_1, \omega_2] = \text{softmax} \left( \left[ \frac{g_{I_1}}{c}, \frac{g_{I_2}}{c} \right] \right)$
- c是缩放常数，增强 $g_{I_1}, g_{I_2}$ 的相对差异。
分析：
- 权重作用： $\omega_1, \omega_2$ 控制融合图像与源图像的相似性，信息丰富的图像权重更高。
- Softmax 设计：归一化到 [0, 1] 且和为 1，保证权重分配合理。
解析：
- 与 DenseFuse 对比：DenseFuse 的 l1-范数权重直接加权特征，U2Fusion 的 $\omega_1, \omega_2$ 用于损失函数，更动态。
- c 的作用：避免绝对值差异过小（如红外与可见光的梯度差异），增强区分度。
- 潜在问题：c 需手动调参，可能影响鲁棒性。

4. 损失函数

方法：
- 总损失：
- $L(\theta, D) = L_{sim}(\theta, D) + \lambda L_{ewc}(\theta, D)$
- 相似性损失：
  - $L_{ssim}(\theta, D) = E[\omega_1 \cdot (1 - S_{I_f, I_1}) + \omega_2 \cdot (1 - S_{I_f, I_2})]$ ：结构相似性。
  - $L_{mse}(\theta, D) = E[\omega_1 \cdot \text{MSE}_{I_f, I_1} + \omega_2 \cdot \text{MSE}_{I_f, I_2}]$ ：强度分布。
- $L_{ewc}$ ：持续学习项（下一节详述）。
分析：
- SSIM 和 MSE 互补：
  - SSIM 关注结构和对比度，弱化强度分布。
  - MSE 关注像素级差异，但可能导致模糊。
- $\omega_1, \omega_2$ 的作用：动态加权相似性，保留信息丰富的源图像特征。
- α 和 λ：超参数平衡各部分损失。
解析：
- 与 DenseFuse 对比：DenseFuse 用固定 λ 加权 MSE 和 MS-SSIM，U2Fusion 用 $\omega_1, \omega_2$ 自适应加权 SSIM 和 MSE。
- 无监督实现：通过与源图像的相似性优化，无需 ground-truth，优于 DenseFuse 的监督训练。
- 持续学习： $L_{ewc}$ 解决多任务遗忘问题，DenseFuse 无此设计。

5 使用 EWC 实现多任务单一模型

核心问题：
- 不同融合任务导致 DenseNet 参数差异，传统方法需训练多个模型。
- 参数冗余激励单一模型设计，支持多任务。
方法：
- 联合训练：所有任务数据同时训练，随机采样。
  - 优点：简单。
  - 缺点：存储和计算成本高，随任务数增加不可持续。
- 顺序训练：逐任务训练，仅存储当前任务数据。
  - 优点：解决存储和计算问题。
  - 缺点：灾难性遗忘（catastrophic forgetting），新任务优化覆盖旧任务能力。
- EWC 解决方案：
  - 通过 $L_{ewc}(\theta ;D) = \frac{1}{2} \sum_i\mu _i (\theta _i - \theta _i^*)^2$ 正则化参数变化。
  - $\mu _i$ （Fisher 信息矩阵对角项）衡量参数对旧任务的重要性。
  - 重要参数变化受限，低重要性参数可更新。
解析：
- 与 DenseFuse 对比：DenseFuse 单任务训练，无多任务支持。U2Fusion 用 EWC 实现持续学习，统一多任务。
- EWC 的作用：通过梯度平方（公式 (9)）估计参数重要性，避免遗忘，类似正则化但任务特定。
- 实现细节：
  - Fisher 信息矩阵近似计算高效（无需保留旧数据）。
  - 多任务累积 $\mu _i$ 需平均，可能稀释特定任务权重。
- 潜在问题：
  - $\mu _i$ 依赖梯度分布，若任务数据不均衡，可能偏向某一任务。
  - λ 调参关键，过大限制新任务学习，过小无法防遗忘。

6 网络架构

设计：
- 输入： $I_1$ 和 $I_2$ 拼接，端到端生成 $I_f$ 。
- 结构：10 层卷积网络：
  - 前 7 层：密集连接块（3x3 卷积，LeakyReLU，44 通道）。
  - 后 3 层：通道渐减至 1（tanh 输出）。
- 特点：无池化，反射填充，密集连接缓解梯度消失。
解析：
- 与 DenseFuse 对比：
  - DenseFuse 用密集块生成 64 特征图，U2Fusion 固定 44 通道，结构更深（10 层 vs 3 层）。
  - DenseFuse 融合层显式（如 l1l_1l1-范数），U2Fusion 端到端无需规则。
- 密集连接：前 7 层全局拼接（经典 DenseNet），增强特征复用，与之前分析的局部连接不同。
- 激活函数：
  - LeakyReLU（0.2）保留负值信息，tanh 输出归一化到 [-1, 1]。
- 潜在问题：
  - 固定 44 通道可能限制特征表达力。
  - 无池化增加计算量，需权衡效率。

7 处理 RGB 输入

方法：
- RGB 转 YCbCr，仅 Y 通道融合。
- Cb/Cr 传统融合：加权平均（公式 (10)）。
解析：
- 与 DenseFuse 对比：DenseFuse 逐通道融合 RGB，U2Fusion 简化至 Y 通道，色度传统处理。
- 优势：Y 通道含结构信息，简化多模态处理。
- 局限：
  - Cb/Cr 融合依赖固定阈值 t=128，可能丢失色度细节。
  - 未利用深度学习优化色度，可能影响 RGB 融合质量。

8 处理多个输入

方法：
- 顺序融合：两两融合，迭代生成最终结果。
专家解析：
- 灵活性：理论上支持任意输入，优于 DenseFuse 的双输入限制。
- 潜在问题：
  - 顺序依赖中间结果，误差可能累积。
  - 未提及多输入时的 $\omega_1, \omega_2$ 计算

五.实验

5.1实验翻译

实验结果与讨论

在本节中，我们将 U2Fusion 与多种最新方法在多个任务和数据集上进行定性和定量比较。

1 训练细节

我们对 U2Fusion 进行了三种类型的融合任务实验：i) 多模态图像融合，包括可见光-红外（VIS-IR）和医学图像（PET-MRI）融合；ii) 多曝光图像融合；iii) 多焦点图像融合。鉴于 VIS-IR 和 PET-MRI 融合的性质相似（详见第 3.1 节的解释），它们被联合视为多模态图像融合（任务 1）。训练数据集来自四个公开数据集：任务 1 使用 RoadScene1（VIS-IR）和 Harvard2（PET-MRI），任务 2 使用 [41] 中的数据集，任务 3 使用 Lytro4。为了验证通用性，测试数据集还包括两个额外的 TNO5（VIS-IR 图像融合）和 EMPA HDR6（多曝光图像融合）。基于 FLIR 视频7，我们发布了 RoadScene，这是一个新的对齐 VIS-IR 图像数据集，用于弥补现有数据集的不足。首先，我们从视频中选择场景高度重复的图像对。其次，减少原始红外图像中的热噪声。第三，为了精确对齐图像对，我们仔细选择特征点，并使用单应性变换和双三次插值对齐每对图像。此外，由于相机畸变或成像时间间隔导致某些区域无法通过单应性精确对齐，我们裁剪出精确配准的区域。

RoadScene 包含 221 对对齐图像对，涵盖丰富的场景，如道路、车辆和行人。它解决了基准数据集中的问题，如图像对数量少、空间分辨率低以及红外图像缺乏详细信息。所有数据集中的源图像被裁剪为 64×64 的小块。对于多焦点图像，由于对齐图像对不足，我们对图像进行放大和翻转以增加训练数据。我们设置 α=20、 $\lambda =8\times 10^4$ 。c 分别设置为 $3 \times 10^3$ 、 $3.5 \times 10^3$ 和 $1 \times 10^2$ ，对应的训练轮数分别为 3、2 和 2。参数通过 RMSPropOptimizer 更新，学习率为 $1 \times 10^{-4}$ 。批次大小为 18。实验在 NVIDIA Geforce GTX Titan X GPU 和 3.4 GHz Intel Core i5-7500 CPU 上进行。

2 多模态图像融合

1 可见光和红外图像融合

我们将 U2Fusion 与五种最新方法进行比较：HMSD [42]、GTF [19]、DenseFuse [17]、FusionGAN [5] 和 DDcGAN [24]。TNO 和 RoadScene 数据集上的定性结果分别如图 11 和图 12 所示。

总体而言，U2Fusion 表现出比竞争方法更清晰的外观。如高亮区域所示，竞争方法丢失了一些细节，例如汽车、标志和车牌。相比之下，U2Fusion 通过呈现更多细节缓解了这一问题。此外，在一个源图像信息极少的情况下，U2Fusion 在融合结果中更完整地保留了另一个源图像的信息，如图 11 的最后一行和图 12 的第一行所示。此外，U2Fusion 还被应用于 RoadScene 中融合 VIS（RGB）和灰度 IR 图像。

如图 13 所示，融合结果更像是通过 IR 图像增强的 VIS 图像，以更好地表现场景，因为融合过程仅在 Y 通道上进行，色度信息全部来自 VIS 图像。

在 TNO 和 RoadScene 的剩余 20 和 45 对图像上进行定量比较。使用四种指标进行评估：相关系数（CC）、SSIM、峰值信噪比（PSNR）和差值的相关性总和（SCD）[43]。CC 测量源图像与结果之间的线性相关程度。PSNR 评估融合过程引起的失真。SCD 量化融合图像的质量。如表 1 所示，U2Fusion 在两个数据集的 CC、SSIM 和 PSNR 上排名第一。尽管在 SCD 上排名第二，但其结果具有竞争力。这些有前景的结果表明，U2Fusion 与源图像具有高保真度，失真、噪声或伪影较少。

2 医学图像融合

我们在 Harvard 数据集上将 U2Fusion 与 RPCNN [44]、CNN [16]、PAPCNN [45] 和 NSCT [6] 进行比较。

如图 14 所示，我们的结果在功能信息（颜色）损失较少的前提下，具有更多的结构（纹理）信息。对剩余 10 对测试图像对进行第 4.2.1 节中四种指标的定量评估，结果如表 2 所示。

在 CC、SSIM 和 PSNR 上取得最佳结果表明，U2Fusion 与源图像具有更高的相关性和相似性，且产生更少的失真/噪声。在 SCD 上的次优结果表明，U2Fusion 在差异与源图像的相关性上表现相当。

3 多曝光图像融合

我们将 U2Fusion 与 GFF [46]、DSIFT [47]、GBM [48]、Deepfuse [7] 和 FLER [49] 进行比较，针对源图像曝光比例大且信息量少的更具挑战性的问题。[41] 中的数据集和 EMPA HDR 数据集上的定性结果分别如图 15 和图 16 所示。

由于源图像曝光设置不当，场景表现较弱，视觉感知较差。在我们的结果中，这些表现通过适当的曝光得到进一步增强。GFF、DSIFT 和 FLER 中的局部暗区域在 U2Fusion 中得到改善。此外，与 GBM 和 Deepfuse 相比，我们的结果具有更清晰的细节或更高的对比度，提供更好的细节表现，如红框所示。

在 [41] 中的数据集和 EMPA HDR 数据集的 30 和 15 对图像上进行定量比较。除了 SSIM、PSNR 和 CC 外，还使用边缘强度（EI）指标进行评估。EI 反映边缘点的梯度幅度。均值和标准差如表 3 所示。在 [41] 数据集上，U2Fusion 在 SSIM 和 PSNR 上取得最优均值。EI 和 CC 的结果分别落后于 FusionDN 和 Deepfuse 0.02 和 0.011。在 EMPA HDR 数据集上，我们的 SSIM 均值最佳。对于其他指标，U2Fusion 取得 0.037、0.064 和 0.009，接近最佳值。这些结果表明，U2Fusion 中融合图像与源图像的相似性和相关性更高，失真更少，梯度幅度更大。

4 多焦点图像融合

我们将方法与 DSIFT [50]、GBM [48]、CNN [25]、GFDF [8] 和 SESF-Fuse [18] 进行比较，定性结果如图 17 所示。

虽然 U2Fusion 未使用真实标注进行监督，也未提取和填充融合图像中的焦点区域，但仍取得相当的结果。如第一行所示，竞争方法在焦点和失焦区域边界处模糊的边缘被融合到结果中。在 U2Fusion 中，这一现象得到缓解，因为它在判断相对模糊关系后尝试重建焦点区域。其他差异如最后两行所示，在 DSIFT、CNN、GFDF 和 SESF-Fuse 中，焦点和失焦区域边界处的一些细节丢失，例如高尔夫球和耳朵边缘。尽管 GBM 保留了这些细节，但结果中可观察到明显的亮度和颜色偏差。相比之下，U2Fusion 在更大程度上保留了这些细节。

评估指标包括 EI、CC、视觉信息保真度（VIF）[51] 和平均梯度（MG）。VIF 通过计算源图像与融合结果之间的失真来测量信息保真度。MG 越大，图像包含的梯度越多，融合性能越好。如表 4 所示，U2Fusion 在 EI 和 CC 上取得最优结果。EI 上的最佳结果和 MG 上的次优结果表明，我们的结果具有更多梯度，呈现更清晰的外观。这些结果与图 17 的定性结果一致。此外，CC 上的最佳结果和 VIF 上的最优结果表明，U2Fusion 与源图像保持最高的线性相关性，并实现相当的信息保真度。

3 关于 EWC 的消融研究

在 U2Fusion 中，我们使用弹性权重巩固（EWC）训练单一模型以应对三种融合任务，克服灾难性遗忘。为了验证其有效性，我们进行了一个对比实验，在不使用 EWC 的情况下顺序训练任务。从三个方面分析其有效性：i) 相似性损失，ii) $\mu_i$ 的统计分布，iii) 训练阶段的中间融合结果。相似性损失 $L_{sim}(\theta ;D)$ （等式 (3)）的变化如图 18 所示。

第一张图是不应用 EWC 时每个任务的相似性损失，第二张图是应用 EWC 时的损失。任务 1 和任务 2 的损失差异不明显。然而，当在任务 3 上训练 DenseNet 且不使用 EWC 时，任务 2 验证数据集上的损失明显增加。这表明当前网络在多曝光图像融合上的性能下降。使用 EWC 时，前任务的相似性损失与单独训练时基本相同。因此，通过应用 EWC，我们获得了一个适用于这些任务的单一模型。我们还比较了有无 EWC 时 $\mu_i$ 的统计分布，如图 19 所示。

$\mu_i$ 在每个任务训练后通过相似性损失和相应数据集计算。例如，训练任务 3 后的分布是通过任务 1 和任务 2 的相似性损失和数据集计算得到的平均 $\mu_i$ 的统计分布。不使用 EWC 时，三个任务后的 $\mu_i$ 分布差异不大，如第一张图所示。参数仅与当前任务相关， $\mu_i$ 仅显示参数对当前任务的重要性。然而，使用 EWC 时，大值 $\mu_i$ 的比例显著增加。这一增加表明网络中存在更多重要参数，这些参数不仅对当前任务而且对前任务都重要。同时，小值的比例减少表明网络冗余减少。越来越多的参数在提升融合性能中发挥重要作用。有无 EWC 的直观定性比较结果如图 20 所示。

在任务 1 和任务 2 上训练模型后，有无 EWC 的模型在多模态和多曝光图像融合上均取得满意结果。由于未在任务 3 上训练，多焦点图像融合结果显示边缘模糊，如图 20a、20b 和 20c 中任务 3 的结果所示。然而，在任务 3 上训练后，结果显示更清晰的外观，如图 20d 和 20e 中任务 3 的结果所示。不使用 EWC 时，任务 2 的性能下降，例如整个图像亮度降低。此外，任务 1 的结果在图 20b 和 20c 中存在明显差异。使用 EWC 时，这两个问题得到缓解，如图 20d 和 20e 所示。

4 不同任务间互助的统一模型

在 U2Fusion 中，我们使用 EWC 持续学习新任务。这样，统一模型能够融合多种类型的源图像。因此，使用统一参数，U2Fusion 从单一任务中学到的信息可以促进其他任务。为验证这一点，我们为每个任务训练独立模型，因此不同任务间无交互。融合结果如图 21 所示。

尽管多模态和多焦点图像融合与多曝光图像融合不同，但多模态和多焦点图像也有过曝区域，这从前三列的可见光图像和最后一列的远焦图像中明显可见。使用训练过多曝光图像融合的统一模型，U2Fusion 在这些过曝区域表现出比独立模型更清晰的表示。另一个例子是多曝光图像融合的结果，即第六列。源图像中的高亮区域类似于多焦点图像。由于模型已从多焦点图像融合中学习，U2Fusion 的结果比独立训练的模型显示更清晰锐利的边缘。因此，通过聚集多个任务的优势，U2Fusion 不仅对多种类型的源图像具有强大泛化能力，而且对同一类型源图像中的多种区域也如此。因此，统一模型可以实现不同融合任务的互助。

5 关于自适应信息保留程度的消融研究

为了验证自适应信息保留程度的有效性，我们进行了实验，将 $\omega _1$ 和 $\omega _2$ 直接设置为 0.5。六个数据集上的对比结果如图 22 所示。

第一行是 $\omega _1$ 和 $\omega _2$ 固定为 0.5 的结果，第二行是 U2Fusion 的结果。在多模态图像融合中，没有自适应信息保留程度的结果显示较差的细节表示，如云的边缘、吉普车的纹理、网的细节和结构信息。在多曝光图像融合中，差异在过曝区域明显可见。没有自适应程度时，这些区域仍显得过曝，如花、窗户和太阳。这一现象在多焦点图像融合结果中最为明显。当 $\omega _1$ 和 $\omega _2$ 直接设为 0.5 时，网络无法区分焦点和失焦区域。因此，结果边缘模糊，而 U2Fusion 生成更清晰的外观。

6 训练顺序的影响

在三种融合任务中，多焦点图像融合与其他两种（多模态和多曝光）略有不同。对于多模态和多曝光图像块，融合块可视为两个源图像的组合。然而，对于多焦点图像块，融合过程可视为选择源图像中的焦点区域。因此，融合结果预计在焦点区域与源图像高度相似。因此，我们在本节进行了两个对比实验。为定量比较，我们使用相关系数（CC）测量结果与源图像的相关性，使用平均梯度（MG）测量融合结果的性能。一方面，我们改变多模态和多曝光图像融合的顺序。训练顺序重置为：多曝光 → 多模态 → 多焦点图像融合。定性结果如图 23 所示，定量结果如表 5 所示。

结果显示，多模态和多曝光图像融合的顺序交换对融合多焦点图像影响不大。对于这两个任务，结果显示更高的亮度和平均梯度。然而，原始训练顺序的结果与源图像保持更高的相关性。另一方面，考虑到多焦点图像融合与其他两个任务的差异，我们将多焦点图像融合设为第一个任务。然后，训练顺序重置为：多焦点 → 多模态 → 多曝光图像融合。显然，多焦点图像融合的结果比其他顺序更模糊，从图 23 的最右列可见。这一现象也反映在表 5 中平均梯度的大幅下降，从 0.0677 或 0.0700 降至 0.0563。U2Fusion 的持续学习能力得益于等式 (7) 中定义的 $L_{ewc}$ 。一些不重要参数被更新以学习新任务，导致前任务性能略有下降。鉴于多焦点图像融合的特殊性，性能下降更明显，尤其体现在形状边缘的模糊上。因此，多模态和多曝光图像融合的训练顺序对融合结果影响较小，而多焦点顺序影响较大。比较表 5 中的定量结果，多模态 → 多曝光 → 多焦点的顺序表现最佳。因此，我们在 U2Fusion 中采用此顺序。

7 U2Fusion 与 FusionDN 的对比

该方法的初步版本是 FusionDN [11]，改进内容在第 1 节中描述。为验证这些改进的有效性，我们比较了 FusionDN 和 U2Fusion 的结果，如图 24 所示。

首先，我们通过修改源图像的信息量和质量改进了信息保留程度分配策略。这一改进效果如图 24 的第一和第二列所示。FusionDN 依赖原始源图像的信息量和质量，保留了 VIS 区域的高对比度，如烟雾与背景之间。然而，相应 IR 区域的大量细节丢失。在 U2Fusion 中，通过考虑提取的大量特征中的信息，信息保留程度发生变化，保留了更多源图像细节。其次，我们通过移除梯度损失并添加 MSE 损失修改了损失函数。在 FusionDN 中，梯度损失用于保留更多梯度。然而，它导致一些虚假边缘，如第四和第五列的结果所示。通过移除它，我们依靠 SSIM 和改进的信息保留程度分配策略保留结构信息。结果仍显示清晰外观并缓解虚假边缘。此外，由于强度分布仅由 SSIM 保留，结果的亮度分量与源图像略有偏差，如最后一列 FusionDN 的结果所示。在 U2Fusion 中，为克服亮度偏差，我们添加了 MSE 损失。如最后一列所示，U2Fusion 的强度与源图像更相似。最后，我们将第一个融合任务从 VIS-IR 图像融合替换为多模态图像融合。此任务包括 VIS-IR 和 PET-MRI 图像融合。由于 FusionDN 的模型未在医学数据集上训练，结果显示边缘较弱且背景呈灰色，如第三列所示。

5.2 实验解析

1 训练细节

任务与数据集：
- 任务：多模态（VIS-IR、PET-MRI）、多曝光、多焦点。
- 训练数据：RoadScene (VIS-IR)、Harvard (PET-MRI)、[41] (多曝光)、Lytro (多焦点)。
- 测试数据：新增 TNO 和 EMPA HDR，验证泛化性。
- RoadScene：221 对图像，解决传统数据集（少样本、低分辨率）问题。
解析：
- RoadScene 创新：对齐和去噪提升数据质量，但 221 对样本量仍有限，可能偏向多模态场景。
- 超参数调整：c 按任务变化表明信息测量需任务特定调优，削弱“统一性”声明。
- 训练效率：少轮数和高 λ 可能限制模型收敛，计算资源（Titan X）支持复杂度但未优化实时性。

2 多模态图像融合

VIS-IR 融合：
- 定性：图 11、12 显示 U2Fusion 比 HMSD、GTF、DenseFuse 等更清晰，细节保留好（如车牌）。
- 定量：表 1 显示 CC、SSIM、PSNR 最佳，SCD 次优。
医学融合：
- 定性：图 14 显示结构信息丰富，颜色损失少。
- 定量：表 2 显示 CC、SSIM、PSNR 最佳，SCD 次优。
解析：
- 优势：无监督设计和自适应权重 $w1,w2$ 提升细节保留。
- 与 DenseFuse 对比：DenseFuse 在红外-可见光上专注（20 对数据），U2Fusion 泛化性更强但 SCD 次优可能反映信息融合不均衡。
- RGB 融合：Y 通道融合增强场景表现，但色度依赖 VIS，未充分利用 IR。

3 多曝光图像融合

定性：
- 图 15、16 显示 U2Fusion 改善暗区，提升对比度和细节。
定量：
- 表 3 显示 SSIM 和 PSNR 最佳，EI 和 CC 次优。
解析：
- 优势：自适应权重适应曝光差异，优于 GFF、Deepfuse 的固定融合。
- 局限：EI 次优表明边缘增强不足，可能因梯度均值忽略局部显著性。

4 多焦点图像融合

定性：
- 图 17 显示 U2Fusion 缓解边界模糊，保留细节（如高尔夫球）。
定量：
- 表 4 显示 EI 和 CC 最佳，MG 和 VIF 次优。
解析：
- 优势：无监督重建焦点区域，优于 CNN、SESF-Fuse 的监督方法。
- 局限：MG 次优表明梯度增强有限，可能因单一信息测量未针对清晰度优化。

5 关于 EWC 的消融研究

实验设计：
- 对比有无 EWC 的顺序训练，分析 $L_{sim}$ 、 $\mu _i$ 分布和中间结果。
结果：
- 损失：无 EWC 时，任务 3 训练后任务 2 损失增加（图 18），验证灾难性遗忘；EWC 保持前任务损失稳定。
- $\mu _i$ 分布：EWC 增加大值 $\mu _i$ 比例（图 19），表明更多参数对多任务重要，冗余减少。
- 定性：无 EWC 时任务 2 亮度下降、任务 1 细节丢失（图 20），EWC 缓解此问题。
解析：
- EWC 有效性：通过正则化 $L_{ewc} = \frac{1}{2} \sum_i u_i (\theta_i - \theta_i^*)^2$ 保护重要参数，解决遗忘问题，与理论一致。
- 与 DenseFuse 对比：DenseFuse 无多任务需求，U2Fusion 的 EWC 是多任务统一的关键。
- 局限： $\mu _i$ 依赖 Fisher 近似，若任务数据分布差异大，可能偏向某一任务

6 任务间互助的统一模型

实验设计：
- 对比统一模型与独立模型，验证任务间信息共享。
结果：
- 图 21 显示统一模型在过曝区域（多模态、多焦点）和边缘（多曝光）上优于独立模型。
解析：
- 互助机制：EWC 保留共享特征（如过曝处理、边缘增强），提升泛化性。
- 与 DenseFuse 对比：DenseFuse 单任务无互助，U2Fusion 的统一性是优势。
- 局限：未定量分析互助程度，可能因任务相似性有限而效果不均。

7 自适应信息保留程度消融

实验设计：
- 对比 $\omega _1=\omega _2=0.5$ （固定权重）与自适应 $\omega _1,\omega _2$ 。
结果：
- 图 22 显示固定权重导致细节丢失（多模态）、过曝（多曝光）、边缘模糊（多焦点），自适应权重改善这些问题。
解析：
- 自适应性验证：动态 $\omega _1,\omega _2$ 根据信息测量（梯度范数）调整权重，优于均等分配。
- 局限： $\omega _1,\omega _2$ 依赖 c 和梯度公式，模态特异性仍不足。

8 训练顺序影响

实验设计：
- 对比三种顺序：1) 多模态→多曝光→多焦点（原始），2) 多曝光→多模态→多焦点，3) 多焦点→多模态→多曝光。
结果：
- 图 23 和表 5 显示顺序 1 和 2 对多焦点影响小，顺序 3 导致多焦点模糊（MG 下降）。
解析：
- 顺序敏感性：多焦点任务（选择焦点）与多模态/多曝光（组合信息）目标不同，先训多焦点易被后续任务覆盖。
- EWC 局限： $L_{ewc}$ 未完全平衡任务特性，多焦点性能下降反映任务冲突。
- 优化建议：任务特定分支或动态 λ 可减少顺序依赖。

9 U2Fusion vs FusionDN

改进点：
1. 信息保留：从原始图像信息改为特征信息。
2. 损失函数：移除梯度损失，加 MSE。
3. 任务范围：VIS-IR 扩展到多模态。
结果：
- 图 24 显示 U2Fusion 保留更多细节（多模态）、减少虚假边缘（多曝光）、改善亮度（多焦点）和医学融合。
解析：
- 改进效果：
  - 特征信息提升细节保留，优于 FusionDN 的像素级策略。
  - MSE+SSIM 平衡亮度和结构，弥补梯度损失缺陷。
  - 多模态扩展增强泛化性。
- 与 DenseFuse 对比：U2Fusion 改进后的损失和范围超越 DenseFuse 的单一任务设计。
- 局限：仍依赖 VGG-16 和梯度公式，未彻底解决计算复杂度和自适应性。