【IVIF】Equivariant Multi-Modality Image Fusion

2024CVPR Zixiang Zhao团队
分析透彻，方法耳目一新
统一融合架构

1、Motivation

Our approach is rooted in the prior knowledge that natural imaging responses are equivariant to certain transformations

我们的方法根植于自然成像响应对于某些变换的等变性这一先验知识。因此，我们引入了一个新颖的训练范式，包括融合模块、伪感知模块和等变融合模块。这些组件使得网络训练能够遵循自然感知成像过程的原则，同时满足等变成像先验。

对IVIF任务的描述：产生的融合图像减轻了受光照变化影响的可见光图像和易受低分辨率和噪声影响的红外图像的局限性

作者的分析与假设：
我们假设潜在的GT融合图像具有丰富的信息，但在实践中，我们只能通过不同的感知过程来测量相同的GT，这些过程通常是非线性的且难以建模，因此获得了不同模态的观察结果。因此，多模态图像融合问题可以被视为一个具有挑战性的非线性盲反问题，可以被视为以下负对数似然最小化问题：
在这里插入图片描述
where i1, i2, and f represent two input source images and the output fusion image, respectively. Eq. (1b) originates from Bayes’ theorem. In Eq. (1c), the first term is the data fidelity term, indicating that i1 and i2 are sensed from f ; the second term is the prior term, indicating that f needs to satisfy certain fusion image prior or empirical characteristics.

1c的第一项，表示从融合图像f中感知到i1和i2，显然各个传感器都受限于捕获特定模态的特征；实际上不存在能够同时感知所有模态信息的“超级”传感器。因此，缺乏GT妨碍了将深度学习的监督学习范式有效应用于图像融合任务。（指出没有GT的困难）
虽然基于生成模型的方法试图通过使源图像和融合图像属于类似分布来实现融合，但它们存在解释性不足、可控性不足以及训练挑战等问题。（说明基于生成式方法的不足）
基于手工设计的损失函数的方法通常通过最小化 ℓ1 或 ℓ2 距离来使融合图像类似于源图像。然而，直接计算 ∥f − i1∥ + ∥f − i2∥
来确定 f 忽略了融合图像与源图像之间的潜在领域差异，未考虑到 f 可能不位于与 i1 和 i2 相同的特征流形上。（？！）

1c的第二项，为先验项，表示f需要满足某些融合图像的先验或经验特征。研究人员通常假定融合图像具有某些结构，如低秩、稀疏性、多尺度分解等，并施加先验来限制解空间。然而，由于无法获取GT融合图像，这些先验通常依赖于对融合图像的猜测性假设或从自然图像先验推导出来，因此过度依赖领域知识，并且在未见情景下表现出有限的适应性。

针对上述挑战，我们计划从两个方面解决它们。
首先，由于调整分布和手工设计的损失函数是具有挑战性的任务，我们建议从感知和成像过程开始。我们的目标是学习感知，或者说从融合图像返回到各种模态图像的逆映射。这种方法直观上比掌握融合过程本身更简单。通过这样做，我们可以衡量输入源图像与（伪）感知结果之间的损失，这些结果是通过将融合图像应用于不同的感知函数获得的。这种策略克服了融合没有GT的问题。
此外，由于图像融合本质上是一个不适定问题，仅优化上述感知损失可能不会产生最优的融合图像。因此，我们引入了一个概念简单但有效的先验，该先验基于成像系统的固有先验，并且不依赖于融合图像的领域特定知识。这种非领域特定的先验建立在自然成像系统对于变换（如平移、旋转和反射）等等变性的理解基础上。换句话说，**在感知和重新融合之后，经过变换的融合图像应该产生与之前相同的结果。**利用自然成像系统的等变先验为融合网络内的学习过程提供了更强的约束和指导。总之，针对图像融合的常见学习范式，我们进行了以下改进：
在这里插入图片描述

EMMA中的伪感知损失项在等式（2）中减轻了传统损失中由于 f 和 {i1, i2} 之间流形差异引起的不合理性，确保了在 {ˆi1, i1} 和 {ˆi2, i2} 之间计算的距离处于同一域内。【？！】

作者也说了，类似的融合到源映射概念旨在使 f 可分解为 {i1, i2}，以确保其包含源图像信息。（这边列举了两篇文章，统一的融合架构SDNet和一片低光增强领域的）
然而，它们的分解模块作为融合算法的一个组成部分，在训练过程中进行更新，**并且融合输出被视为源重建的特征。**因此，分解学习的熟练程度并不总是与融合中的信息增强相一致。相比之下，在EMMA范式中，**伪感知模块的学习与融合网络的学习是解耦的，**而且在EMMA训练期间保持冻结状态，从而确保从融合图像到源图像的映射是明确和确定的。这增强了感知模块的合理性和可解释性。
其他基于先验的优化方法通常需要融合图像的领域知识。然而，在EMMA中，我们只需要使用成像系统先验而不是融合图像先验来完成自监督学习。

2.等变成像

等变成像（EI）是一种新兴的完全无监督成像框架，利用自然信号中的群不变性特性，仅通过部分测量数据学习重建函数。EI背后的主要思想是利用自然信号通常具有某些对称性。例如，图像通常是平移不变的，这意味着它们如果被移动，看起来是相同的。有了这种不变性先验，整个成像系统（从感知到重建）都是变换等变的。在某些感知条件下，重建函数将能够正确重建被转换的图像，即使它以前从未见过这些图像。作为成像的一种有前景的新方法和一种获取和处理图像的新途径，EI已经被证明对于各种线性逆问题是有效的。本文致力于探索EI在更具挑战性的任务上的潜力，即多模态图像融合中的非线性盲逆问题。

列举了最近两年的文章，有3篇研究这个的。

3.Method

我们假设存在一个信息丰富的f，它包含多感官和多模态信息，需要预测。然而，到目前为止，现实生活中还没有一种感知设备能够完全感知到它。
问题建模为：
在这里插入图片描述
在传统的图像反问题y = A(x) + n中，其中x和y分别为GT和测量值，退化算子A(·)是已知的(如去噪任务中的噪声分布和超分辨率任务中的模糊核)。然而，在图像融合中，我们无法明确地获得Ai和Av，但我们可以将它们设置为可学习的，以模拟感知过程，辅助网络进行自监督学习。

假设1：测量一致性。

假设融合函数F(·，·)在测量域内保持一致性，即: 在这里插入图片描述
由于传感过程的待定性质，无法通过估计Ai或Av的逆来估计F (i, v)，我们需要学习更多的超出其逆范围空间的信息。

不变集一致性

给出equivariant imaging的两个定义：

def1：

def2：

根据定义 1 的推论，如果 X 代表一组自然图像，那么很明显，在经过平移、旋转和反射等变换后，其结果仍然是自然图像。因此，X 是变换组 G 的不变集。此外，在定义 1 和 2 中，"不变性 "指的是数据集的属性，而 "等变性 "指的是成像系统的属性，即成像系统（在本文中表示为 F ◦A）是相对于 G 的等变函数：

假设定义2中的L为复合函数F * A，其中F为融合模型，A(包括Ai和Av)为感知模型，则等变图像融合定理为：在这里插入图片描述
证明：考虑一组满足不变性的自然图像X，根据定义2，成像系统F * a应与群作用{Tg}相等。因此，对于∀f∈X，我们有f◦A(Tgf) = Tgf◦A(f)。进一步，将A分成Ai和Av，可以得到Eq.(5)。它（5）不要求F * A与Tg等变，相反，要求F * A等变。因此，这里的F和A可以不受限制地设置为任何形式的映射。

4.网络

在这里插入图片描述
我们是怎么约束的？

U-Fuser module：

我们采用类似u - net的结构对i和v进行融合，生成融合后的图像f。在每个尺度上，由于输入的跨模态特征既包含**全局特征(如环境和背景信息)，也包含局部特征(如高亮和详细纹理对象特征)**，我们设计了一个Transformer-CNN结构，通过利用它们各自的归纳偏差来更好地建模跨模态特征。

特征融合和重建块结构和特征提取块都是一样的。

Pseudo sensing module：

由于明确给出Ai和Av的结构是不可行的，我们采用数据驱动的学习方法来获得它们。

Equivariant image fusion：

如图1所示，我们首先将图像对 {i, v} 输入到 F 中，并获取融合图像 f（这是传统融合算法的整个操作）。然后，我们对 f 应用一系列变换 Tg，包括平移、旋转、反射等，得到 f t。随后，将 f t 输入到经过良好训练的 {Ai, Av} 中，获取伪感知图像 {it, vt}，它们分别包含了来自 f t 的信息，并满足红外和可见图像的成像特征。最后，配对的 {it, vt} 输入到 F 中，获取重新融合的图像 ˆ f t。在整个框架中，我们的目标是将 {i, v} 中的信息聚合到 f 中，并根据等变图像融合定理（定理1），f t 和 ˆ f t 应该足够接近。这将通过设计的损失函数来保证。

5.怎么训练的？

在这里插入图片描述
where ̃ f are the fusion results from the SOTA methods in Sec. 3.3.就是使用其他SOTA的结果当作融合图像的一个GT
说白了就是训练了从融合图像分解成IR和VIS的两个编码器，然后固定这两个编码器，更新损失函数，

特别是，Eq.(6)的第一项和第二项保证了我们的范式满足3.2节中模型假设的测量一致性，而第三项保证了它满足模型假设的不变集一致性。