MRFS: Mutually Reinforcing Image Fusion and Segmentation(CVPR2024)
背景和动机
1.特征中和缺点和低光信息丢失。
红外和可见光图像通常在强度和梯度分布方面表现出显着差异。在这种情况下,传统的固定比例的无监督损失可能会削弱有价值的特征,例如对比度,如图 2 所示。一个潜在的解决方案是在优化过程中动态优先考虑源图像中的优质特征,确保保留显着的对比度和纹理。此外,在照明条件不佳的情况下,低强度的可见图像往往会掩盖有价值的细节。在融合过程中,这些细节常常被忽视和丢弃,导致关键信息的丢失,如图2所示。从低强度区域中挖掘出更多细节将有效提高融合图像的整体质量。
2.特征有效性得分不匹配。
在传统的基于池化的注意力中,特定特征的得分通常是使用相应通道或空间位置中所有特征的统计数据来确定的。平均池化和最大池化等主流统计操作计算特定维度中特征的平均和最大响应。然而,平均池化可能会错误地将低分分配给同一空间位置或通道中被负特征包围的正特征,如图 3 (a) 所示。类似地,平均池化和最大池化都可能错误地将高分分配给被正特征包围的负特征,如图 3 (b) 所示。引入一种校正机制,通过评估每个特征对其他特征的影响来重新分配分数,这是非常可取的。
3.特征聚合不足。
在特征融合过程中,许多方法使用交叉注意力进行相互查询和嵌入,增强信息互补性[39, 51]。然而,仅仅依靠跨模态互补性是不够的,因为它没有充分利用自己的模态信息,如图4所示。在特征提取过程中引入自注意力部分解决了这个问题。然而,它并不是专门为特征融合而设计的,因此缺乏与交叉注意力的最佳兼容性。因此,在特征融合中同时考虑单模态自我强化和跨模态互补性是有益的。它们自然地创建了一个闭环,增强了聚合特征的表现力。
4.视觉和语义之间的内在一致性。
对于图像融合等低级视觉任务,人类优先考虑视觉相关特征进行感知,而在语义分割等高级任务中,机器专注于语义相关特征以进行准确决策。这就提出了一个有趣的哲学问题:机器和人类以相似的方式感知世界吗?换句话说,人类视觉所依赖的特征和机器语义所依赖特征之间是否存在一致性?可视化 SegMiF 和 EAEFNet 中用于图像融合和分割的通道特征,揭示了很强的相关性,如图 5 所示。这一观察引导我们探索视觉和语义之间的内在一致性,建立相互的关系。两项任务的强化机制。
研究方法
整体框架
MRFS 通过提出的 IGM-att 和 PC-Att 实现特征交互,将图像融合和语义分割任务优雅地耦合到一个统一的框架中。在图 6 中说明了总体框架。可以看出,MRFS通过n个块不断提取和细化多模态特征。
我们设计了一个 IGM-Att 模块来促进 Φvi n 和 Φir n 之间的交互。该模块采用 CNN 范式来主要强调与视觉相关的局部特征。此外,它还采用了门控机制,旨在纠正传统的基于池的注意力中的误判。
PC-Att的开发是为了进一步促进多模态特征的交互和聚合。与 IGM-Att 相比,PC-Att 更加强调需要全局理解的语义相关特征。由于综合考虑单模态自强化和跨模态相互补充,聚合特征Ωfn包含了描述场景的完整信息。
IGMAtt 的输出和源图像被送入图像融合头 F 生成融合图像。融合头采用CNN架构,融合显着信息整合和弱化信息恢复功能,从而有效增强融合图像的视觉质量。
将 PC-Att 的输出输入基于 MLP 的语义分割头 G 以获得像素级分类决策。通过图像融合和语义分割的协同优化,可以相互促进地提高它们的性能。
IGM-Att
IGM-Att 模块将门控机制集成到传统的基于池的注意力中以实现视觉完成,如图 7 所示。
首先,它采用传统的通道和空间注意力[33]来建模特征之间的正相关关系。
这种基于池化的注意力可能会导致特征有效性分数不匹配。为了解决这个问题,我们引入了门控机制来纠正获得的混合权重:
这种复杂的策略提高了特征重要性评估的精度,增强了有价值的特征并有效抑制了冗余特征。最后,我们使用获得的权重来细化视觉补全的特征:
PC-Att
IGM-Att 模块利用基于 CNN 的注意力,强调局部视觉特征的细化。相比之下,语义分割需要全局场景理解能力。因此,我们开发了一个用于细化语义补全的PCAtt模块,如图8所示。在PC-Att模块中,我们采用两种信息强化策略,即单模态自我强化和跨模态相互补充。该过程将红外和可见光图像中的长距离完整语义信息无缝集成到生成的融合特征中。
任务头
图像融合头。在图像融合头中采用了 CNN 架构,因为它在低级视觉任务中表现出了有效性,可以生成视觉上令人满意的图像 [15, 20]。最初,我们将弱化信息恢复的功能集成到其中。具体来说,我们应用常见的数据增强策略(例如伽玛变换、对比度拉伸)来处理 Ivi、Iir,创建正样本 f Ivi、f Iir。这些样本可以恢复由于弱反射光和低对比度而丢失的信息,为优化锚点(即融合图像 If )提供有价值的指导。其次,我们介绍了显着信息集成的功能以保留关键特征。具体来说,应用最大函数在梯度域和强度域中处理正样本,构建明确的优化目标。然后引导锚点来实现这一目标,确保保留显着的对比度和丰富的纹理。损失函数定义为:
语义分割头。
我们采用 SegFormer [34] 的 MLP 解码器作为语义分割头,因为它简单、轻量,并且可以有效理解全局场景语义。传统的交叉熵损失用于约束语义分段。
实验结果
语义分割
图像融合
消融实验
模型一:用比例策略取代显着信息整合(损失函数);模型二:省略弱化信息恢复(数据增强);模型III:用传统的基于池化的注意力替代IGM-Att ;模型IV:用基于交叉注意力的特征集成取代PC-Att; V型:去掉图像融合头;模型VI:消除语义分割头
IGM-Att 和 PC-Att 的应用增益
复杂度讨论
通过对象检测进行语义验证
结论
这项工作提出了一种用于红外和可见光图像融合和语义分割的耦合学习框架。利用视觉和语义之间的内在一致性,使这些任务相互促进,实现双重提升。首先,将弱化信息恢复和显着信息集成纳入图像融合任务,确保融合结果与人类感知一致。其次,IGM-Att 和 PC-Att 模块解决了特征有效性分数不匹配的挑战,并增强了特征聚合的充分性。级联这些模块有助于视觉相关和语义相关特征的隐式融合,从而实现学习过程中的相互指导并改进解决方案。对公共数据集的大量实验表明,我们的 MRFS 实现了视觉满意度和决策准确性。