论文阅读笔记:Equivariant Multi-Modality Image Fusion

news2025/2/27 8:14:33

论文阅读笔记:Equivariant Multi-Modality Image Fusion

  • 1 背景
  • 2 创新点
  • 3 方法
  • 4 模块
    • 4.1 模型假设
    • 4.2 U-Fuser
    • 4.3 伪感知模块
    • 4.4 等变图像融合
  • 5 实验
  • 6 疑问

代码:https://github.com/Zhaozixiang1228/MMIF-EMMA
论文:https://arxiv.org/pdf/2305.11443

1 背景

由于GT融合数据的稀缺性,对融合模型的有效训练具有挑战性。为了解决这个问题,作者提出了端到端自监督学习的等变多模态图像融合( EMMA )范式。本方法是基于自然成像对某些变换的响应是等变的这一先验知识。以此引入了一种新的训练范式,它包含一个融合模块、一个伪感知模块和一个等变融合模块。这些模块使得网络训练在满足先验的同时,还遵循物理感知到成像过程的原理。

多模态图像融合问题可以看成是一个非线性的盲逆问题。可以看成如下的负对数似然最小化问题:
负对数似然
其中 i 1 i_1 i1 i 2 i_2 i2 f f f分别表示两张输入图像和输出的融合图像。式(1a)为负对数似然,式(1b)基于贝叶斯定理,式(1c)的第一项是数据保真项,表示 i 1 i_1 i1 i 2 i_2 i2是由 f f f感知的,第二项是先验项,表示 f f f需要满足一定的融合图像先验。

无数先进的基于深度学习的方法都在努力对这个问题进行更好的建模。然而在这一任务中仍有一些紧迫的问题没有得到解决。对于式(1c)中的第一项,单个传感器仅限于捕获模式特异性特征,不存在能够同时感知所有模态信息的单个超级传感器,就是说没有一个确定的真值去监督模型学习。

另一方面,人工构造的损失函数通常通过最小化L1和L2距离来推动融合图像与源图像相似。然而直接计算来确定融合图像的方法忽略了融合图像和源图像之间潜在的域差异,没有考虑到 f f f i 1 i_1 i1 i 2 i_2 i2不在同一个特征流形上。

首先,由于对齐分布和手工构造的损失函数是具有挑战性的任务,所以作者从传感和成像过程入手,目的是学习感知,即从融合图像回到各种模态的图像的逆映射。这种方法比掌握融合过程本身更直观简单。通过这样做,可以衡量输入源图像和(伪)感知结果之间的损失,而(伪)感知结果是通过将融合图像应用于不同的感知函数获得的。该策略克服了没有GT图像进行融合的问题。

自然的成像响应对于诸如位移、旋转和反射等变换是等变的。换句话说,变换后的融合图像,在感知和重新融合后,应该产生与感知前相同的结果。利用自然成像系统的等变性先验,为融合网络内部的学习过程提供了更强的约束和指导。

综上,针对图像融合常用的学习范式,作者做出以下改进:
在这里插入图片描述
其中 F F F 融合模型, A A A 表示感知模型。 i 1 ^ = A 1 ( f ) \hat{i_1}=A_1(f) i1^=A1(f) i 2 ^ = A 2 ( f ) \hat{i_2}=A_2(f) i2^=A2(f) 表示 i 1 i_1 i1 i 2 i_2 i2 经过相应的感知模型 A 1 A_1 A1 A 2 A_2 A2 的感知结果。 A 1 A_1 A1 A 2 A_2 A2 共同构成了感知模型 A A A .

2 创新点

  1. 提出了一种名为EMMA的新型自监督学习范式,旨在解决图像融合中真值缺失的问题。

  2. 通过伪感知模块和感知损失分量有效地模拟感知成像过程,改进了传统融合损失中对融合图像和源输入之间域差异的不恰当处理。

  3. EMMA中提出的U - Fuser融合模块熟练地建模跨多个尺度的长、短程依赖关系来整合源信息。

  4. 方法在红外-可见光图像融合和医学图像融合中表现出优异的性能,这也被证明有利于下游的多模态目标检测和语义分割任务。

3 方法

作者将图像融合和感知的过程定义如下:
在这里插入图片描述

F ( ⋅ , ⋅ ) F(·,·) F(⋅,⋅) 表示融合模型, A i A_i Ai A v A_v Av 表示红外光和可见光图像的感知模型。EMMA工作流如下:
在这里插入图片描述

将图像对{ i i i v v v }作为U - Fuser F F F 的初始输入,得到融合图像 f f f 。接着对 f f f 进行一系列包含平移、旋转、反射等变换 T g T_g Tg,产生 f t f_t ft,然后将 f t f _t ft 输入到参数冻结的{ A i A_i Ai A v A_v Av }中,生成伪感知图像{ i t i_t it v t v_t vt },最后输入到 F F F 中,得到重融合图像 f t ^ \hat{f_t} ft^

与其他方法需要设计良好的损失函数来最小化 f f f 和{ i i i v v v }之间的距离不同,EMMA的损失侧重于使感知模块从 f f f生成的伪图像{ A i ( f ) , A v ( f ) A_i(f),A_v(f) Ai(f)Av(f) }尽可能接近原始{ i i i v v v },同时使 f t f_t ft 接近 f t ^ \hat{f_t} ft^。这样,从自然成像的角度出发,找到了最优的融合图像 f f f

4 模块

4.1 模型假设

为了提供全面的感知和融合模型,作者先提出了一些必要假设:

a) 测量一致性。假设融合函数 F ( ⋅ , ⋅ ) F(·,·) F(⋅,⋅) 在测量域内保持一致性,即:
在这里插入图片描述

然而由于传感过程的不确定性,所以无法通过 A i A_i Ai A v A_v Av 的逆来求解 F ( i , v ) F(i,v) F(i,v)

b) 不变集合一致性。首先给出等变成像中的两个定义:

定义1:不变集合。对于由酉矩阵 T g ∈ R n × n T_g∈R^{n×n} TgRn×n 组成的变换 G = { g 1 , . . . , g ∣ G ∣ } G=\{g_1, ..., g_{|G|}\} G={g1,...,gG} X X X 是和变换g相关的不变集合,如果 ∀ x ∈ X , ∀ g ∈ G , T g x ∈ X ∀x∈X,∀g∈G,T_gx∈X xX,gG,TgxX, 那么 T g X T_gX TgX X X X 相同(就是集合X中的每个元素经过G中的变换还属于集合X,那么X就是不变集合)。

定义2:等变函数。如果函数 I I I 满足 ∀ x ∈ X , ∀ g ∈ G ∀x∈X,∀g∈G xX,gG, I ( T g x ) = T g I ( x ) I(T_gx)=T_gI(x) I(Tgx)=TgI(x),则 I I I 是一个和变换G相关的等变函数。

关于定义1,比如X表示一组自然图像,显然经过平移,旋转后,X还是一组自然图像,因此 X X X 是变换 G G G 的不变集合。融合图像 f f f 作为 X X X 的子集,由融合图像组成的集合也是 G G G 的不变集。此外,在定义1和定义2中,“不变性”指的是数据集的性质,而“等变性”指的是成像系统的性质,即成像系统 F 0 F_0 F0 是关于 G G G 的等变函数。

因此提出以下定理:

定理1(等变图像融合定理):如果将定义2的 I I I 看成符合函数 KaTeX parse error: Undefined control sequence: \* at position 2: F\̲*̲A ,其中 F F F 是融合模型, A A A 是传感模型,包括 A i A_i Ai A v A_v Av ,则等变图像融合定理为:
在这里插入图片描述
证明:考虑一组满足不变性的自然图像 X X X,由定义2可知,成像系统 KaTeX parse error: Undefined control sequence: \* at position 2: F\̲*̲A 应等变与变换 { T g T_g Tg }, 因此 KaTeX parse error: Undefined control sequence: \* at position 7: ∀f∈X,F\̲*̲A(T_gf)=T_gF\*A…, 进一步的将 A A A 拆分成 A i A_i Ai A v A_v Av 就可以得到式(5)。

4.2 U-Fuser

作者采用了类似Unet的结构融合 i i i v v v ,生成融合图像 f f f。在每个尺度上,由于输入的跨模态特征既包含环境和背景等全局信息,也包含高亮和细节纹理对象特征等局部特征,因此作者设计了一个Transformer-CNN结构,通过利用的归纳偏差来更好的建模。对于Transformer采用实现了通道维度自注意力机制的Restormer,在不增加过多计算量的情况下队全局特征进行建模。在CNN中采用ResBlock。将Restormer-CNN块的输入特征进行嵌入,然后由Restormer(全局特征)和ResBlock(局部特征)并行处理,接着嵌入交互并输出一个CNN层,最后输入到下个尺度。
在这里插入图片描述

4.3 伪感知模块

从了从 A i ( f ) A_i(f) Ai(f) A v ( f ) A_v(f) Av(f) 中获得伪成像结果,需要模拟从融合图像中感知红外和可见光的过程,如式(4)(“Ai (F (i, v)) = i, Av (F (i, v)) = v.” (pdf) ) 所述。这个过程无法显示给出,所以作者选择了最先进的15种方法,如CCDFuse等,使用这些方法的融合结果作为融合图像的伪真值,然后学习从融合图像到 i i i v v v 的映射,分别称为 A i A_i Ai A v A_v Av。作者选择Unet作为 A i A_i Ai A v A_v Av 的骨干网络,如下:
在这里插入图片描述

4.4 等变图像融合

在得到U - Fuser F F F 和伪传感函数{ A i A_i Ai A v A_v Av }之后,就可以搭建基于图像等变先验的自监督学习框架。如图1所示,首先将图像对{ i , v i,v iv }输入到 F F F 中,得到融合图像 f f f 这是传统融合算法的全部操作。然后,对 f f f 施加一系列变换 T g T_g Tg,包括平移、旋转、反射等,从而得到 f t f_t ft。随后,将 f t f_t ft 输入到训练好的{ A i , A v A_i,A_v AiAv }中,得到伪感知图像{ i t , v t i_t,v_t itvt },它们包含了 f t f_t ft 的信息,分别满足红外和可见光图像的成像特性。最后,将成对的{ i t , v t i_t,v_t itvt }送入 F F F,得到重建图像 f t ^ \hat{f_t} ft^。在整个框架中,目标是将{ i , v i,v iv }中的信息聚合成 f f f,并且根据等变图像融合定理(定理1 ), f t f t ft f t ^ \hat{f_t} ft^ 应该足够接近。这些将通过设计的损失函数来保证。

在EMMA的整个训练过程中,首先使用L2损失对 A i A_i Ai A v A_v Av 进行训练:

L I R e c = L 2 ( i , A i ( f ^ ) ) L_I^{Rec}=L_2(i, A_i(\hat{f})) LIRec=L2(i,Ai(f^))

L V R e c = L 2 ( v , A v ( f ^ ) ) L_V^{Rec}=L_2(v, A_v(\hat{f})) LVRec=L2(v,Av(f^))
其中 f ^ \hat{f} f^ 是SOTA方法的融合图像。然后冻结 A i A_i Ai A v A_v Av ,使用总损失来训练U-Fuser模块:
在这里插入图片描述
其中 L ( x , x ^ ) = L 1 ( x , x ^ ) + L 1 ( ∇ x , ∇ x ^ ) L(x,\hat{x})=L_1(x,\hat{x})+L_1(∇x,∇\hat{x}) L(x,x^)=L1(x,x^)+L1(x,x^) 。始终第一项和第二项保证测量一致性,第三项则保证不变集合一致性假设。

5 实验

图2显示本文方法在融合过程中锐化了纹理,减少了伪影,增强了可视性。
在这里插入图片描述
图3中,位于光照不足的环境中,本文方法融合结果的物体具有明确的边缘和丰富的轮廓。
在这里插入图片描述
图4中,EMMA在提取结构亮点和细节纹理特征方面表现出更高的准确性,并有效地整合了融合图像中的特征特征。因此,它取得了显著的融合效果。
在这里插入图片描述
在可见光红外光融合任务IVF和医学图像融合任务MIF上的指标。(指标计算中只用单张图像计算的指标采用融合后的图像计算,需要两张图像对比计算的指标论文采用的是用融合后的图分别与融合前的图计算指标值,然后取平均为此张融合后图像的指标。)
在这里插入图片描述
消融实验
实验1:移除Loss中的第三项
实验2:将Loss中前两项的改为 L 1 ( f , i ) + L 1 ( f , v ) L_1(f,i) + L_1(f,v) L1(f,i)+L1(f,v)
实验3:将Loss直接替换成 L 1 ( f , i ) + L 1 ( f , v ) L_1(f,i) + L_1(f,v) L1(f,i)+L1(f,v)
实验4:在实验3的基础上,对 i i i v v v 做EMMA中相同的数据增广。
实验5:取消U-Fuser中的Global Extractor模块
实验6:取消U-Fuser中的Local Extractor模块
在这里插入图片描述
多模态目标检测任务
在这里插入图片描述
多模态分割任务
在这里插入图片描述

6 疑问

感知模型是在可见光和红外光(或者医学图像)上训练的,在其他图像上的泛化性未知。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1682000.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

不怕太空物质「撞地球」!中科院团队提出日冕物质抛射识别新方法,接近人类识别结果

日冕物质抛射(简称 CME)是从太阳抛入行星际空间的大尺度等离子体团,是太阳释放能量的一种形式,也是影响空间天气的主要因素之一。大型日冕物质抛射事件会影响通信、导航、航空活动、电网运行等,为了避免安全威胁和资产…

2024长三角数学建模竞赛B题45页思路论文和代码分析

2024长三角数学建模B题45页论文和代码已完成,代码为B题全部问题的代码,论文包括摘要、问题重述、问题分析、模型假设、符号说明、模型的建立和求解(问题1模型的建立和求解、问题2模型的建立和求解、问题3模型的建立和求解、问题4模型的建立和…

Logic Pro X for Mac v11.0.0激活版:专业音频制作软件

对于音乐创作者来说,一个稳定、高效的工作流程至关重要。Logic Pro X for Mac提供了一系列工作流程优化功能,让你能够更快捷、高效地完成音乐创作。从添加音轨、录制音频,到混音和编曲,每一个步骤都如丝般顺滑。同时,L…

网页设计web

效果图代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><style>* …

【全开源】微凌客洗护小程序支持微信小程序+微信公众号+H5

微凌客洗护小程序是一款基于FastAdminThinkPHP开发的一款微凌客洗护小程序。 功能特性 客户端适配&#xff1a;暂支持微信小程序 多端登录&#xff1a;验证码、账号密码、微信授权 商品管理&#xff1a;支持正常价和会员价 商家管理&#xff1a;平台商家地图定位和企微客服…

单元测试—BMI脚本设计

BMI例题如下&#xff1a; BMI中国计算标准&#xff1a;体质指数&#xff08;BMI&#xff09;体重&#xff08;kg&#xff09;身高^2&#xff08;m&#xff09; 例如&#xff1a;一个人的身高为1.75米,体重为68千克&#xff0c;他的BMI68/(1.75^2)22.2&#xff08;千克/米^2&a…

单链表经典算法 面试题--力扣02.04

链接&#xff1a;. - 力扣&#xff08;LeetCode&#xff09;【点击即可跳转】 思路&#xff1a;创建新链表&#xff1a;大链表和小链表 将pcur节点小于x的值&#xff0c;尾插在小链表中 将pcur节点大于或等于x的值&#xff0c;尾插在大链表中 最终---- return lessHead->…

【Maven】Nexus简单使用

1、安装配置介绍Nexus私服&#xff1a; 安装配置指路上一篇详细教程博客 【Maven】Nexus私服简介_下载安装_登录-CSDN博客 简单介绍原有仓库类型&#xff1a; proxy代理仓库&#xff1a;代理远程仓库&#xff0c;访问全球中央仓库或其他公共仓库&#xff0c;将资源存储在私…

【工具】macOS、window11访问limux共享目录\共享磁盘,samba服务安装使用

一、samba服务安装 Samba是一个免费的开源软件实现&#xff0c;使得非Windows操作系统能够与Windows系统进行文件和打印服务共享。它实现了SMB/CIFS协议&#xff0c;并且能够在Linux、Unix、BSD等多种系统上运行。 安装 samba&#xff1a; sudo yum install samba配置 samba…

全球知名哲学家思想家颜廷利:将人生黑暗视为一种机遇

在时间的长河中&#xff0c;我们短暂的人生不过是眨眼间的光景。然而&#xff0c;正是这短暂的旅程给予了我们无限的可能性和转变的契机。我们应该勇敢地面对生活中的暗夜&#xff0c;将其视作成长的土壤&#xff0c;让自我在其中焕发出独特的光辉。 当我们在生命的历程中暂停脚…

基于ASN.1的RSA算法公私钥存储格式解读

1.概述 RFC5958主要定义非对称密钥的封装语法&#xff0c;RFC5958用于替代RFC5208。非对称算法会涉及到1对公私钥&#xff0c;例如按照RSA算法&#xff0c;公钥是n和e&#xff0c;私钥是d和n。当需要将公私钥保存到文件时&#xff0c;需按照一定的格式保存。本文主要定义公私钥…

002_Anaconda的安装与使用

Python的开发环境 官方介绍&#xff1a;Anaconda&#xff0c;中文大蟒蛇&#xff0c;是一个开源的Python发行版本&#xff0c;其包含了conda、Python等180多个科学包及其依赖项。 比较抽象&#xff0c;看不懂没有关系&#xff0c;慢慢往下看。 很多学习python的初学者甚至学…

Android 触摸事件分离原理

什么是触摸事件分离&#xff1f; 屏幕上存在多个窗口时&#xff0c;多指触摸的情况下&#xff0c;多个手指的触摸事件可以分给不同的窗口&#xff0c;以下面的图为例&#xff0c;第一个手指按下&#xff0c;window1可以响应这个事件&#xff0c;第二个手指按下&#xff08;第一…

Vue的学习 —— <vue组件>

目录 前言 正文 一、选项式API与组合式API 二、生命周期函数 1、onBeforeMount() 2、onMounted() 3、onBeforeUpdate() 4、onUpdated() 5、onBeforeUnmount() 6、onUnmounted() 三、组件之间的样式冲突 四、父组件向子组件传递数据 1、定义props 2、静态绑定props…

Elasticsearch 在滴滴的应用与实践

滴滴 Elasticsearch 简介 简介 Elasticsearch 是一个基于 Lucene 构建的开源、分布式、RESTful 接口的全文搜索引擎&#xff0c;其每个字段均可被索引&#xff0c;且能够横向扩展至数以百计的服务器存储以及处理 TB 级的数据&#xff0c;其可以在极短的时间内存储、搜索和分析大…

文章解读与仿真程序复现思路——中国电机工程学报EI\CSCD\北大核心《集装箱海港级联物流-能源耦合系统协同优化方法 》

本专栏栏目提供文章与程序复现思路&#xff0c;具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

jenkins配置不同版本nodeJS,保姆级叫你配置

问题描述&#xff1a;公司jenkins被改了nodejs版本适配其他项目导致以前的项目构建失败&#xff0c;原因就是nodejs版本太高或太低导致&#xff0c;这里教大家不去更改服务器默认版本&#xff0c;当需要特殊版本直接在jenkins里配置即可。 过程 1、安装nodeJS插件 1.1点击管…

XML文件转TXT文件 yolo标签转换(代码可直接使用) 可批量转换

像这样的xml文件&#xff0c;我们可以通过代码批量转换为txt文件格式&#xff1a; 新建一个xml2txt.py文件&#xff0c; 上代码&#xff0c;直接复制粘贴 import xml.etree.ElementTree as ET import osdef convert(size, box):x_center (box[0] box[1]) / 2.0y_center (box…

2020 年第一届辽宁省大学生程序设计竞赛

比赛经历&#xff1a;摸鱼划水了一个多小时又是只会签到&#xff0c;看来还得提升自己的解题能力写了六题 补题&#xff1a;E线段树维和区间平方和&#xff0c;比较经典好久没写过线段树了傻了&#xff0c;注意维护lazy J计算几何&#xff0c;看来得提上日程了&#xff0c;用叉…

0.98T优于10米高程DEM数据

我们在《全球30米100%水陆覆盖高程》一文中&#xff0c;为大家分享了全球100%覆盖&#xff0c;且包括海底高程的30米DEM数据。 该数据虽然全球无死角覆盖&#xff0c;但分辨率只有30米。 这里&#xff0c;再为大家分享一个优于10米的高程数据&#xff0c;但目前仅覆盖全国范围…