图像融合笔记(一):RFN-Nest

news2025/1/22 17:53:00

RFN-Nest

  • Abstract
  • Introduction
  • Related works
  • The proposed fusion framework
    • The architecture of the fusion network
    • Two-stage training strategy

论文: RFN-Nest: An end-to-end residual fusion network for infrared and visible images
代码: https://github.com/hli1221/imagefusion-rfn-nest

Abstract

  • RFN-Nest是一种新的端到端融合网络架构,用于红外与可见光图像融合
  • RFN-Nest提出了一种新的细节保持损失函数和特征增强损失函数来训练RFN,RFN 是一种基于残差结构的残差融合网络
  • 该融合模型采用一种新的两阶段训练策略。在第一阶段,使用基于创新的nest连接概念训练一个自编码器;在第二阶段,则使用上述的损失函数训练RFN

Introduction

  • 由于图像传感器的限制,很难捕捉到某一场景质量一致性良好的图像。在这种背景下,图像融合凸显出其重要性。图像融合的目的是从多个提供了关于视觉互补信息的样本中重建一个完美的场景图像,可以用于目标跟踪、自动驾驶和视频监控等等。

  • Image-fusion这一任务需要算法生成一幅图像,将不同源图像传递的互补信息融合在一起

  • 图像融合的三个关键过程:特征提取、融合策略和重建

  • 目前的图像融合方法主要分为两类:传统算法和基于深度学习的方法
    在这里插入图片描述

  • 传统方法:

    • 传统融合算法利用稀疏表示(SR)和低秩表示(LRR)从原图像中提取特征
    • 基于SR和LLR的融合方法中使用滑动窗口技术将源图像分解为image patch,利用reshape后的image patch构造一个矩阵,矩阵的每一列就是reshape后的image patch。将该矩阵输入SR 或者 LRR中,计算SR(LRR)系数。通过该运算,将图像融合问题转化为系数融合问题。通过适当的融合策略生成融合系数,并在SR(LRR)框架中用于重建融合图像
    • 传统融合算法有一定的融合性能,同样存在着不足:
      • 融合性能高度依赖手工特征,对于不同的融合任务很难找到一种通用的特征提取方法
      • 不同的特征可能需要不同的融合策略
      • 对于基于SR和LRR的方法,dictionary learning通常是需要花费时间的
      • 传统融合算法在面对复杂源图像时收效甚微
  • 基于深度学习的方法:

    • 在特征提取方向上利用深度学习方法对源图像所传达的信息进行深度表征
    • 为了重建融合后的图像,提出了不同的融合策略。在其他融合方法中,也使用深度学习来设计融合策略
    • 比如,利用卷积稀疏表示和卷积神经网络对源图像生成决策图。利用学习到的决策图,经过适当的后处理得到融合图像 FusionGAN FusionGANv2 DDcGAN
      • 优势:基于对抗学习,避免了手工特征和融合策略的缺点
      • 劣势:面临着充分保存图像信息的挑战
    • NestFuse的提出——基于nest连接的自编码器融合网络;尽管Nestfuse在细节信息保存方面取得了很好的效果,但是融合策略仍然是不可学习的
  • Paper方法——RFN-Nest

    • RFN-Nest包含三个部分:编码器网络、用于提取融合的多尺度深度特征的残差融合网络以及基于nest连接的解码器网络
    • 虽然所提出网络的编码器和解码器与NestFuse相似,但融合策略、训练策略和损失函数完全不同
      • 首先,论文设计了几个简单而高效的可学习的融合网络(RFN),并将其插入到自编码器结构中,而不是融合NestFuse的手工功能。通过RFN,基于自编码的融合网络升级为端到端融合网络。
      • 其次,由于RFN是一个可学习的结构,编码器和解码器具有强大的特征提取和特征重建能力,因此论文开发了一个两阶段训练策略来训练我们的融合网络(编码器、解码器和RFN网络)
      • 在同时保留可见光图像的细节信息和红外图像的显著特征情况下,为了训练提出的RFN网络,论文提出了损失函数—— L R F N L_{RFN} LRFN
  • 该篇Paper的Contributions:

    • 提出了新的残差融合网络来取代手工融合策略
    • 采用了两阶段训练策略来设计网络
    • 设计了一个能够保存图像细节的损失函数和一个特征增强的损失函数来训练我们的RFN网络(更多的细节信息和图像显著性特征被保留在融合图像中)
    • 融合性能更好

Related works

基于深度学习的图像融合方法大部分是基于CNN的,而这些方法又可以分为非端到端学习和端到端学习两类

  • 非端到端方法

    • 早期,深度学习神经网络被用于提取深度特征作为决策图库。
      • Li等人提出了基于预训练网络的融合框架(VGG-19)。首先将源图像分解为显著部分(纹理和边缘)和基础部分(轮廓和亮度),然后利用VGG-19从显著部分提取多层次的深层特征,在每个层次上,从深层特征计算决策映射,并生成一个候选融合显著性部分,再采用合适的融合策略,将基础部分和融合的显著部分在融合,重建融合后的图像。
      • 利用Resnet-50直接从源图像中提取深度特征,采用零相位分量分析(ZCA)和 l 1 n o r m l_1 norm l1norm得到决策图
      • 基于PCANet的融合方法也遵循这一框架生成融合图像,其中提取特征的是PCANet,而不是VGG-19或ResNet-50
      • 特征提取和融合策略用单个网络实现。其中一种,由经过训练的CNN在输入图像的多个模糊版本的image patch上生成决策映射;另一种利用卷积稀疏代替CNN提取特征并生成决策图。根据生成的决策图,可以很容易地重构融合图像
      • 在上述方法的基础上,一种基于深度自编码器网络的融合框架。受DeepFuse的启发,作者提出了一种包含编码器、融合层和新型网络架构。采用基于dense block的编码器网络从源图像中提取出更多互补的深层特征。在这种框架中,融合策略变得非常重要
      • Li等人受DenseFuse等的架构启发,提出了NestFuse,以保留更多可见光图像的背景信息,同时增强红外图像的详细背景信息,同时增强红外图像的显著特征。此外,设计了一种新的空间/通道注意模型来融合多尺度的深度特征。虽然这些框架都取得了很好的融合性能,但是很难找到一种有效的手工融合策略进行图像融合。
  • 端到端方法

    • 为了消除手工特征和融合策略,人们提出了几种端到端融合框架
      • 一种基于GAN的融合框架引入到红外与可见光图像融合领域;generator network是计算融合图像的引擎,discrimiminator network约束融合图像包含可见光的细节信息。损失函数有两项:内容损失和鉴别器损失。由于内容的丢失,融合后的图像容易变得与红外相似,即使使用鉴别器网络也不能保持图像细节信息
      • FusionGANv2——为了从可见图像中保存更详细的信息;版本2.0中作者深化了generator network和discrimiminator network,赋予他们更强大的特征表示能力。此外,提出了两种新的损失函数,即细节损失和目标边缘增强损失,以保留细节信息。通过这些改进,融合图像重建了更多的场景细节,并清晰地突出了更多场景细节,并清晰地突出了边缘锐化目标
      • IFCNN——通用的端到端图像融合网络提出;在IFCNN中,利用两个卷积层从源图像中提取深度特征。采用元素级融合规则(元素级最大、元素级和、元素级平均)来融合深度特征。融合图像是由融合的深层特征通过两个卷积层生成的。尽管IFCNN在多个图像融合任务中都取得了令人满意的融合性能,但其架构过于简单,无法提取强大的深层特征,传统方法设计的融合策略也不是最优的

The proposed fusion framework

The architecture of the fusion network

在这里插入图片描述

  • 左边的部分是编码器;中间部分是 R F N 1 − 4 RFN_{1-4} RFN14(residual fusion network);右边部分是解码器

  • 图例说明:3*3这种类似代表卷积核大小,(16,8)中16是输入,8是输出

  • 利用编码器中的max-pooling,可以从源图像中提取多尺度的深度特征

  • RFN用于融合各尺度下提取的多模态深度特征;浅层特征保留更多的细节信息,深层特征传递语义信息,这对于重构显著特征很重要。

  • 最后利用基于nest connection的解码器,充分利用特征的的多尺度结构,对融合后的图像进行重构

  • I i r I_{ir} Iir I v i I_{vi} Ivi分别代表红外图像和可见光图像的输入, O O O代表RFN-Nest的输出,即融合后的图像

  • R F N m RFN_m RFNm代表深度特征m的残差融合网络

  • 整个编码器由四个RFN网络构成,有着同样的权重、不同的权重

  • RFN
    在这里插入图片描述

    • Φ i r m \Phi^m_{ir} Φirm Φ v i m \Phi^m_{vi} Φvim代表第m层被编码器提取的特征

    • C o n v 1 − 6 Conv1-6 Conv16代表RFN中的六个卷积层

    • C o n v 1 Conv1 Conv1 C o n v 2 Conv2 Conv2输出串联作为 C o n v 3 Conv3 Conv3的输入

    • C o n v 6 Conv6 Conv6是生成初始融合特征的第一个融合层

    • ϕ f m \phi^m_{f} ϕfm是融合后的特征
      在这里插入图片描述

    • 与Unet++相比,在图像融合任务上,我们简化了网络架构,使重构融合图像更加轻巧有效

    • DCB 表示一个解码器卷积块,它有两个卷积层。在每一行中,这些块通过类似于dense block的短连接

Two-stage training strategy

  • 首先,将编码器和解码器训练作为一个自编码器网络来重建输入图像。在学习了编码器和解码器网络之后,在第二个训练阶段,训练几个RFN网络来融合多尺度深度特征
    在这里插入图片描述
    • 特征提取部分包括下采样操作(最大池化),它在四个尺度上提取深层特征。这些多尺度特征被输入到解码器网络中重建图像输入图像。通过短的跨层连接,充分利用多尺度深度特征对输入图像进行重构
    • 自动编码器网络使用 L a u t o L_{auto} Lauto作为损失函数训练:
      L a u t o = L p i x e l + λ L s s i m L_{auto} = L_{pixel} + \lambda L_{ssim} Lauto=Lpixel+λLssim
      其中 L p i x e l L_{pixel} Lpixel代表像素级损失, L s s i m L_{ssim} Lssim结构相似度损失, λ \lambda λ是平衡参数
      • L p i x e l L_{pixel} Lpixel计算方法: L p i x e l = ∣ ∣ O u t p u t − I n p u t ∣ ∣ F 2 L_{pixel} = ||Output - Input||_F^2 Lpixel=∣∣OutputInputF2; L p i x e l L_{pixel} Lpixel约束重建图像在像素级上与输入图像相似
      • L s s i m L_{ssim} Lssim计算方法: L s s i m = 1 − S S I M ( O u t p u t , I n p u t L_{ssim} = 1 - SSIM(Output,Input Lssim=1SSIMOutputInput; L s s i m L_{ssim} Lssim用于量化两幅图像的结构相似度
    • RFN的训练:
      • 在第二阶段,固定编码器和解码器,用适当的损失函数训练RFN
        在这里插入图片描述
      • 从源图像中提取多尺度深度特征( ϕ i r m \phi^m_{ir} ϕirm ϕ v i m \phi^m_{vi} ϕvim),对于每一个尺度,使用一个RFN来融合这些深层特征,然后融合的多尺度特征 ϕ f m \phi_f^m ϕfm送入固定的解码器网络中
      • L R F N L_{RFN} LRFN作为RFN的损失函数:
        L R F N = α L d e t a i l + L f e a t u r e L_{RFN} = \alpha L_{detail} + L_{feature} LRFN=αLdetail+Lfeature L d e t a i l L_{detail} Ldetail表示背景细节保留损失函数, L f e a t u r e L_{feature} Lfeature表示目标增强损失函数, α \alpha α是平衡参数
      • 在红外与可见光图像融合的情况下,大多数背景信息来自可见光图像
        • L d e t a i l L_{detail} Ldetail计算方法: L d e t a i l = 1 − S S I M ( O , I v i ) L_{detail} = 1 - SSIM(O,I_{vi}) Ldetail=1SSIM(O,Ivi); 目的是从可见光图像中保存细节信息和结构特征
        • L f e a t u r e L_{feature} Lfeature 计算方法: L f e a t u r e = Σ m = 1 M w 1 ( m ) ∣ ∣ ϕ f m − ( w v i ϕ v i m + w i r ϕ f m ) ∣ ∣ F 2 L_{feature} = \Sigma_{m=1}^M{w_1(m)||\phi_f^m-(w_{vi}\phi_{vi}^m+w_{ir}\phi_f^m)||_F^2} Lfeature=Σm=1Mw1(m)∣∣ϕfm(wviϕvim+wirϕfm)F2;目的是为了限制融合的深层特征,以保留突出结构
          w 1 w_1 w1是平衡损失大小的权衡参数向量。它假设有四个值{1,10,100,100}
          w v i w_{vi} wvi w i r w_{ir} wir控制融合特征图中可见特征和红外特征的相对影响; w i r w_{ir} wir通常比 w v i w_{vi} wvi

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/165187.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[Android Input系统]MotionEvent的序列化传送

这里从云游戏的触控操作看起,PC端的客户端支持按键和鼠标滑动操作,手机上的云游戏客户端则是和手机游戏一样的touch触控,客户端的touch操作是怎样处理给服务端的呢,猜测是把touch操作“实时”的传送给了服务器,Android…

COM,Component Object Model 简介

COM,Component Object Model 简介 1. COM 是什么 COM 的英文全称是,Component Object Model,中文译为,组件对象模型。它官方的概念是: The Microsoft Component Object Model (COM) is a platform-independent, dis…

一个简单、功能完整的开源WMS​仓库管理系统

今天给大家推荐一个简单、功能完整的仓库管理系统。 项目简介 这是基于.NetCore 7、Vue 3开发的开源项目,支持中英文,界面简单清爽,采用前后端分离架构。 该项目主要是针对小型物流仓储供应链流程,采用的技术也都比较新&#x…

Redis基础配置之RDB持久化

测试环境: windows RDB的触发机制 save bgsave flushall 自动触发(配置文件配置) save命令触发: 触发方式 :首先手动删除dump.rdb文件。 当执行save命令时,自动生成dump.rdb文建测试成功 bgsave命令触发: 触…

jsp网络课程管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 网络课程管理系统 是一套完善的web设计系统,对理解JSP java编程开发语言有帮助,系统采用web模式开发,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发&#xff…

JVM内存组成简介

按照官方的说法:“Java 虚拟机具有一个堆,堆是运行时数据区域,所有类实例和数组的内存均从此处分配。堆是在 Java 虚拟机启动时创建的。”“在JVM中堆之外的内存称为非堆内存(Non-heap memory)”。可以看出JVM主要管理两种类型的内存&#xf…

【C语言航路】第十二站:自定义类型:结构体、枚举、联合体

目录 一、结构体 1.结构体的基础知识 2.结构体的声明 3.特殊的声明(匿名结构体) 4.结构体的自引用 5.结构体变量的定义和初始化 6.结构体的内存对齐 7.修改默认对齐数 8.结构体传参 二、位段 1.什么是位段 2.位段的内存分配 3.位段的跨平台问…

小程序目录结构和全局配置

小程序目录结构和全局配置小程序目录结构目录结构和web结构对比全局配置—pages & windows配置文件简介全局配置pages & window全局配置—tabBartabBar简介页面配置页面配置简介小程序目录结构 目录结构 和web结构对比 全局配置—pages & windows 配置文件简介 …

块级元素、行内元素、元素嵌套

HTML标签有两类:块级元素行内元素 (1)块级元素-默认总是在新行开始 div、h1~h6、blockquote、dl、dt、dd、form、hr、ol、p、pre、table、ul … 特点:总是在新行上开始,高度、行高以及顶和底边距都可控制,宽…

Kubernetes_HPA实践使用

文章目录一、前言二、配置APIServer和安装Metrics2.1 APIServer开启Aggregator2.2 安装Metrics Server (需要用到metris.yaml)安装metrics Server之前安装metrics Server之中全部命令实践演示安装metrics Server之后三、使用HPA测试 (需要使用到test.yaml,里面包括 …

明清专题数据库:企业匹配官办书局距离、科举考试、商帮文化变量等

一、企业到明清官办书局,印刷局的最小距离测算 以明清进士数量的地域分布测度儒家文化的历史积淀,使用企业到古代印刷局的距离作为工具变量解决内生性问题! 数据来源:自主整理 时间跨度:-- 区域范围:全国…

第十四届蓝桥杯单片机组学习笔记(1):点亮板子第一个LED

点亮板子第一个LED前言单片机IO控制M74HC573M1R-数据锁存器74HC138-38译码器代码前言 使用CT107D实验板子的时候可以看到为了IO口对多个外设的复用,所以板子使用了几个锁存器来对LED、数码管、蜂鸣器等外设进行了一个选择,最后再使用38译码器来使用三个…

如何对时间序列进行小波分析,得出其周期?

从信号处理角度进行分析 简单的时间序列直接做各种谱分析(频谱,包络谱,平方包络谱,功率谱,倒谱等等) 比如一些简单的旋转机械振动时间序列信号 ​如果频谱不好分析,那可以分析如下图所示的时间序…

FL Studio21最新版数字音频工作站(DAW)

FL Studio21首先提供了音符编辑器,编辑器可以针对音乐创作人的要求编辑出不同音律的节奏,例如鼓,镲,锣,钢琴,笛,大提琴,筝,扬琴等等任何乐器在音乐中的配乐。 水果音乐制…

【Linux C编程-高级篇】换行回车探讨printf行缓冲write函数掉电保护线程安全相关

换行回车探讨 \r : 回车,定位到本行开头\n : 换行,光标移到下一行\r\n : 将光标移动到下一行开头windows 下,每行结尾 \r\n类unix,每行结尾 \nMac系统,每行结尾\r \r\n,windows下好像改善了,使…

全文最详细的Apache的管理及优化Web(图文详解)

目录 前言 一、Apache的安装及启用 二、Apache的基本信息 三、Apache的基本配置及修改 1、默认发布文件 2、Apache端口修改 3、默认发布目录 三、Apache的访问控制 1、基于客户端ip的访问控制 2、基于用户认证 四、Apache的虚拟主机 五、Apache的语言支持 六…

React--》超详细教程——React脚手架的搭建与使用

目录 React脚手架的创建 全局安装创建 npx安装创建(官方推荐) 指定React版本安装 脚手架文件介绍 React脚手架是开发现代Web应用的必备,其充分利用Webpack、Babel、ESlint等工具辅助项目的开发,当然这些工具也无需手动配置即可使用,脚手…

Java 在云原生中的内存问题

Java 凭借着自身活跃的开源社区和完善的生态优势,在过去的二十几年一直是最受欢迎的编程语言之一。步入云原生时代,蓬勃发展的云原生技术释放云计算红利,推动业务进行云原生化改造,加速企业数字化转型。 然而 Java 的云原生转型之…

Word目录自动生成,不使用word默认样式的,且指定从某页开始为第一页

文章目录一, 设置正文页为第1页:二,自动生成目录。拓展:需求:文章或者论文往往会先写好标题,摘要,写好内容。最后需要生成目录。但是这样布局后,生成的目录的起始页码不是从第1 页开…

ChatGPT通俗笔记:从GPT-N、RL之PPO算法到instructGPT、ChatGPT

前言 自从我那篇BERT通俗笔记一经发布,然后就不断改、不断找人寻求反馈、不断改,其中一位朋友倪老师(之前我司NLP高级班学员现课程助教老师之一)在谬赞BERT笔记无懈可击的同时,给我建议到,“后面估计可以尝试尝试在BERT的基础上&…