MFIF:Deep Regression Pair Learning

news2025/1/9 0:37:24

DRPL: Deep Regression Pair Learning for Multi-Focus Image Fusion

本文提出了一种用于多焦点图像融合的新型深度网络,称为深度回归对学习 (DRPL)。与现有的深度融合方法将输入图像分割成小的补丁并应用分类器来判断补丁是否聚焦相比,DRPL直接将整个图像转换为二进制掩码,而无需进行任何补丁操作,随后解决了聚焦/散焦边界周围模糊水平估计的困难。同时,将一对互补源图像作为输入并生成两个相应的二进制掩码的成对学习策略引入模型,极大地对每对图像施加了互补约束,为性能的提高做出了巨大贡献。此外,由于边缘或梯度确实存在于聚焦部分中,而散焦部分没有类似的属性,因此我们还嵌入了梯度损失,以确保生成的图像完全聚焦。然后利用结构相似性指数 (SSIM) 在参考图像和融合图像之间进行权衡。

介绍

近年来,已经研究了各种多焦点图像融合方法,这些方法可以大致分为两个分支,包括空间域策略和变换域策略;
空间域方法直接计算像素级别的融合图像。具体地,根据每个像素被聚焦的程度来估计与源图像中的每个像素对应的权重,然后通过对源图像中的相应像素进行加权平均来获得融合图像中的每个像素。但是,这种加权融合通常采用基于块的融合策略,在该策略中,源图像被分解为许多固定大小的块,随后在对象边界上产生块伪像。
变换域方法假设自然图像由一系列具有不同属性的组件组成,例如纹理部分和平滑部分。通常,它们首先将源图像分解为多个系数,然后通过遵循某些融合规则来融合这些不同的系数,以获得融合的系数。最后,通过对融合系数进行反变换来获得融合的全聚焦图像。一些典型的变换域方法包含稀疏表示,子空间学习,多尺度变换和边缘保留技术。但是,这些专注于使用手工制作的功能的人为设计的转换通常在有效表示源图像方面受到限制,对各种输入条件都不具有鲁棒性。此外,对图像变换,融合规则指定和图像重建的分离学习也会导致图像质量下降。
基于深度学习的方法,一种通用的方法是将焦点部分检测视为分类问题,该问题输入图像补丁并学习分类器以确定该补丁是聚焦还是散焦。尽管这种方法成功地阻止了手工功能的使用,并且由于深度学习的强大表示能力而更有效地学习分类器,但它在很大程度上取决于基于补丁的策略。与空间域融合方法相似,这些基于深度学习的方法首先将整个图像分割为具有固定大小和步幅的重叠补丁,然后基于这些补丁进行以下操作。这种基于补丁的策略的一个限制是,很难对包含部分聚焦和部分散焦像素的边界区域进行分类。此外,这也非常耗时,因为源图像会生成大量补丁,这与我们的实时要求相去甚远。不同的是,有些学者通过利用完全卷积网络来避免基于补丁的策略。但是,他们仍然无法提取有价值的补充信息和多样化的训练集等,从而对融合图像的质量产生了较差的影响。
综上,本文提出了一种新型的深度融合网络,即深度回归对学习 (DRPL),用于多焦点图像融合。与一些采用补丁作为输入的现有方法相比,所提出的方法是完全端到端的结构,避免了分类,但属于回归。具体来说,我们首先生成大量成对的合成图像,其中每个图像都包含清晰和模糊的部分。将没有任何补丁处理的一对完整图像直接输入到网络中以预测其相关的掩码,其中每个元素表示输入像素是聚焦还是散焦
由于这种像素到像素的回归和对偶学习,有效地利用了聚焦像素和散焦像素之间的判别信息以及每对像素之间的互补信息,从而解决了其他基于补丁的方法中存在的边界限制。

此外,根据估计的掩模,随后生成融合图像,从而允许DRPL通过引入结构相似性和边缘保留来进一步测量融合图像与地面真相参考之间的差异。

贡献

1)提出了一种端到端架构,将每个像素转换为二进制代码,以确定其是聚焦还是散焦,从而防止了补丁分解并大大加快了前进的步伐。

2)引入了一种以互补源图像为输入并估计其相应的二进制映射的成对学习策略,从而显着提高了融合图像的质量。

3)将边缘保留技术和结构相似性度量都嵌入到模型中,以进一步提高融合图像的质量。

4)使用各种具有挑战性的模板生成合成的多焦点图像数据集。它由数千个成对的图像及其相应的掩码组成,使我们能够更实际地训练网络。

5)在合成和现实世界数据集上的实验结果证明了我们的方法在多焦点图像融合上与现有的最新方法相比的有效性和优越性。

相关工作

Conventional Image Fusion Methods

最近,已经研究了各种方法,包括变换域和空间域方法,用于多焦点图像融合。作为变换域方法中的典型分支,多尺度变换技术旨在使用一些人为设计的变换,例如离散小波变换 (DWT),curvelet变换 (CVT),shearlet变换,非次采样contourlet变换 (NSCT)和形态金字塔 (MP),将源图像分解成多个尺度进行融合。同样,基于稀疏表示 (SR) 的融合方法旨在通过利用来自过度完整字典的原子的备用组合来表示源图像。然后使用某些特定规则对不同源图像对应的稀疏表示系数进行融合,然后重建融合后的图像。例如,一些学者通过利用一组更紧凑的子字典,提出了一种用于图像融合和去噪的自适应稀疏表示 (ASR)。但是,由于SR通常采用滑动窗口技术来引入伪像,因此提出了卷积稀疏表示 (CSR)来学习与整个源图像相对应的系数。此外,基于边缘保留技术的融合方法是另一种典型的融合方法,它主要保留融合图像中的纹理/锐化细节。例如,提出了引导滤波融合 (GFF)将图像分解为基础层和细节层。Chen等人提出了一种新颖的边缘模型组合,不仅可以保持锐化信息,还可以去除块伪影。

尽管已经广泛研究了基于变换域的方法,但是由于它们对变换域中的高频分量敏感,因此在融合图像中确实存在亮度和颜色失真。相比之下,基于空间域的方法直接在像素级别融合源图像。具体来说,首先将图像分割成若干个具有固定大小的块,并通过遵循一定的活动水平测量来融合每对块。由于块的大小对融合质量有很大影响,因此引入四叉树(quad-tree)技术自适应地选择不同大小的块。

Deep Learning Based Image Fusion Methods

基于深度学习的方法由于其强大的图像表示能力,通常可以获得更好的图像质量。Liu等人 和Tang等人提出了深度卷积神经网络 (CNN) 用于融合多焦点图像。这些基于CNN的方法以图像补丁为输入,并输出分类结果,以确定该补丁是否被聚焦。Yang等人然后扩展了这些CNN架构以学习多级特征 (MLFCNN) 来提高性能。此外,Yan等人提出了一种无监督的深度学习方法 (MFNet)。直接预测补丁的分配。与包含全连接层进行分配的CNN,MLFCNN和MFNet不同,有些学者使用全卷积网络 (FCN)来获取融合图像。此外,还提出了端到端架构 (多级卷积神经网络: MLCNN和多尺度视觉注意深度卷积神经网络: MADCNN),可以直接从一对源图像中获取融合图像。与这些方法相比,本文提出了一种新颖的端到端方法,然后进行数据生成,像素到像素回归,对学习,结构相似性度量和边缘保存,预测每个像素的成员资格并实现最先进的性能。

请添加图片描述
(框架:一对源图像通过全卷积网络以估计其相应的加权图。同时,根据这些地图,生成融合图像,然后使用ground truth参考来测量其结构相似性和边缘细节)

方法

如我们所见,我们首先将一对源图像输入到共享的全卷积网络中,以获取其相应的加权图。
通过执行点积和加权求和运算,然后得到融合图像。为了使此融合图像类似于地面真相参考,利用SSIM来测量它们之间的结构相似性。此外,我们发现边缘细节存在于聚焦部分中,而散焦部分中没有这种属性。因此,边缘保留测量还被嵌入到模型中,以进一步提高图像质量。

Objective Function

在这里插入图片描述
1) Regression Pair Learning:
在我们提出的方法中,我们没有将每个图像分成一些小块,然后通过分类框架来确定它们的类别,而是通过回归方法直接将整个输入图像转换为它们的ground truth掩模,实现了像素到像素的估计,并大大加快了前进的步伐。通常,我们可以使用以下公式来测量输出和掩模参考之间的间隙。
在这里插入图片描述
其中f(·) 是网络的正向输出,而 | |·| | 1表示l1范数。请注意,l1范数是一种通用测量方法,已在基于图像重建的任务中使用了许多方法,例如图像反射,图像生成和图像超分辨率。我们使用l1范数的原因是为了鼓励减少模糊。

尽管等式 (1) 能够估计每个像素的模糊或清晰水平,但它忽略了每对图像之间的关系。为了解决这个问题,引入了对学习,以充分利用每对之间的互补相关性,如公式 (2) 所示:
请添加图片描述
前两个项允许模型同时将位于同一位置的具有不同模糊级别的像素投影为0或1,从而增加了网络的种类。此外,第三项强制配对的输出彼此具有约束,确保它们彼此互补,并且防止位于两个源图像的相同位置上的像素被估计为相同的值。

2) SSIM Measurement:

通常,在图像恢复中,通常会应用结构相似性指数 (SSIM) 来进一步保留不同滑动窗口在生成的图像和源图像之间相应位置的结构相似性。设I1和I2是两个不同的图像,则它们的SSIM可以定义为:
在这里插入图片描述

其中w1/w2是I1/I2中的滑动窗口或补丁 (例如,如果滑动窗口的大小设置为3 × 3,然后,wi也是一个与Ii分开的3 × 3补丁,沿着固定的步幅并从左上角滑动到右下角。);在这里插入图片描述
C1和C2是两个预定义的非负常数。请注意,SSIM ∈ [0,1] 越大,这两个图像之间的相似度越高。在本文中,我们还使用SSIM来测量融合图像与其ground truth参考之间的相似性。
具体地,在得到该对图像中所有像素的预测后,通过
在这里插入图片描述
处理是为了确保用于融合的加权图是完全互补的。然后应用SSIM来测量融合图像和ground truth之间的相似性,如下所示。
请添加图片描述
SSIM(I f,Ig) 表示等式 (3) 中所有基于窗口的SSIM值的平均值。
请添加图片描述

3) Edge Preservation:
聚焦部分包含清晰的边缘,而模糊部分缺少此属性。如图2所示,我们可以看到纹理细节确实存在于聚焦部分的边缘,但是如果将该部分转换为平滑部分,则会丢失。因此,保留融合图像I f的边缘信息是合理的,该边缘信息也存在于ground truth参考Ig中:
在这里插入图片描述
在这里插入图片描述
这种梯度差异成本有助于防止深度卷积网络生成模糊图像。请注意,由于绝对值操作,该损失确实不是相对于输入变量的导数。然而,类似于 “ReLU”,它也不是衍生产品,但在深度学习中被广泛使用,式 (6) 仍然可以通过PyTorch中的autograd策略反向传播,这是深度学习中的一般策略.
因此,我们将回归对学习,SSIM测量和边缘保留结合在一起,以获得目标函数Eq(8):
在这里插入图片描述

Architecture:在这里插入图片描述

提出的方法的CNN架构如图4所示。在这里,我们直接将其传递到一个全卷积网络中,该网络在每个层中进行填充,并且不会更改图像的比例,从而使网络易于更改为更深或更浅的版本。为了从输入数据中获得更有价值的信息,在第一个块中,我们应用一个具有9 × 9大尺寸的内核来扩大感知场,然后是‘BN’+‘ReLU’+'Swich’图4(b) 所示。请注意,k9n64s1p4表示内核大小为9 × 9,特征图的通道为64,步幅为1,填充为4。图4(a) 、 © 和 (d) 中的k3n2s1p1和k3n64s1p1也是如此。然后将其输出通过两个具有k3n64s1p1的卷积块,如图4© 所示。之后,为了避免梯度消失并学习更强大的表示,采用了12个残差块,并在图4(d) 中显示了残差块的洞察力。对称地,输出也通过两个带有k3n64s1p1的卷积块。最后,利用k3n2s1p1卷积块和Sigmoid运算来确保加权映射确实落入 [0,1] 的范围内。请注意,第3层的输出也添加到第16层的输出中,以记住**更浅的信息。**对于内核大小,我们在第一卷积层中应用大尺寸9 × 9内核以扩大感知场。与通常使用的3 × 3内核相比,**第一层中较大的内核有助于从邻居像素收集更多信息。**然后将3 × 3大小的内核应用于所有其余层,因为与其他大小的内核 (例如5 × 5和7 × 7) 相比,该内核包含的参数要少得多,从而使我们能够连接更多的卷积层以增加非线性能力。因此,我们将9 × 9尺寸的内核应用于第一卷积层,然后在其余层中应用3 × 3尺寸的内核。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/13996.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java springboot获取GitLab上的文件内容

这里以最简单的方式获取git上的文件,并读取文件 第一步:获取主域名host 进入网页版的git,链接为:https://gitlab.***.com 第二步:获取access_token 在git网页端登录后的右上角用户头像下拉菜单的settings页面===>再点击settings页面的左侧菜单栏中的Access Tokens选…

Shell 脚本编程(二) —— 条件判断 (test命令) + 多路分支语句(if 、case)

test 命令可以用于判断文件类型以及值的比较,test 判断条件为真,返回 0;条件为假,返回 1。 目录 一、条件判断 (1) 整数判断 (2) 字符串判断 (3) 文件判断 二、if 语句 1、语法结构 2、实际运用 三、case语句 一、条件判断…

【毕业设计】图像识别跌倒检测算法研究与实现 - python 深度学习 机器学习

文章目录0 前言1 简介2 实现方法2.1 传统机器视觉算法2.2 基于机器学习的跌倒检测2.2.1 SVM简介2.2.2 SVM跌倒检测原理2.2.3 算法流程2.2.4 算法效果2.3 深度学习跌倒检测2.3.1 最终效果2.3.2 网络原理3 最后0 前言 🔥 Hi,大家好,这里是丹成…

Java集合框架【二容器(Collection)[ArrayList]】

文章目录1 容器/集合简介2 容器的结构2.1 结构图2.1.1 单例集合2.1.2 双例集合3 单例集合的使用3.1 Collection接口的介绍3.2 Collection接口中的接口方法3.3 List接口3.3.1 List接口特点3.3.2List的常用方法3.4 ArrayList容器类3.4.1 添加元素3.4.2 获取元素3.4.3 根据索引删除…

水尺监测识别系统

水尺监测识别系统利用计算机视觉机器学习技术对河道湖泊进行实时检测,当水尺监测识别系统监测到河道水位异常时,立即告警。水尺监测识别系统同时将告警截图和视频保存下来,推送给后台。水尺监测识别系统极大提升现场区域的管控效率&#xff0…

android EventBus

EventBus使用小案例 文件目录结构 MainActivity.java package com.example.myeventbus;import androidx.appcompat.app.AppCompatActivity;import android.content.Intent; import android.os.Bundle; import android.view.View; import android.widget.Button; import andro…

两万字长文带你深入Go语言GC源码

介绍 三色标记法 三色标记法将对象的颜色分为了黑、灰、白,三种颜色。 黑色:该对象已经被标记过了,且该对象下的属性也全部都被标记过了(程序所需要的对象);灰色:该对象已经被标记过了&#…

一段JS去除畅言免费版广告

畅言广告怎么去掉?去除畅言免费版广告方法是什么?现在很多站长都使用的社会化评论系统,可以让网站拥有免费的评论区,活化你的网站,但是随着很多社会化评论提供网站的关闭,畅言一家独大,现在免费…

企业网络自动化配置

更新的技术、合规性标准和不断变化的业务需求使管理当今的网络成为一项具有挑战性的任务。这解释了网络自动化在当今世界的重要性。IT 管理员现在的任务是确保网络的敏捷性和演进不会影响提供给最终用户的网络服务的稳定性、可用性和可靠性。但是,在此任务中&#x…

【JMX】JMX远程监控JVM参数配置

目录基本用法命令示例jconsole连接新建连接确认连接方式查看监控信息jvisualvm连接添加主机增加JMX连接查看监控信息参数说明基本参数jmxremote.access文件说明jmxremote.password文件说明文件权限异常无法验证基本用法 命令示例 #参考命令 java -Dcom.sun.management.jmxrem…

【Java学习】语法:包、权限修饰符、final、常量、枚举、抽象类、接口

文章目录一、包二、权限修饰符三、final四、常量五、枚举六、抽象类七、接口一、包 什么是包? 包是用来分门别类的管理各种不同类的,类似于文件夹、建包利于程序的管理和维护。建包的语法格式: package公司域名倒写.技术名称。报名建议全部英文小写,且…

WebRTC系列<二> 案例与工具

阅读关于webRTC的其他文章: WebRTC系列<一> 什么是WebRTC? WebRTC系列<二> 案例与工具 ---------------------------------案例--------------------------------- webrtc官网 : 官网示例代码github地址…

【Raspberry Pi】搭建NAS流媒体播放器 + ARIA2 + YAAW + 迅雷下载系统

由于种(gu)种(ji)原(cuo)因(wu)新买的Pi并没有用于任何项目上,看着它一天一天的封尘,于心不忍终于让它也做了点事。恰好这几天家里网络晚上有点卡&#xff0c…

数字集成电路设计(四、Verilog HDL数字逻辑设计方法)(二)

文章目录3. 时序电路的设计3.1 触发器3.1.1 最简单的D触发器3.1.2 带复位端的D触发器3.1.3 复杂功能的D触发器(没有太大必要)3.1.4 T触发器3.2 计数器3.2.1 二进制计数器3.2.2 (重要)任意进制计数器3.3 移位寄存器3.4 序列信号发生…

docker命令整理

第一次安装 查看docker是否安装成功 docker version 测试hello-world docker run hello-world –help 帮助 查看详细信息 docker info 搜索docker镜像网址:https://hub.docker.com/search 查看 查看cpu实时内存 docker stats 镜像关键字:images -…

MySQL-Redis进阶生成全局唯一ID

单体全局ID 场景一、随着我们商城规模越来越大,mysql的单表的容量不宜超过500W,数据量过大之后,我们要进行拆库拆表,但拆分表了之后,他们从逻辑上讲他们是同一张表,所以他们的id是不能一样的, …

阿里最新财报:中国商业分部收入下滑1%,年内股价累计下跌34%

11月17日,阿里巴巴集团(下称“阿里巴巴”,HK:09988、NYSE:BABA)公布2023财年第二季度(对应自然年2022年第三季度)业绩。财报显示,阿里巴巴2022年第三季度的收入为人民币2071.76亿元(…

[附源码]java毕业设计流浪动物领养系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

计算机中的加法器和比较器

本节展示了计算机中的加法器和比较器的底层实现电路设计。 加法器 计算机中加法器的实现依赖门的结构,如果是两个十进制进行加减,则首先把右边的两个0-9之间的数相加,它们的总和在0-18之间,如果答案是0-9之间,则直接写…

Vue--》详解vue组件及其组件化的使用

目录 Vue组件 非单文件组件 单文件组件 组件的组成部分 组件中定义methods方法 vue-cli中组件的使用步骤 vue-cli中注册全局组件 组件的props属性 props中的常用属性 组件间的样式冲突 Vue组件 vue是一个支持组件化开发的前端框架。什么是组件化开发?组件…