【多聚焦图像:GAN:无监督】

news2025/1/31 16:50:37

MFF-GAN: An unsupervised generative adversarial network with adaptive and gradient joint constraints for multi-focus image fusion

(MFF-GAN: 具有自适应和梯度联合约束的无监督生成对抗网络,用于多焦点图像融合)
从梯度的角度来进行判别

现有的大多数方法都会生成决策图以实现多焦点图像融合,这通常会由于分类错误而导致细节丢失,尤其是在聚焦和散焦区域的边界线附近 ,为了克服这一挑战,本文提出了一种具有自适应和梯度联合约束的新型生成对抗网络,以融合多焦点图像。引入了自适应决策块,以基于重复模糊的差异来确定源像素是否被聚焦。在它的指导下,一个专门设计的内容损失可以动态地指导优化趋势,即迫使生成器产生与聚焦源图像具有相同分布的融合结果。为了进一步增强纹理细节,我们建立了对抗博弈,以迫使融合结果的梯度图近似于基于源图像构建的联合梯度图。我们的模型是无监督的,不需要ground-truth。

介绍

多聚焦融合的方法可以分为两类: 空间域方法和转换域方法。在空间域融合方法中,融合通常基于像素,块或区域。同的是,变换域方法的思想是将图像变换到其他域,并利用域的特性来更有效地实现目标,包括多尺度变换,稀疏表示,混合,子空间等方法。
目前的方法人有许多限制:
首先,现有方法通常需要手动设计活动水平测量和融合规则,这限制了融合结果,因为不可能以一种手动设计的方式考虑所有因素。
其次,现有的许多方法通过生成决策图来执行多焦点图像融合,本质上更像是基于清晰度检测的分类问题。这些方法通常无法对边界线附近的聚焦和散焦区域进行分类。
再次,几乎所有基于深度学习的方法在生成决策图时都需要进行后处理,例如一致性检查,这大大增加了方法的复杂性。
最后,这些方法通常需要手动构建决策图作为地面真相来训练网络,这进一步限制了此类方法的应用范围。

为了解决上述挑战,我们设计了具有自适应和梯度联合约束的无监督生成对抗网络,称为MFF-GAN。

总体流程叙述:

我们提出了一种自适应决策块,它使用重复模糊原理来确定相应像素是否被聚焦。具体地,当清晰图像模糊时,前后像素值的变化大于原来就是模糊图像再次模糊的变化(即利用该原理可以判别出,这一片区域原先是清楚地还是本身就是模糊的)。决策块为每个源图像生成得分图,该得分图具有与源图像相同的大小。换句话说,决策块为每个像素做出明确的分数。根据最大选择原则,可以从得分图中获得用于指导优化的筛选图(screening map)。筛选图作用于专门设计的损失函数,该损失函数迫使生成器生成与清晰源图像一致的融合图像。为了进一步增强融合图像的纹理细节,我们在生成器和鉴别器之间建立了对抗性游戏。经过连续的对抗性学习,融合图像的梯度图将近似于我们构建的联合梯度图(成功骗过判别器),从而包含更丰富的纹理细节。

优势
首先,我们的方法不需要设计活动级别测量和融合规则,也不需要任何后处理,可以实现多焦点图像的简单快速融合。
其次,我们的网络不需要有监督学习的ground truth(几乎所有流行的方法都不需要),而是具有弱约束的无监督学习。结果,我们可以在任何一对多焦点图像上轻松训练网络。
最后,我们的方法不是基于决策图,而是通过提取和重建信息来实现多焦点图像融合,因此在边界线附近几乎没有模糊和细节损失。
( 值得注意的是,由于使用了1 × 1卷积内核以及对特征通道数量的控制,我们网络中的参数数量被限制在一定范围内)

贡献

首先,我们提出了一种新的具有自适应和梯度联合约束的无监督GAN模型,用于多焦点图像融合,该模型通过提取和重构信息来实现融合。结果,在聚焦区域和散焦区域的边界线附近几乎没有模糊和细节损失。
其次,我们设计了一种基于重复模糊原理的自适应决策块,该块可以有效地以像素为单位进行焦点检测,从而指导生成器自适应地学习清晰源图像的分布,避免生成清晰度和模糊之间的融合结果。
再次,我们提出了基于联合梯度约束的特定对抗损失函数,该函数可以进一步增强融合结果的纹理细节。
最后,我们基于公开数据集创建了一个新的多焦点图像融合数据集MFI-WHU,其中包含120个高质量的图像对

𝐆 是生成器,𝐃 表示判别器,𝐒 表示决策块生成的筛选图。Gradjoint是关节梯度图,Gradfused是指融合图像的梯度图。此外,L表示损失函数。

relate works

(对于基于深度学习的多聚焦融合和以及GAN及其变体,不再赘述)
基于深度学习的多聚焦融合:
这些方法的发展是从监督到无监督的过渡,但其中大多数仍然专注于准确决策图的生成。
Liu等人利用卷积神经网络 (CNN) 对聚焦区域和散焦区域进行分类,从而生成了用于融合的决策图。值得注意的是,他们使用手动构建的决策图作为监督训练的地面真实,以提高分类的准确性。
此外,Du等人 提出了一种新颖的基于图像分割的多焦点图像融合算法,其中,检测决策图的任务被视为源图像中聚焦区域和散焦区域之间的图像分割。尽管这种基于分割的方法在一定程度上提高了决策图中边界线的准确性,但仍会导致细节的丢失。
Guo等人提出使用条件GAN进行多焦点图像融合。但是,在这种方法中仍然需要标记的图像来进行有监督的网络训练。为了解决这个问题,Ma等人提出了一种无监督网络来生成用于融合的决策图。
仅依靠神经网络的学习能力,即使有地面真理可供参考,这些方法也无法生成理想的决策图。因此,它们需要后处理来进一步优化决策图,例如一致性验证或引导过滤,这似乎没有充分利用神经网络的性能。相比之下,我们提出的MFF-GAN不仅是无监督的,而且不需要任何后处理。

我们的方法是基于GAN。在这里,我们介绍了GAN及其变体的一些基本概念,
GAN:
从框架结构来看,GAN主要由两个部件组成: 生成器 𝐺 和鉴别器 𝐷。生成器和鉴别器之间的min- max博弈可以逐渐提高他们的能力,最终得到可以估计目标分布的期望生成器。在这里,我们对此过程给出了更正式的描述。假设训练数据为 𝑋 = { 𝑥 1,𝑥 2,…,𝑥𝑛},则生成器可以从这些数据中估计分布特征,然后尝试生成与该分布相匹配的数据 𝐺(𝑋)。对于鉴别器,任务是尽可能地识别出哪些是真实的训练数据 𝑋,哪些是生成器生成的假数据 𝐺(𝑋)。换句话说,整个GAN的目的是使估计的数据分布 𝑃𝐺 和真实数据分布 𝑃 数据之间的发散尽可能小。因此,GAN的目标函数定义如下:
请添加图片描述
随着生成器和鉴别器的持续对抗性学习,生成器生成的数据分布越来越接近真实数据分布,直到鉴别器无法区分它们是真实数据还是假数据。此时,经过训练的生成器是可以生成类真实数据的预期生成器。

LSGAN:
最小二乘GAN (the least squaresGAN (LSGAN))。LSGAN是GAN的改进,由Mao等人2017年提出。传统的GAN采用交叉熵损失函数,训练时容易出现梯度消失。LSGAN可以更好地解决这个问题。相反,它使用最小二乘损失作为损失函数,并引入标签作为网络优化的目标:
请添加图片描述
其中 𝐷(⋅) 是鉴别器函数,𝐺(⋅) 是生成器函数。另外,𝑐 是(鉴别器认为由生成器生成的假数据)假标签,𝑏 是(鉴别器认为是真数据)真标签,𝑎 是生成器期望鉴别器确定假数据的标签。显然,𝑐 尽可能接近0(因为生成器希望可以骗过判别器)。相反,𝑎 和 𝑏 尽可能接近1。也就是说,鉴别器希望能够准确地区分真实数据和虚假数据,而生成器被训练以生成可以被鉴别器区分为真实数据的数据。

DCGANs:
受DCGANs的启发,我们的方法结合了CNN和GAN,以更好地实现多焦点图像融合任务。Radrord等人首先提出了DCGANs,他们讨论了CNN和GAN的结合,并给出了一系列建议。具体来说,DCGANs提供了五种改进,以实现CNN和GAN的更好结合,从而尽可能减少训练过程中的不稳定性。

First,在生成器和鉴别器中删除池化层。相反,在鉴别器中使用步幅卷积(stride convolution) 来实现下采样,而在生成器中应用转置卷积来实现上采样。
Second,将批归一化层(防止梯度爆炸or消失)应用于生成器和鉴别器。
Third,整流线性单元 (ReLU) 激活函数用于发生器的除输出层以外的所有层,而输出层则使用tanh作为激活函数。
Finally,leaky ReLU用作鉴别器所有层上的激活函数。最后,在更深的模型中删除了完全连接的层。
总体而言,DCGANs将CNN强大的特征提取能力引入GAN。一方面,可以提高鉴别器的判断精度。另一方面,可以促进生成器的特征提取和重建性能。

方法

Overview of the proposed method

对于多焦点图像融合,最有意义的信息是源图像中的尖锐区域,这些区域反映在强度分布和纹理细节上。自然,在信息提取过程中,应该保留尖锐区域中的这些信息,并丢弃模糊区域中的这些信息。因此,有必要引入一种机制来调整优化过程中的损失函数,从而约束网络选择性地提取和重构信息。此外,应加强结果的细节,以减少神经网络在图像生成任务中常见的平滑效果。基于这些考虑,我们设计了具有自适应和梯度联合约束的生成对抗网络,总体融合框架如图下图所示请添加图片描述
首先,我们设计一个自适应决策块,它可以基于重复模糊原理来评估每个像素的锐度,如下图所示。即清晰度较高的图像,在模糊后,像素值变化较大。基于此观察结果,生成筛选图以表征有效信息的位置。筛选地图作用于我们构建的特定内容损失函数,从而在像素尺度上调整优化目标。总之,决策块可以自适应地引导融合结果在像素尺度上近似清晰源图像的强度分布和梯度分布。我们的具体方法是在两个源图像的相应像素位置选择得分较大 (放弃较小的) 的像素作为优化目标。在决策块和内容损失的共同作用下,生成器可以获得相对清晰和自然的结果。与传统神经网络的固定损失函数不同,我们模型中的损失函数是动态构造的**。具体地,只有那些被决策块判断为尖锐的像素才能参与优化过程中的损失函数计算**。请添加图片描述
为了进一步增强纹理细节并提高融合图像的质量,我们在生成器和鉴别器之间建立了对抗性游戏。具体来说,我们使用Laplacian operator ∇(⋅) 来找到两个源图像的梯度图,然后根据最大选择原理构造更强的联合梯度图。我们将联合梯度图定义为真实数据,将融合图像的梯度图定义为假数据。持续的对抗性学习可以引导生成器更加专注于纹理的保存。结果,我们可以获得质量更高的融合结果,其中包含更丰富的纹理细节。

Loss Function

有两部分组成:内容损失和对抗损失

Loss function of generator

请添加图片描述
生成器的对抗性损失是为了进一步增强融合图像的纹理细节,其定义为:
请添加图片描述
其中,𝑁 是训练过程中一批融合图像的数量,𝑎 是生成器期望鉴别器确定融合图像的概率标签,而 ∇(⋅) 表示使用Laplacian算子查找梯度图的操作。
这种对抗性损失可以迫使生成器更加注意纹理细节的保存。换句话说,对抗性游戏在满足生成器融合规则的前提下,使融合图像倾向于具有更强的纹理。这里 𝑎 应该设置为1。

内容损失包含强度损失和梯度损失
(因为两张筛选图是互补的,两张图的强度和梯度相加)请添加图片描述
强度损失 Lint可以约束融合图像与源图像的清晰区域具有相同的强度分布,定义为:请添加图片描述

其中,𝑖 和 𝑗 表示筛选图或源图像中第 𝑖 行第 𝑗 列的像素,𝐻 和 𝑊 表示图像的高度和宽度,𝐼 1和 𝐼 2为源图像,𝐼 fused为生成器生成的融合图像,由 𝐺(𝐼 1,𝐼 2) 定义。此外,𝑆(⋅) 是决策块根据源图像的清晰度生成的筛选图。具体地,筛选图的生成过程可以形式化:
请添加图片描述
其中min(⋅) 表示最小函数,sign (⋅) 是符号函数。重复模糊函数 𝑅𝐵(⋅) = 𝑎𝑏𝑠(𝐼𝑖,𝑗 − 𝐿𝑃(𝐼𝑖,𝑗 )),𝐿𝑃(⋅) 表示低通滤波函数。值得注意的是,𝑆(⋅) 的大小也是 𝐻 × 𝑊。
梯度损失项可以约束生成器,以使融合图像具有与清晰的源图像相同的纹理细节,这对于提高被融合图像的清晰度至关重要。梯度损失仍然与决策块生成的筛选图相关,并形式化为:请添加图片描述

Loss function of discriminator

鉴别器的损失函数使鉴别器能够准确识别真实数据和虚假数据。在我们的方法中,假数据是融合图像的梯度图。真实数据是我们构建的联合梯度图。它是根据最大选择原理获得的,具有更强的梯度分布。融合图像和联合梯度图的梯度图可以形式化为:
在这里插入图片描述
其中abs(⋅) 是绝对值函数,max(⋅) 是最大值函数。然后,判别器的损失函数定义为:请添加图片描述
其中 𝑏 是融合图像的梯度图的标签,应该设置为0。𝑐 是联合梯度的标签,应该设为1。也就是说,鉴别器期望准确地将联合梯度图识别为真实数据,并将融合图像的梯度图识别为假数据。在这种约束下,鉴别器可以指导生成器在信息维护方面的趋势,即支持强烈纹理的保存。

网络架构

Generator architecture

生成器的网络结构如下图所示,我们将生成器分成两条路径提取信息,对应两个源图像。发电机网络的设计灵感来自伪暹罗网络(pseudo-Siamesenetwork),它熟练地处理两个相对不同的输入。由于多焦点图像对在相应的像素位置处是尖锐的或模糊的,因此pseudo-Siamese network适用于此类图像。
请添加图片描述
在两种路径中,都有四个卷积层来提取特征。第一个卷积层使用5 × 5卷积内核,其余三个使用3 × 3卷积内核。它们都使用Leaky ReLU作为激活函数。为了防止卷积过程中信息的丢失,我们根据DenseNet的思想重用了特征。也就是说,每个卷积层的输入由所有先前的卷积层的输出连接。同时,为了提取更充分的信息,我们在两条路径之间交换信息。具体地说,交换的信息是通过连接和卷积的方法生成的。然后,将交换的信息与所有先前卷积层的输出连接在一起,作为下一个卷积层的输入。

最后,我们将两条路径中所有卷积层的输出连接起来,然后通过一个卷积层生成融合图像。卷积层的核尺寸为1 × 1,激活函数为tanh。值得注意的是,在所有卷积层中,填充模式都设置为「相同」,即特征图的大小在整个卷积过程中不会发生变化,与源图像的大小相同。

Discriminator architecture

请添加图片描述
鉴别器的结构如上图所示,鉴别器中的输入有两种类型,即基于源图像的联合梯度图和融合图像的梯度图。鉴别器由四个卷积层和一个线性层组成。四个卷积层的卷积核尺寸为3 × 3,它们都使用Leaky ReLU激活函数。这些卷积层的步幅设置为2。最后一层是用来求分类概率的线性层。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/104700.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【蓝桥杯】第12届Scratch国赛中级组第7题 -- 博士汪出题

[导读]:蓝桥杯大赛是工业和信息化部人才交流中心举办的全国性专业信息技术赛事。蓝桥杯大赛首席专家倪光南院士说:“蓝桥杯以考促学,塑造了领跑全国的人才培养选拨模式,并获得了行业的深度认可。” 春雷课堂计划推出Scratch蓝桥杯…

业务中台的架构案例

业务中台目标 目标: 整体目标:高内聚、低耦合,便于开发和维护。五个方向:性能、可用性、扩展性、伸缩性、安全性。 原因: 单体架构的大泥球会导致业务迭代困难、无法针对性伸缩、故障没有隔离等问题,需要向…

Python核心编程三大神兽——迭代器、生成器 、以及装饰器

装饰器 装饰器概述 装饰器本质:函数闭包的语法糖,一个函数,该函数用来处理其他函数,在不改变源函数的情况下添加功能,装饰器的返回值可以是一个函数对象 使用场景:插入日志,事务处理&#xf…

网心科技入选亿欧《2022年中国边缘计算产业研究报告》

近日,亿欧智库对外发布了《2022年中国边缘计算产业研究报告》,《报告》公布了“边缘计算产业图谱”和“行业新锐:中国边缘计算技术领先企业榜单”两项,网心科技(OneThing)均成功入选,彰显了网心科技在边缘计算领域的技术实力和市场领先地位。 当前,边缘计算与千行百业的深度融合…

51单片机实训day2——创建Keil工程

以管理员身份打开软件!!!以管理员身份打开软件!!!以管理员身份打开软件!!! 内 容:Keil工程创建 学 时:2学时 知识点:开发固件库介绍…

从英语翻译到人工智能:我如何用两年时间跨界转行

在这两年里,我经历了以下大大小小的里程碑: 2016 年初:在德国刚开始读英语语言学硕士没多久,萌生了转方向到计算机语言学(Computational Linguistics,后来我才知道那与自然语言处理 Natual Language Proces…

【树莓派不吃灰】兄弟连篇⑦ 日志管理

目录1.日志管理1.1 日志文件的功能和分类1.2 日志文件保存位置和文件介绍1.3 内核及系统日志1.4 日志消息的级别1.5 日志记录的一般格式1.6 用户日志分析1.6.1 users 查看能登录的用户1.6.2 who,w查看在线登录的用户1.6.3 last,lastb查看登录成功的用户和登录失败的用户1.7 日志…

为什么现在Python在量化交易中这么火?

前言 Python作为发展较快的编程语言,可以让程序员更加高效地工作和集成系统。Python的语法也是优先考虑了可读性,同时支持较少的代码行。 一般来说,Python语言是中低端量化交易平台最普遍的选择。中低端量化交易平台,支持复杂度…

40 CPP函数模板高级

#include "iostream" using namespace std; template <typename T1, typename T2> void func(T1 a, T2 b) {//其它代码??? tmp a b; //返回值该用什么呢?//其它代码 } void test() { } int main() {test();return 0; } 1 decltype关键字 在C中&#xf…

工控CTF之协议分析1——Modbus

协议分析 流量分析 主要以工控流量和恶意流量为主&#xff0c;难度较低的题目主要考察Wireshark使用和找规律&#xff0c;难度较高的题目主要考察协议定义和特征 简单只能简单得干篇一律&#xff0c;难可以难得五花八门 常见的工控协议有&#xff1a;Modbus、MMS、IEC60870、…

猿如意中的【Parrot-树莓派-5.0 arm64位 】工具框架的介绍详情

目录 一、工具名称 二、下载安装渠道 2.1 什么是猿如意&#xff1f; 2.2 如何下载猿如意&#xff1f; 三、工具介绍 四、Parrot-树莓派-5.0 arm64位功能介绍 五、软件安装过程 5.1 如何在猿如意中下载开发框架Parrot-树莓派-5.0 arm64位&#xff1f; 5.2 下载完成的Pa…

JMeter中如何简单地使用cookie

JMeter是一个集接口调试和性能测试于一体的测试工具&#xff0c;是很多技术型测试人员的必备工具&#xff0c;下面介绍一个如何简单地在JMeter中使用cookie登录一个网站并进行简单断言&#xff0c;拿广大测试人员最熟悉的51testing论坛来举例~ 一、收集登录数据 1.用Chrome打…

真正“自学”入门编程/程序员是一种怎样的体验

当年没考上大学&#xff0c;读了自考。 从那以后就开始了自学生涯&#xff0c;第一年还乖乖的去听课&#xff0c;第二年就完全放弃课堂了。 后来考本&#xff0c;读研&#xff0c;中间穿插学点通信&#xff0c;画图什么的&#xff0c;全部自己来。 仔细想想&#xff0c;读研…

我转行前端花了11个月

当你看到这行文字时&#xff0c;我假设你是一个准备转行前端&#xff0c;或者正在转行前端的人。我刚花了11个月转行前端。和你聊聊我的故事吧。 转行花了多久&#xff1f;11个月 准备转行前端时&#xff0c;我看了很多过来人写的转行经验。别人什么条件&#xff0c;转行花了…

SpringBoot3.0整合chatGPT

导读 导读 | 12月总体来说互联网的技术圈是非常热闹的&#xff0c;chatGPT爆火&#xff0c;SpringBoot3.0发布等重磅陆消息续进入大家的视线&#xff0c;而本文作者将以技术整合的角度&#xff0c;带大家把最火的两个技术整合在一起。读完本文&#xff0c;你将熟悉SpringBoot3…

(2022年12月最新)SpringBoot远程代码执行whitelabel error page SpEL RCE漏洞复现

1、 漏洞原理 spring boot 处理参数值出错&#xff0c;流程进入org.springframework.util.PropertyPlaceholderHelper 类中 此时 URL 中的参数值会用 parseStringValue 方法进行递归解析。其中 ${} 包围的内容都会被org.springframework.boot.autoconfigure.web.ErrorMvcAutoC…

电机分类和原理

一&#xff1a;核心原理 电生磁。 电机&#xff08;英文&#xff1a;Electric machinery&#xff0c;俗称“马达”&#xff09;是指依据电磁感应定律实现电能转换或传递的一种电磁装置。分为电动机&#xff08;符号为M&#xff09;和发电机&#xff08;符号为G&#xff09;。…

如何做好预算管理?预算上接战略,下接绩效,如何形成战略-计划-预算-绩效的闭环?

如何做好预算管理&#xff1f; 以前觉得经营是对净利润负责&#xff0c;年底有钱赚就可以&#xff0c;从未考虑过如何才能赚更多的钱&#xff0c;也未考虑过经营是对股东负责。 现在觉得经营的门道确实很大&#xff0c;以前看的面窄&#xff0c;并没有真正理解预算的意义&…

WPF中如何实现页面的切换

总目录 文章目录总目录前言一、准备工作1.搭建一个简单的mvvm项目结构二、实现1.使用Frame控件的方式实现2.使用反射的方式实现3.实现效果总结前言 本文主要讲述如何在同一个窗体内&#xff0c;实现不同功能模块的页面切换。 一、准备工作 1.搭建一个简单的mvvm项目结构 首先…

『纯canvas实现』你可能想象不到,粒子效果配合时钟还能这么玩?

前言 大家好&#xff0c;我们知道一般学习 canvas 时&#xff0c;做的最多的莫过于各种时钟&#xff0c;像下面这样的&#xff1a; 亦或是这样的&#xff1a; 或是这样的&#xff1a; 上面给大家展示了三种风格各异的时钟效果&#xff0c;但都没有让人眼前一亮的感觉&#xff…