通用的融合框架:IFCNN

news2024/12/24 21:30:41

IFCNN: A general image fusion framework based on convolutional neural network

(IFCNN: 基于卷积神经网络的通用图像融合框架)

在本文中,我们提出了一种基于卷积神经网络的通用图像融合框架,称为IFCNN。**受变换域图像融合算法的启发,**我们首先利用两个卷积层从多个输入图像中提取显着的图像特征。之后,通过适当的融合规则 (elementwise-max,elementwise-min或elementwise-mean) 融合多个输入图像的卷积特征,该融合规则是根据输入图像的类型选择的。最后,通过两个卷积层重建融合的特征,以生成信息丰富的融合图像。所提出的模型是完全卷积的,因此可以以端到端的方式进行训练,而无需任何后处理程序。为了充分训练模型,我们基于大规模rgb-d数据集 (即NYU-D2) 生成了一个大规模多焦点图像数据集,它拥有ground truth融合图像,并且比现有的图像融合数据集包含更多种类和更大的图像。 实验结果表明,在没有对其他类型图像数据集进行微调的情况下,该模型比现有的图像融合模型具有更好的泛化能力,可以融合多种类型的图像,例如多焦点,红外视觉,多模态医学和多曝光图像。

介绍

通常,传统图像融合算法可以分为两类,即空间域算法和变换域算法。
空间域图像融合算法首先将输入图像按照一定的标准解析成小块或区域,然后测量相应区域的显著性,最后结合最显著的区域形成融合图像。这种算法主要适用于融合相同模态的图像 (例如多焦点图像),并且可能在拼接位置周围遭受块或区域伪影。
变换域图像融合算法首先通过多尺度几何分解 (例如多尺度金字塔和多尺度形态算子) 将源图像转换为某些特征域,然后对多个输入图像的特征进行加权融合。之后,对融合的特征进行反变换以生成融合图像。由于在特征域中,即使是不同模态的图像也具有相似的特性,因此变换域图像融合算法通常可以用于融合更多类型的图像, 例如红外视觉图像和CT-MR图像。但是变换域算法的融合策略或权重系数往往难以针对融合的目的进行优化,从而可能无法达到最佳的融合效果,并遭受低对比度效应或模糊效应的影响。

机器学习的方法:
Yang等人 采用稀疏表示技术融合多焦点图像,其中用过完备的字典和相应的稀疏系数表示图像补丁,然后通过融合每对或每组图像补丁的稀疏系数对输入图像进行融合。
深度学习的方法
最近,深度学习技术,尤其是卷积神经网络 (CNN),为图像融合领域带来了新的发展。首先,刘等人介绍了CNN融合多焦点图像。他们制定了多焦点图像融合作为分类任务,并使用CNN来预测焦点图,因为每对图像补丁可以分为两类 😦 1) 第一个补丁被聚焦,第二个被模糊; (2) 第一个补丁被模糊,第二个被聚焦。Tang等人提出了一个CNN模型来学习有效的焦点度量 (即量化图像或图像斑块的锐度的度量),然后比较输入图像的局部图像斑块对的焦点度量,以确定焦点图。上述两种算法都对焦点图进行了后处理,并根据细化的焦点图重建了融合图像。Song等人。应用了两个CNN来融合卫星图像,即大分辨率MODIS和低分辨率landsat图像。具体来说,他们分别使用两个CNN对低分辨率landsat图像进行超分辨率处理并提取图像特征,然后采用高通调制和加权策略,从提取的特征中重建融合图像,类似于变换域图像融合算法。然而,上述三种算法并非以端到端的方式设计,并且都需要后处理程序来生成融合图像,因此它们的模型可能尚未针对图像融合任务进行完全优化。
Prabhakar等人提出了端到端的多曝光融合模型。具体来说,他们首先使用CNN融合多个输入图像的强度通道 (YCbCr颜色空间中的Y通道),然后利用对比度增强方法调整融合的强度通道,然后采用加权平均策略分别融合Cb和Cr通道。最后,将融合的通道 (Y,Cb和Cr) 堆叠在一起以产生融合图像。他们的模型可以端到端训练,并且可以应用于融合其他类型的图像,例如多焦点图像。但是,在多焦点图像数据集上的结果似乎受到低对比度影响的影响
通过比较变换域图像融合算法和基于CNN的图像生成模型,我们发现这两种算法之间存在一些相似的特征。
首先, 变换域算法通常在开始时使用多个滤波器 (例如高斯滤波器或形态滤波器) 来提取图像特征,而CNN模型也使用大量的卷积滤波器来提取广泛的特征。
其次, 变换域融合算法通常通过加权平均策略来融合特征,而CNN模型也利用加权平均策略 (卷积特征的加权和) 来生成目标图像。与变换域图像融合算法相比,CNN模型具有三个优点 :( 1) 卷积滤波器的数量通常比传统的变换域算法中的滤波器要多得多,因此卷积滤波器可以提取更多信息的图像特征;(2) 可以学习卷积滤波器的适当参数来拟合图像融合任务; (3) 可以通过端到端的方式对CNN模型的参数进行联合优化。
受变换域算法的启发,我们提出了一种基于卷积神经网络的通用图像融合框架,其在训练阶段的体系结构如下图所示:

请添加图片描述

首先,我们使用两个卷积层从多个输入图像中提取信息丰富的低级特征。
其次,通过适当的融合策略 (例如元素最大和元素平均) 将提取的每个输入图像的卷积特征进行元素融合。
最后,通过两个卷积层重建集成特征以生成融合图像。由于所提出的模型是完全卷积的,因此可以使用任何后处理过程以端到端的方式对其进行训练,与大多数现有的图像融合模型相比,这是一个优越的优势。
此外,为了充分训练所提出的模型,我们创建了一个大规模的多焦点图像数据集,通过根据随机深度范围从我们预先构建的NYU-D2数据集 中模糊部分图像,这比模糊整个或某些部分的图像块更合理 。NYU-D2数据集中的源RGB图像可以作为我们数据集的地面真相融合图像,这比 没有地面真相融合图像要好得多。由于上述优点,我们的高分辨率大规模多焦点图像数据集可用于精细训练图像融合模型。在训练阶段,我们首先采用融合图像和ground truth融合图像的均方误差 (MSE) 来训练模型的参数,然后将感知损耗 (预测融合图像和ground truth融合图像的深度卷积特征的均方误差) 与MSE相匹配,以共同优化模型的参数。

贡献

• 本文将图像融合任务表述为全卷积神经网络,因此,可以以端到端的方式训练所提出的图像融合模型,以便可以针对图像融合任务联合优化所提出模型的所有参数,而无需任何后处理程序。基于提出的基于CNN的图像融合框架,研究人员可以方便地开发自己的图像融合模型,以融合各种类型的图像。
• 为了充分训练模型的参数,我们生成了一个大规模的多焦点图像数据集。我们没有创建低分辨率对的完全聚焦和完全模糊的图像补丁,而是通过模糊随机深度范围的图像部分来生成高分辨率对的部分聚焦图像在我们预先构建的RGB-D数据集中的RGB和深度图像。与现有的多焦点图像生成方法相比,我们的方法更接近光学镜头的成像原理,因此我们的方法生成的多焦点图像比成对的完全聚焦和完全模糊的图像更加自然和多样化。此外,可以自然地将RGB源图像作为生成的多焦点图像数据集的ground truth融合图像,这对于监督图像融合模型 (即回归模型) 以将来自多个输入的显着细节转移到一个融合图像中非常重要。凭借这些优点,我们的多焦点图像数据集可用于全面,精细地训练图像融合模型。
• 由于与变换域图像融合算法的结构相似,我们的模型在融合各种类型的图像方面比现有的CNN模型具有更好的泛化能力。尽管所提出的模型仅在多焦点图像数据集上进行了训练,但它已经很好地学习了融合相同类型甚至不同类型的多个图像的卷积特征的能力。因此,我们的模型可以直接应用于融合其他类型的图像 (例如红外视觉,CT-MR和多曝光图像),而无需任何微调程序,并且仍然可以达到最新的结果。
• 据我们所知,这是第一次在训练基于CNN的图像融合模型时引入感知损失。主要原因是感知损失的计算需要ground truth合图像,但是在用于训练图像融合模型的现有图像数据集中未生成该图像融合图像。通过引入感知损失,经过训练的图像融合模型可以产生比不包含感知损失的图像具有更多纹理信息的融合图像。
本文有两个主要的新颖性首先,我们模型的全卷积神经网络特性和良好的泛化能力共同构成了本文的第一个主要新颖性。其次,我们的高分辨率大规模多焦点图**像数据集 (带有ground truth融合图像) 是本文的另一个主要新颖之处。原因如下 :
( 1) 据我们所知,仍然没有基于完全卷积神经网络的图像融合模型能够像我们的模型那样在不需要任何微调程序的情况下在多种类型的图像上实现最先进的融合图像,(2) 在深度学习领域,训练数据集的质量往往直接决定了模型性能的上限,因此,与现有的低分辨率大规模图像数据集 (没有ground truth融合图像) 相比,我们的高分辨率大规模多焦点图像数据集 (带有ground truth融合图像) 在充分训练图像融合模型方面更优越。因此,这两个主要新颖性中的任何一个都可以使所提出的图像融合模型从现有的基于CNN的图像融合模型中脱颖而出。

方法

我们提出的IFCNN 方法由三个模块组成: 特征提取模块、特征融合模块和图像重建模块

Image fusion model

为了方便地描述所提出的模块,我们假设有N (N ≥ 2) 个输入图像要融合,用I k (1 ≤ k ≤ N) 表示。然后,可以将所提出的图像融合模型的三个模块分别详细描述如下:

Feature extraction module

首先,我们采用两个卷积层从输入图像中提取广泛的低级特征。由于特征提取是变换域图像融合算法中的关键过程,通常通过使用多尺度DOG (高斯差) ,多尺度形态滤波器 等处理图像来进行。至于CNN,从随机初始化的卷积内核中训练回归模型 (图像到图像) 通常是困难的,并且不稳定的,因此一种实用的方法是将训练良好的分类模型的参数转移到回归模型中。因此,我们采用在ImageNet上预先训练的高级ResNet101的第一卷积层作为我们的第一卷积层 (CONV1)。CONV1包含64个大小为7 × 7的卷积核,这些卷积核足以提取广泛的图像特征,并且CONV1已经在最大的自然图像数据集 (即ImageNet) 上进行了训练。因此,CONV1可用于提取有效的图像特征,从而在训练所提出的模型时固定了CONV1的参数。但是,CONV1提取的特征最初用于分类任务,因此将它们直接输入特征融合模块可能不适合图像融合任务。因此,我们添加了第二卷积层 (CONV2) 来调整CONV1的卷积特征,以适应特征融合。

Feature fusion module

本文的目标是提出一种基于CNN的通用图像融合模型,该模型可以融合各种类型的输入图像,也可以融合各种数量的输入图像。一般情况下,通常有两种方法来融合多个输入的卷积特征 😦 1) 首先将多个输入的卷积特征沿信道维度进行级联,然后通过以下的卷积层对级联特征进行融合,(2) 通过元素融合规则 (例如元素最大,元素总和和元素均值) 直接融合多个输入的卷积特征。由于串联融合方法要求特征融合模块的参数编号随输入数量而变化,因此,使用该融合方法的模型只能在模型架构固定后融合特定数量的图像。而具有元素融合方法的特征融合模块不包含任何参数,可以融合各种数量的输入图像,并且在图像融合模型中曾经引入过。
因此,在我们的特征融合模块中,已利用元素融合规则来融合多个输入的卷积特征,可以将其数学表示为公式

请添加图片描述
(其中 𝑓 𝑗 ( 𝑓 𝑗 𝑖,𝐶 2 (𝑥,𝑦) ),1 ≤ 𝑖 ≤ 𝑁,(1) 𝑖,𝐶 2表示CONV2提取的第i个输入图像的第j个特征图,在我们的特征融合模块中,fuse表示融合特征图的第j个通道,fuse表示元素融合规则 (例如元素最大,元素总和和元素均值)。)
如上所述,存在三种常用的元素融合规则,即元素最大,元素总和和元素平均。在实际应用中,应根据图像数据集的特点选择融合规则。例如,清晰的特征 (最大值) 表示受监督场景的显着对象,因此,在转换域图像融合算法中经常使用元素最大融合规则来融合多焦点图像,红外和视觉图像,以及医学图像。但是,多曝光图像融合是集成每个输入图像的视觉愉悦的中间曝光部分,其中最有可能对应于多个输入的平均特征。因此,此时,与元素最大融合规则(可用于融合其他图像)相比,元素平均融合规则可能更适合融合多曝光图像

我们的模型旨在融合多个RGB图像并产生一个RGB融合图像 可以通过堆叠三个相同的通道来方便地扩展所提出的模型以融合单通道图像。 具体地,RGB多焦点图像可以通过所提出的模型直接融合,红外和视觉图像或多模态医学图像应首先扩展到三个通道,然后可以通过我们的模型进行融合。最后,参考执行RGB多曝光图像的融合 :
( 1) 将RGB输入图像转换为YCbCr颜色空间,(2) 对于每个输入图像,分离YCbCr通道并堆叠三个Y通道作为我们图像融合模型的输入,(3) 使用我们的模型融合所有源图像的三通道Y图像,并根据公式将三通道输出转换为单通道Y ′。
请添加图片描述

((4) 通过与Prabhakar等人相同的加权策略融合所有源图像的Cb和Cr通道,(5) 将Y ′ 、融合Cb和融合Cr堆叠在一起,并将其转换回RGB色彩空间,以产生融合图像。请注意,Prabhakar等人的方法的输入和输出与我们的方法略有不同,他们的模型的输入和输出都是单通道,而我们的模型的输入和输出都是三通道。因此,在融合多曝光图像时,将每个源图像的Y通道扩展到三个Y通道,然后再输入到我们的图像融合模型中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/84574.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

测试人生 | 折腾 6 年踩坑无数的”笨小孩“:方向对了,路就不会遥远!

image1080459 72.4 KB 编者按:本文来自霍格沃兹测试学院学员 笨小孩 的分享,从退伍军人到测试小白,从培训被坑再到经历各种小公司倒闭、裁员、6年间几番折腾,最终靠“笨功夫”成功转型测试开发,年薪近 30W&#xff0c…

番外8:ADS导出DWG文件并交给工厂制板

番外8:ADS导出DWG文件并交给工厂制板 (功率放大器板子和散热器) 将ADS源文件导出PCB与散热器文件(功率放大器) 导出文件并预处理 打开制作好的版图文件,在原有基础上打好散热孔和固定孔,散热…

Deep Learning Architecture for Automatic Essay Scoring

1. Introduction 利用手工制作的特征,如文章长度、句子长度、语法正确性或可读性来评分的文章面临以下问题。首先,它可能被学生用作欺骗系统的一种选择,即写出并提交一篇结构良好但偏离主题**的文章。由于文字结构和表面等语言特征&#xff…

[附源码]Python计算机毕业设计电影网站系统设计Django(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程 项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等…

OpenAi[ChatGPT] 使用Python对接OpenAi APi 实现智能QQ机器人-学习详解篇

文章大部分来自:https://lucent.blog 原文博客地址:https://blog.ideaopen.cn 最近火热全文的ChatGPT,被很多人玩出了花,我们在Github上可以看到几个常见的逆向SDK包,这一篇我将以学习的方式来写这一篇文章。 这些SDK不…

NeurIPS 2022 | 浙大与SEA AI Lab提出高表现力可泛化语音合成

语音合成旨在根据文本合成特定说话人的语音。先进语音合成模型展示了强大的生成能力,无论是生成高水平的细节还是其生成的多样性,都让人印象深刻。个性化语音生成需求的增加对语音合成模型提出了挑战,尤其是在域外(OOD; Out-Of-Di…

[附源码]Node.js计算机毕业设计大悦城电竞赛事管理系统Express

项目运行 环境配置: Node.js最新版 Vscode Mysql5.7 HBuilderXNavicat11Vue。 项目技术: Express框架 Node.js Vue 等等组成,B/S模式 Vscode管理前后端分离等等。 环境需要 1.运行环境:最好是Nodejs最新版,我…

CV-对比学习-模型:MoCo/SimCLR/BYOL/SimSiam

很多大佬认为,深度学习的本质就是做两件事情:Representation Learning(表示学习)和 Inductive Bias Learning(归纳偏好学习)。在表示学习方面,如果直接对语义进行监督学习,虽然表现很…

海泰隐私计算能力助力实现数据“可用不可见”

一、 数据孤岛阻碍数据发展 当今时代,信息技术日新月异,人类文明正经历从信息科技(IT)时代向数据科技(DT)时代的飞速变革。数据作为基础性战略资源的地位日益凸显。然而,数据孤岛问题突出。出于对数据安全的传统保护&…

单商户商城系统功能拆解45—应用中心—积分商城

单商户商城系统,也称为B2C自营电商模式单店商城系统。可以快速帮助个人、机构和企业搭建自己的私域交易线上商城。 单商户商城系统完美契合私域流量变现闭环交易使用。通常拥有丰富的营销玩法,例如拼团,秒杀,砍价,包邮…

pikachu靶场-2 跨站脚本漏洞(xss)

跨站脚本漏洞(xss) Cross-Site Scripting 简称为“CSS”,为避免与前端叠成样式表的缩写"CSS"冲突,故又称XSS。一般XSS可以分为如下几种常见类型: 1.反射性XSS; 2.存储型XSS; 3.DOM型XSS; XSS漏洞一直被评估…

Kubernetes二进制多节点集群部署

多Maser集群架构的了解 Kubernetes作为容器集群系统,通过健康检查重启策略实现了Pod故障自我修复能力,通过调度算法实现将Pod分布式部署,并保持预期副本数,根据Node失效状态自动在其他Node拉起Pod,实现了应用层的高可用…

羧基聚乙二醇叠氮 COOH-PEG-N3/Azide的结构式

叠氮化物与炔烃之间的反应能够使羧酸PEG有效缀合到目标分子或材料上,并且产率很高。 所得羧酸可与胺,羟基和其他基团反应。 叠氮化物和羧酸之间的PEG接头具有良好的水溶性,较小的位阻和增强的稳定性。 产品名称 羧基聚乙二醇叠氮 COOH-PEG…

css div等块元素设置display:inline-block存在间隙问题

我们给块元素例如div设置display:inline-block&#xff0c;会发现元素之间存在空隙。如下图。 <div class"contain"><div id"box1"></div><div id"box2"></div><div id"box3"></div> <…

Simulink自动化-Matlab脚本自动生成Autosar RTE S/R接口及mapping

文章目录前言设计Excel模板Input/Output属性Sender/Receiver属性Matlab脚本自动创建Input/Output接口自动创建RTE Sender/Receiver port实现效果Excel设置运行新建Input与Output运行创建RTE Port及Mapping总结前言 在之前的一篇文章中&#xff0c;介绍了Autosar Parameter Por…

内网隧道各类协议方法

正+反(了解即可) 正向代理:已控服务器监听端口,通过这个端口形成一个正向的隧道,由代理机器代替主机去访问内网目标。但是内网入口一般处于DMZ区域有防火墙拦截,无法直接进入内网环境。 反向代理:由内网主机主动交出权限到代理机器,然后本地去连接形成反向代理。例如…

吉林优美姿文化:抖音账号怎么做垂直?

其实现在抖音限流看起来是一件很平常的事情&#xff0c;那么在我们抖音运营中&#xff0c;如果出现一些不合规的行为或者怎么样的&#xff0c;都会导致限流&#xff0c;严重的可能还会被限流&#xff0c;那么这时候怎么办呢&#xff1f;跟着吉林优美姿小编来一起看看吧&#xf…

MySql索引简单知识点及事务的分析

目录 索引 什么是MySql索引&#xff1f; 索引的易忽略点 基本操作&#xff1a; 查看索引 创建索引 删除索引 索引在MySql中的数据结构 事务 使用方法 事务的核心特性 隔离性 隔离的常见问题 ***MySql四个隔离级别 &#x1f4cc;————本章重点————&#x1f…

微软艰难的2022安全年回顾

©网络研究院 这些是管理员需要了解的 2022 年以来最重要的漏洞和修复。 我们即将结束 2022 年的安全年。只有时间会告诉我们 2023 年会发生什么&#xff0c;但对于 Microsoft 网络的 IT 和安全管理员来说&#xff0c;2022 年是混合攻击、本地 Exchange Server 缺陷和需要…

【Python】向量叉积和凸包 | 引射线法 | 葛立恒扫描法

猛戳&#xff01;跟哥们一起玩蛇啊 &#x1f449; 《一起玩蛇》&#x1f40d; &#x1f4ad; 写在前面&#xff1a;这个系列似乎反响不错&#xff0c; 所以我继续水下去 &#xff08;bushi&#xff09;。本篇博客是关于经典的 Cross Product and Convex Hull &#xff08;向量叉…