【Contrastive Learning:IVIF】

news2025/4/16 21:21:56

CLF-Net: Contrastive Learning for Infrared and Visible Image Fusion Network

(LF-Net:红外与可见光图像融合网络的对比学习)
(总结:就是更像谁就选谁)
本文提出了一种基于对比学习的红外和可见光图像融合网络CLF-Net。将一种新的噪声对比度估计框架引入到图像融合中,以最大化融合图像与源图像之间的互信息。首先,构造无监督对比学习框架以促进选择性地保留不同源图像的局部区域中的最相似特征的融合图像。其次,基于图像的深度表示,设计了一种鲁棒的对比度损失,并结合结构性相似性损失,有效地指导网络进行特征的提取和重构。具体地,基于融合图像和源图像之间的深度表示相似性和结构相似性,损失函数可以指导特征提取网络自适应地获得红外图像的显著目标和可见光图像的背景纹理。然后,以最适当的方式重构特征。此外,我们的方法是一个无监督的端到端模型。所有方法都在公共数据集上进行了测试。

介绍

(对于红外和可见光表述略)
我们提出了一个新的想法,该想法是由当前自我监督学习任务中的对比学习方法[34]所启发的。具体而言,Ma等人将融合过程中的期望信息定义为红外图像中的显著目标和可见光图像中的背景纹理的组合。从我们的观点来看,该方法可以更简单地表述如下:我们期望融合图像中的突出目标看起来更像红外图像中的目标,而背景区域看起来更像可见光图像中的目标。研究人员如何定义“like”这个词?答案是对比。通过比较融合图像和源图像之间的相似性和差异性,人们可以容易地选择满足他们期望的融合图像。为此,提出了一种基于对比学习的红外与可见光图像融合网络(CLF-Net)。1)首先,我们构建了一个自适应对比学习框架。在该框架中,我们关注深度表示而非图像本身,并且通过比较点积中的差来最大限度地保留相关的局部特征(即,余弦相似度)。2)其次,在上述框架下,我们设计了一个鲁棒的对比损失,结合结构相似性损失来指导网络进行特征提取和重构。具体地,基于在相同空间位置中的融合图像和源图像之间的表示相似性和结构相似性,损失函数可用于自适应地引导特征提取网络以获得红外图像的显著目标和可见光图像的背景纹理。3)另外,由于对比度损失和结构相似性损失都是自适应的,所以我们的方法是一个不受监督的学习过程。还要注意,对比学习框架仅参与网络的训练过程。因此,我们的CLF-Net是一个端到端模型。

贡献

1)我们将新的噪声对比估计(contrastive estimation (NCE))框架引入到图像融合任务中,以最大化融合图像和源图像之间的互信息(mutual information (MI))。
2)我们构建无监督对比学习框架以促进选择性地保留来自不同源图像的最相似特征的融合图像。设计鲁棒的对比度损失来引导网络工作以基于深度表示自适应地提取和重构特征。
3)大量实验表明,与现有的最先进的方法相比,该方法在定性和定量分析方面具有更好的性能。

相关工作

Deep-Learning-Based Fusion Methods

Contrastive Learning for Computer Vision

对比学习由于其优异的性能在计算机视觉领域引起了越来越多的关注。对比学习的概念在很久以前就被提出了,但是近年来,使用这种方法在计算机视觉领域取得了显著的成就。对比学习的核心问题是如何构造正负样本集。Hjelm 等人提出了Deep InfoMax,它基于图像中的局部特征构造了比较性的个学习任务。He等人提出了一种有效的比较学习结构动量对比(MoCo),其使用动量编码器来编码单个正样本和多个负样本,并且利用动量更新编码器参数。Chen等人提出了一种通用框架,其通过在输入图像上进行两个随机数据增强来最大化相同图像的两个数据增强投影的相似性并最小化与其他图像的相似性,以实现相同对象在不同视角或干扰下的恒定视觉表示。然后,He和Hinton的两个团队相互学习,并相继提出了MoCo v2 和SimCLR v2,这两个版本主要是对数据增强方法和骨干网络的改进。随后,Caron等人采用了不同的方法;不是以在优化方向上增加否定情况的数量为目标,而是对所有种类的样本进行聚类,然后对所有种类的类聚类进行比较。Grill等人提出了一种新的自监督图像表示学习方法,该方法不使用负样本,并且使一个编码器停止梯度,该梯度仅对另一个编码器的参数执行动量更新。Chen和He将BYOL背后的概念与对Siamese网络的研究相结合,发现停止梯度是避免网络崩溃的关键,并提出了SimSiam网络。

随着对比学习理论的不断发展,该方法已被广泛应用于许多图像任务中。对于条件图像生成的任务,Kang和Park 提出了ContraGAN,其基于新颖的条件对比度损失,其可以学习数据到类和数据到数据的关系。对于图像到图像转换的任务,Park等人提出了对比学习,其中通过对比学习的框架来最大化源域和目标域中的对应图像patches之间的MI,以完成针对不成对图像到图像转换的图像到图像转换。

我们所知,很少有研究对比学习的应用程序在任务红外和可见光图像融合。受对比学习的启发,Luo等人采用对比差异损失来避免平凡解,并提高自动编码器的解纠缠能力。对比度差异损失可以最大化源图像的公共特征和私有特征之间的区别。然而,IFSepR没有构建阳性样本对和NCE框架,这是与我们的方法的主要区别。因此,受NCE框架的启发,提出了一种新的图像融合算法CLF-Net。结果还表明,使用该网络可以有效地提高图像融合性能。

方法

Network Architecture

CLF-Net的体系结构如图1所示,由两部分组成:特征提取网络和特征重构网络。
请添加图片描述
1) Feature Extraction Network:
它由两个特定的编码器组成。两个编码器都是基于ResBlock构建的,以减轻众所周知的梯度消失或爆发的问题。如图1所示,特征提取网络由四个ResBlocks组成,其可以加强提取的信息。每个ResBlock的残差映射由两个卷积层组成,这两个卷积层用于提取特征。这两层的核大小分别为1 × 1和3 × 3。由核大小为1 × 1的卷积层组成的恒等映射用于调整输入和输出维数并保持它们的一致性。对于红外图像和可见光图像,特征提取网络的结构(即,红外编码器和可见光编码器)是一致的,但是这些网络的参数是彼此独立的。
2) Feature Reconstruction Network:
它直接由四个ResBlock组成。来自两个不同的编码器的深度特征被直接级联并重构为融合图像。在特征重建网络的末端,我们已经用tanh代替了激活函数泄漏校正线性单元(LeakyReLU),以确保融合图像和源图像之间的变化范围是一致的。
在ResBlock的所有卷积层中,对于特征提取、融合和重构的整个过程,步长被设置为1,当内核大小为3 × 3时填充被设置为0,当内核大小为1 × 1时填充被设置为1。因此,在 CLF-Net中没有下采样过程,这也意味着没有信息丢失。

NCE Framework

NCE是参数化统计模型的一种新的估计原则。核心思想是通过学习原始数据分布样本和所选噪声分布之间的差异来确定原始数据的一些特征。

Network Architecture

CLF-Net的体系结构如图1所示,由两部分组成:特征提取网络和特征重构网络。
1) Feature Extraction Network:
它由两个特定的编码器组成。两个编码器都是基于ResBlock 来构造的,以减轻众所周知的消失或爆发梯度的问题。如图1所示,特征提取网络由四个ResBlocks组成,其可以加强提取的信息。每个ResBlock的残差映射由两个卷积层组成,这两个卷积层用于提取特征。这两层的核大小分别为1 × 1和3 × 3。由核大小为1 × 1的卷积层组成的恒等映射用于调整输入和输出维数并保持它们的一致性。对于红外图像和可见光图像,特征提取网络的结构(即,红外编码器和可见光编码器)是一致的,但是这些网络的参数是彼此独立的。
2) Feature Reconstruction Network:
它直接由四个ResBlock组成。来自两个不同的编码器的深度特征被直接级联并重构为融合图像。在特征重建网络的末端,我们已经用tanh代替了激活函数泄漏校正线性单元(LeakyReLU),以确保融合图像和源图像之间的变化范围是一致的。
在ResBlock的所有卷积层中,对于特征提取、融合和重构的整个过程,步长被设置为1,当内核大小为3 × 3时填充被设置为0,当内核大小为1 × 1时填充被设置为1。因此,在CLF-Net中没有下采样过程,这也意味着没有信息丢失。

NCE Framework

NCE是参数化统计模型的一种新的估计原则。核心思想是通过学习原始数据分布样本和所选噪声分布之间的差异来确定原始数据的一些特征。该过程有效地将模型估计问题简化为二分问题,并且极大地降低了计算复杂度。
基于NCE的思想,引入 MI的概念,提出了一种新的对比损失函数形式,称为InfoNCE 。具体来说,我们假设有一个编码查询和一组编码样本{ k − k^− k1 k − k^− k2,…, k − k^− kN},包括一个正样本和N个负样本。查询、正例和N个负例分别被映射到K维向量q、 k + k^+ k+ R K R^K RK k − k^− k R N × K R^{N ×K} RN×K,其中 k − k^− kn R K R^K RK表示第n个负例。当q与正例 k + k^+ k+相似,而与所有其他负例 k − k^- k不相似时, InfoNCE损失的值将很小。通过l2规范化查询和其它示例之间的点积来测量相似性。然后将该结果按温度τ缩放,作为logits通过。InfoNCE损失定义如下:在这里插入图片描述

Adaptive Patchwise Contrastive Learning

在一般的对比学习方法中,数据增广常用于为阳性样本建立一个阳性对,而n − 1个阴性对是通过使用同一训练批次中的个所有n − 1个其他图像与阳性样本的个增广图像建立的。然后,最大化正对之间的相似性,并且最小化负对之间的相似性,以完全提取未标记数据集的一般特征。然而,一些研究表明,负对越多,对比学习效果越好。这需要个丰富的训练数据集的支持。显然,对于图像融合任务,缺乏足够的训练数据集一直是需要解决的紧迫问题。结合图像融合任务的特征,我们基于Park等人的工作构建无监督的逐块对比学习框架。
由于图像融合任务更多地关注红外图像的显著目标和可见光图像的背景纹理信息,因此我们从图像的局部特征开始,以基于图像块来构造对比学习任务。
具体地,如图2所示,我们随机采样融合图像的块以及红外图像和可见光图像在相同位置的正块(即,绿色、红色和蓝色框)。接下来,从红外图像和可见光图像的其它位置选择N个随机负片片(即,黄色和橙色框)。然后,重用红外和可见光编码器,加入双层多层感知器(MLP)网络,将源图像和融合图像中任意空间位置的块编码为个特征向量。例如,将融合图像和源图像中的正块编码为特征向量query、pir和pvi。最后,计算查询和pir之间的相似性或者查询和pvi之间的相似性,并且将保留最相似的一个以计算InfoNCE损失。
值得注意的是,用于计算InfoNCE损失的正样本和负样本都是从由相同编码器编码的源图像和融合图像中采样的。对于阴性样本的选择策略,我们将在扩展实验上得出比率。

Loss Function

在本节中,我们讨论结合SSIM和patchNCE的loss 函数的计算,其用于引导CNN网络通过无监督学习找到最合适的参数。SSIM损失主要集中于图像本身的结构特征,而patchNCE损失主要集中于图像的深层特征。
SSIM结合图像亮度、对比度和结构来测量图像质量。对于任意两幅图像,SSIM的描述如下:
请添加图片描述

我们设C1 = 1 × 1 0 − 4 10^{−4} 104和C2 = 9 × 1 0 − 4 10^{−4} 104,这个值与[39]中的值相同。根据上述参数的设置,我们将SSIM损耗设置如下:
在这里插入图片描述
其中W表示从左上到右下的滑动窗口,跨距为1,Pi表示像素i的值,m和n表示滑动窗口的大小,N表示单个图像中的滑动窗口的数量。在我们的工作中,窗口的尺寸是16 × 16。
以上,我们讨论了SSIM损失函数。一方面,基于像素的平均强度在局部窗口,SSIM损失不仅可以保留凸目标红外图像的但也保持明亮的地区和一些明显的纹理在可见图像。另一方面,SSIM损失可以使用图像结构的浅特征来确保输入和输出的结构一致性。对于特征提取网络,我们期望红外编码器能保留更多的显著目标特征,可见光编码器能保留更多的细节纹理特征,这是红外和可见光图像之间最明显的互补特征。因此,我们引入了一种新的对比损失样本,其直接使用编码的深度表示来促使编码器保留足够的互补信息。

具体地,基于上述自适应逐块对比学习框架,我们可以如下构造对比损失。首先,由于在我们的图像融合任务中使用的两个编码器Eir和Evi可以提取有效特征堆栈,所以我们可以利用它们。同时,我们通过一个小的神经网络投影头H,它是一个两层的MLP。红外图像和可见光图像分别由相应的编码器编码,融合图像由两个编码器编码;因此,可以获得四个特征序列。
我们表示s∈{1,……S},S是空间位置采样的数量从过去的图像功能层。对于任何特定的空间位置在图像特征层面上,我们把补丁功能作为 z s z^s zs R C R^C RC和其余的在相同特征水平的称为 z S / s z^{S/ s} zS/s R ( s − 1 ) × C R^{(s−1)×C} R(s1)×C, C是通道的数量。如图2所示,可以得到任意特定空间位置的patchNCE损失,如(7)所示,然后可以得到对比度损失,如(8)所示。请添加图片描述
上面,我们讨论了对比损失函数的计算。该损失函数更关注由编码器提取的深度表示。随着训练过程的进行,patchNCE损失可以有效地调整以保留源图像中与融合图像最相似的部分。
基于上述两个损失函数,总损失函数可定义为在这里插入图片描述
一般来说,SSIM损失维护结构考虑tency之间的输入和输出,而patchNCE损失保持一致性的输入和输出的特性。两个损失函数互为补充和指导网络达到令人满意的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/87468.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

透过ChatGPT的进化足迹,OpenAI传达了哪些信号?

古希腊神话中,一位名叫赫尔墨斯的神,会充当人神之间的信使,穿着带有双翼的飞鞋,行走在神明与人类之间。根据《荷马史诗》的记载:“在天神中,赫尔墨斯是最喜欢引导凡人前行的。”这句话用来形容OpenAI与AI的…

佳力奇IPO过会:拟募资11亿 西安现代与华控湖北是股东

雷递网 雷建平 12月13日安徽佳力奇先进复合材料科技股份公司(简称:“佳力奇”)日前IPO过会,准备在深交所创业板上市。佳力奇计划募资11.22亿元,其中,6.2亿元用于先进复合材料数智化生产基地建设项目&#x…

Google Cloud database options (关于GCP数据库怎么选择)

背景 GCP提供了几种您可以从中选择的数据库服务,可是究竟该用哪个呢? Cloud SQL:Cloud Spanner:BigQuery:Cloud Bigtable:Cloud Firestore:Firebase Realtime Database:Cloud Memorystore: from Google Cloud database options sort out by zhengkai.…

【自然语言处理】隐马尔科夫模型【Ⅱ】隐马尔科夫模型概述

有任何的书写错误、排版错误、概念错误等,希望大家包含指正。 由于字数限制,分成六篇博客。 【自然语言处理】隐马尔可夫模型【Ⅰ】马尔可夫模型 【自然语言处理】隐马尔科夫模型【Ⅱ】隐马尔科夫模型概述 【自然语言处理】隐马尔科夫模型【Ⅲ】估计问题…

14、TheFatRat木马生成工具-创建后门或payload

kail攻击主机: Kali 192.168.11.106靶机:windows server 2008 r2 192.168.11.134 x64 32位一、TheFatRat介绍 TheFatRat创建的后门或者payload,可以在Linux,Windows,Mac和Android上等多种平台上执行,可生…

九、JavaScript——数据类型_数值

一、数值 定义及规范: 数值 (Number) -在JS中所有的整数和浮点数(小数) 都是Number JS中的数值并不是无限大的,当数值超过一定后会显示近似值,JavaScript表达的最大整数是:9007199254740992 Infinity 是…

设计模式总览——枯燥的知识又增加了

从今天开始呢,阿Q就带大家了解一下 java 的设计模式,并从中选出比较常用的几种设计模式进行总结。首先呢,先给大家说一下设计模式到底是什么。 设计模式 设计模式(Design pattern)代表了最佳的实践,通常被…

iOS备用机自动充电方案

搬到新加坡以后,我拥有了很多张手机卡:1张国内的电话卡,回国时使用1张新加坡电话卡,本地使用1张马来西亚电话卡,去马来西亚旅行时使用1张英国电话卡,去欧洲旅行时使用相对应的,我需要有备用机来…

DSP篇--C6701功能调试系列之 FLASH测试

目录 1、 FLASH介绍 2、 FLASH功能测试 调试的前期准备可以参考前面的博文:DSP篇--C6701功能调试系列之前期准备_nanke_yh的博客-CSDN博客 1、 FLASH介绍 FLASH作为EMIF的外设,对其操作就需要根据EMIF相关配置来确定FLASH的地址了。 一般地&#xff…

Django第二天学习记录

1.对于路由配置的正则化补充(re_path的正则匹配) 对于第一天学习的path转换器过于暴力,对于需要匹配的内容不能很精准的进行转换。为了实现精准的字符串匹配规则,因此引入了re_path(reg,view,namexxx)进行路由规则的精确匹配。 正…

关于云计算的 7 大误区

一直以来,有几个关于云计算的误区四处传播,散布恐惧和不必要的不信任。在使用新技术之前研究新技术并检查事实是很好的。让我们来看看关于云计算的 7 大误区,看看哪些是真的,哪些不是。 1.云迁移可能很麻烦 云迁移包括许多过程&am…

KMP算法讲解与实现

0、概述 KMP是用于字符串查找/匹配的算法; KMP算法的时间复杂度:O(n)O(n)O(n); KMP算法的核心: 1)如何理解 next 数组2)如何利用 next 数组加速匹配过程,优化时的两个实质 KMP算法的实现 1…

推荐|资深架构师 10 年 10 条干货职场心得

出道这么些年,跳过好多公司,除了国企其他的基本上都去过,甲方、乙方、外包、外企、互联网公司、创业公司…总结下来有这么些体会,希望能对你和大家有些参考价值。1. 保持学习可能离开了学校之后,所有的学习几乎都出于工…

b站黑马的Vue快速入门案例代码——图片切换(类似手动播放的轮播图)

目录 目标效果: 重点原理: 1.用数组储存图片的数据 2.v-bind指令可以设置元素属性 e.g.src 语法 v-bind:属性名表达式 简写【实际开发常用】 :属性名表达式 3.v-show和v-if都可以切换元素的显示/隐藏状态 (1)频繁切换显示/隐藏的dom元素用 v…

Opencv项目实战:17 贪吃蛇游戏

目录 0、项目介绍 1、效果展示 2、项目搭建 3、项目代码展示与讲解 4、项目资源 5、项目总结 0、项目介绍 这次是一个有意思的计算机视觉游戏——贪吃蛇,我们以食指为蛇头,不断的移动我们的手指,当吃到甜甜圈的时候,蛇身增…

浅谈字节码增强技术系列2-Asm与Cglib

作者:董子龙 前言 记得那是2022年秋天的第一场雨,比2021年来的稍晚一些,在那个秋雨朦胧的下午,正在工位上奋笔疾书的我突然听到了前面波哥对着手机听筒说出来的"温柔"的话语:说说你了解的spring-aop。话音…

基于Vision Transformers的文档理解简介

文档理解是从pdf、图像和Word文档中提取关键信息的技术。这篇文章的目标是提供一个文档理解模型的概述。 文档理解算法使用编码器-解码器结构分析文档内容,该管道结合了计算机视觉(CV)和自然语言处理(NLP)方法。管道的CV部分将文档作为输入图像进行分析&#xff0c…

对数据库索引的理解以及索引在MySQL中的数据结构

引言 索引在本质上相当于书的目录,通过目录就可以快速的找到某个章节对应的位置。索引的效果,就是加快了查找的速度。日常进行数据库的操作,一般地都是进行增删查改,而在很多场景中,进行查找的概率要比增删改大很多。…

搭建Flutter Web开发调试环境

Setting up the Framework/Engine development environment背景搭建 framework 开发环境修改调试 framework 源码运行 framework 测试用例同步更新 framework 源码搭建 engine 开发环境准备 depot_tools部署 engine 源码编译 engine 源码修改调试 engine 源码指定 --local-engi…

​极氪汽车被曝拟美股上市:最高募资10亿 李书福接连收获IPO

雷递网 雷建平 12月13日极氪汽车日前被曝出已“秘密递交申请”,准备在美股上市,此次拟募资10亿美元,估值可能高达100亿美元。有分析认为,极氪汽车秘密递交招股书,是为尽可能向其他竞争对手隐藏招股书细节,以…