【基于Transformer和可逆神经网络】

news2025/1/15 17:39:14

Effective Pan-Sharpening With Transformer and Invertible Neural Network

(基于Transformer和可逆神经网络的有效泛锐化)

可逆神经网络1
可逆神经网络2

在遥感成像系统中,全色锐化是从高分辨率全色图像及其对应的低分辨率多光谱图像获得高分辨率多光谱图像的重要技术。由于卷积神经网络(CNNs)具有强大的学习能力,基于卷积神经网络的方法在这一领域占据了主导地位。然而,由于卷积算子的限制,常常不能精确地获得长程空间特征,从而限制了整体性能。为此,本文提出了一种新颖有效的方法,利用自定义的Transformer结构和信息无损可逆神经模块进行长程相关性建模和有效的特征融合。具体地,定制变换器将全色(PAN)和多光谱(MS)特征公式化为queries和keys,以鼓励跨两个模态的联合特征学习,而所设计的可逆神经模块使得能够进行有效的特征融合,以生成预期的全色锐化结果。据我们所知,这是首次尝试将Transformer和可逆神经网络引入全色锐化领域。

介绍

随着卫星传感器的快速发展,卫星图像已经被广泛应用于军事系统、环境监测和测绘服务等领域。然而,由于成像设备的技术和物理限制,卫星通常装备多光谱(MS)和全色(PAN)传感器以同时测量互补图像,MS图像具有低空间分辨率和高光谱分辨率,PAN图像具有低光谱分辨率和高空间分辨率。为了获得同时具有高光谱和高空间分辨率的遥感影像,融合低分辨率MS影像和高空间分辨率PAN影像以突破技术限制的全色锐化技术受到了影像处理界和遥感界的广泛关注。
在过去的几十年里,人们提出了许多全色锐化算法,并取得了很好的效果。传统的算法包括组件替换、多分辨率分析和基于模型的方法。然而,所有这些方法通常都是基于手工特征,重建MS图像中缺失信息的能力有限。最近,为了克服上述缺点,研究人员集中于利用卷积神经网络(CNNs)的强大特征表示能力来构造大量基于CNNs的全色锐化方法,其大幅度优于先前的最先进方法。
然而,现有的基于CNN的方法仍然受到一些限制
1)由于卷积算子的局部相邻接收特性的性质,它们缺乏长距离相关性的建模。以及2)它们在特征提取和融合中是无效的。两者都导致可能对示例性全色锐化图像有用的一些基本特征的损失。

Long-Range Dependency Modeling

Transformer体系结构是第一个提出的,并且在自然语言处理(NLP)领域取得了显著的性能。与卷积算子的局部接收特性不同,变换器结构通过采用不同有序输入特征部分之间的多头全局注意机制,天生擅长捕捉长距离依赖关系。之后,在成功的推动下,许多研究人员开始将变压器结构引入计算机视觉。开创性的工作是用于图像识别任务的视觉 transformer(visual transformer (ViT)),与最先进的基于CNN的方法相比,该方法获得了优异的结果。从那时起,基于变换的方法已经出现,成功地工作在其他计算机视觉问题中,例如对象检测、图像分割和图像恢复。但是,在泛锐化任务中并未对其进行探索。此外,现有的transformer架构被设计成在单个图像中找到自相似性。全色锐化的目的是寻找MS图像和PAN图像这两种形态图像之间的交互信息。为了实现这一点,我们重新开发了一个定制的全色锐化transformer架构。具体而言,所提出的transformer将PAN和MS特征公式化为queries和keys,以鼓励跨两个模态的联合特征学习,用于搜索长程特征,如图5所示。
请添加图片描述

Effective Feature Extraction and Fusion

全色锐化任务的目标是融合来自MS图像和PAN图像的互补信息以生成高空间分辨率MS图像。众所周知,如何有效地提取和融合互补信息对于全色锐化性能至关重要。具体而言,现有的全色锐化方法大多直接将MS和PAN图像在图像空间中拼接,然后送入单流共享卷积编码器进行特征提取和融合。其余的方法采用双流独立卷积编码器以提供来自MS和PAN图像的模态特定特征图,然后将所获得的特征图级联以在特征空间中融合。
然而,上述方法并没有充分研究特征提取和融合的潜力。为此,我们设计了两种方案:1)局部和远程特征提取模块,以及2)密接可逆神经网络融合模块。具体而言,前者包括两个分支:局部卷积分支和长程Transformer分支。两种算法都以MS图像和PAN图像为输入,进行局部和长程特征提取。由于可逆神经结构的自然信息无损能力,不同于现有的采用纯卷积层来实现融合的方法,我们设计了一种新的密集连接可逆神经网络来实现有效的特征融合。具体实施方式可参见图4。请添加图片描述
总之,本文结合Transformer结构的长程相关性建模和信息无损可逆神经网络的优点,提出了一种新的有效的全色锐化方法。据我们所知,这是首次尝试将变换器和可逆神经网络引入全色锐化领域。如图3所示,我们的方法包括三个步骤:1)通过卷积和变换进行局部和远程特征提取;2)通过密集连接可逆神经模块进行有效的局部和远程特征融合;和3)高分辨率MS图像重建。

贡献

1)结合Transformer结构的长程相关性建模和可逆神经网络有效的特征融合能力,提出了一种新的全色锐化方法。据我们所知,这是首次尝试将变换器和可逆神经网络引入全色锐化领域。
2)我们设计了一个自定义的Transformer结构用于全色锐化和一个新的密集连接的可逆神经模块。消融实验也证明了Transformer和可逆神经特征融合模块的有效性。
3)在不同类型卫星数据集上的大量实验表明,该方法在视觉和定量上都优于现有算法,且参数和运行次数较少。

相关工作

Pan-Sharpening

近年来出现了大量的全色锐化方法,这些方法可以分为两类,传统的全色锐化方法和基于深度学习的全色锐化方法。
经典的全色锐化方法主要包括分量替换、多分辨率分析和基于模型的算法。在压缩感知方法中,通常的思想是假设空间和光谱信息可以分别分解,并进一步将它们与全色模态相结合以恢复期望的全色锐化图像。具体而言,强度饱和、Brovey变换、主成分分析和Gram-Schmidt(GS)方法是主要代表。IHS融合使用IHS变换,Brovey方法使用乘法注入方案,而GS方法利用GS正交化过程。当光谱和空间信息没有得到适当的分解时,分量替换方法的结果会产生许多伪像。基于多分辨率分析的方法首先将MS和PAN图像变换为多尺度状态,然后将它们注入到预上采样的MS图像中以提供融合结果。典型算法归因于拉普拉斯金字塔和小波变换、曲波和非下采样轮廓波变换。多分辨率分析方法的性能很大程度上依赖于多尺度变换技术。基于模型的方法通过最小化损失函数将全色锐化任务公式化为优化问题,包括稀疏表示全色锐化方法、非局部、贝叶斯正则化和全变分算子。然而,这种不充分的表示限制了传统方法的性能。
近年来,受深度神经网络在各种计算机视觉任务中取得的成功的启发,研究人员开发了许多基于深度学习的全色锐化算法,其性能得到了很大的提高。最早的工作是PNN ,它只使用三个卷积单元进行映射。Yang等人采用残差机制将PNN重新开发为目标自适应框架。随后,研究人员采用多尺度和多深度卷积分支来提取更丰富的特征。Cai和Huang将全色锐化任务视为全色引导的超分辨率,并设计了渐进式全色锐化神经网络。Xu等人通过深度展开技术开发了基于模型的深度全色锐化方法。虽然上述方法取得了较好的效果,但仍存在频谱失真和空间纹理增强不足的问题。为此,本文提出了一个新的框架来解决上述问题。

Invertible Neural Network

可逆神经网络因其信息的无损失性而引起了广泛的关注并取得了很大的进展。对于这一开创性工作,可以参考NICE提出的增加耦合层的建议。然后,realnvp通过添加强倍增来修改附加耦合层,并以交替模式组合耦合层,使得输入可以在相同的机会改变。Kingma和Dhariwal提出了actnorm层,并推广了信道混洗操作。此外,ffjord、i-revnet和i-resnet进一步改进了用于密度估计的耦合层,以实现更好的生成结果。由于INN具有很强的特征表示能力,研究人员将其用于各种推理任务,如图像着色、图像重缩放和视频超分辨率。但在全色锐化领域还没有探索,我们利用INN的有效信息融合来满足全色锐化的特点,将全色图像和MS图像融合得到HR-MS图像。

Transformer

Transformer模型架构最早由Vaswani等人提出,多年来已被证明在NLP文献中极其重要。与递归神经网络和神经网络相比,基于变换器的模型的成功可以归因于它能够更好地捕获遥感信息。基于他们的成功,dosovitskiy提出了一个视觉转换器(vision converter (VIT))用于图像分类。这引起了开发基于Transformer的方法来解决视觉问题的极大兴趣,例如对象检测和分割。因此,在这项工作中,我们还使用了一个基于变换器的架构,通过使模型能够编码跨模态图像的长距离依赖性来获得改进的全色锐化性能。据我们所知,这是首次尝试将变压器引入全色锐化领域。

方法

Overall Network Architecture

请添加图片描述
整体结构如图3所示。它以MS图像和PAN图像作为输入,并将高分辨率(HR)PAN图像的纹理细节与来自低分辨率(LR)MS图像的光谱信息相结合以生成HR-MS图像。具体地说,给定PAN图像P ∈ R 1 × H × W R^{1×H×W} R1×H×W和MS图像M ∈ R C × ( H / 4 ) × ( W / 4 ) R^{C×(H/4)×(W/4)} RC×(H/4)×(W/4),该方法首先使用两个独立的3 × 3卷积层将4次上采样的MS和PAN图像投影到具有模态特征P0和M0的特征空间中。接下来,特征图P0和M0通过双流局部和长距离特征提取模块。局部分支由几个卷积层组成,并提供局部范围特征图,而变换分支利用多头关注来生成来自P0和M0的展平特征面片之间的长程特征。所获得的局部特征和长程特征被标记为L0和G0。接着,将这两个特征进一步传播到密集连接的可逆特征融合神经模块,以实现有效的融合。具体地说,这两种特征相互作用以增强它们的表示。然后,将增强表示变换为与上采样MS图像相同的大小和通道。最后,我们通过跳跃连接将上采样MS图像添加到变换表示中来构造HR-MS图像。全色锐化过程可以描述为在这里插入图片描述
注意,我们的网络f(·)的直接输出是残余高频细节,这是现有方法中用于简化学习的常用技术。

Local and Long-Range Feature Extraction

请添加图片描述

如图3所示,我们设计的特征提取模块由两个分支组成:通过卷积层的局部范围特征分支和通过Transformer结构的长范围特征分支。为了保持MS图像和PAN图像的初始特征,将上采样后的MS图像MΛ∈ R C × H × W R^{C×H×W} RC×H×W和PAN图像P ∈ R 1 × H × W R^{1×H×W} R1×H×W分别送入两个独立的3 × 3卷积层,得到M0 R 8 × H × W R^{8×H×W} R8×H×W和P0 R 8 × H × W R^{8×H×W} R8×H×W的浅层特征。然后,通过信道维度级联M0和P0被传递到上述两个分支。
具体地,局部特征分支由3×3卷积层实现,并且接收全分辨率特征图M0和P0以提取局部范围特征L0。在长程特征分支中,使用新设计的Transformer来产生长程相关性。正如所认识到的,标准Transformer被设计成捕获单个图像的所有标记之间的长程自相似依赖性。由于全色锐化需要整合两种图像(MS图像和PAN图像)之间的互补信息的性质,直接将标准Transformer架构应用于全色锐化任务是不合适的。我们的变压器结构如图5所示。Transformer将划分的MS和PAN特征面片 M 1 M^1 M1,…, M n M^n Mn P 1 P^1 P1,…, P n P^n Pn,具有16 × 16像素大小,作为来自浅全分辨率特征M0和P0的输入。请添加图片描述
首先,我们使用几个卷积层来投影MS和PAN特征面片 M 1 M^1 M1,…, M n M^n Mn P 1 P^1 P1,…, P n P^n Pn与16 × 16像素大小的纹理特征,Q (query),K (key)和 V (value)是一个多芯Transformer内部的三个必要组件。与标准变压器不同,我们将V(value)扩展为两个分量V1和V2,即在这里插入图片描述
然后,我们通过如下规则计算Q的每个片qi与K中的kj之间的相关性ri,j:ri,j =((qi/||qi||),(kj/|| kj||))。整个相关性度量矩阵表示为:
请添加图片描述
然后,我们进一步使用关联矩阵R来生成硬注意图和软注意图。与传统的注意操作对每个查询qi采用加权V的求和算子不同,本文设计了两个核心注意模块:硬注意模块和软注意模块,将图像纹理特征V注入到HR-MS图像中。具体而言,我们首先计算硬注意映射H,其中我们从相关性ri,j获得第i个元素hi(i ∈[1,H × W]):hj= argmax(ri,j)。然后,通过参考硬注意图,对展开的面片V1和V2实施索引选择操作
在这里插入图片描述结果表明,通过位置索引关注,我们得到了PAN特征和MS特征的高分辨率特征表示T1和T2。此外,我们计算软注意图为
请添加图片描述
其中softmax是数学中的softmax函数。最后,将软注意图和硬注意图与PAN特征相结合,得到增强的长程特征G0在这里插入图片描述

Invertible Neural Module for Feature Fusion

与纯卷积层不同,可逆网络在变换过程中是信息无损的。对于可逆模型,输入需要分成两部分。在我们的工作中,可逆模块的输入自然地包括两部分,局部和长程特征L0和G0,这与输入的分离完全匹配。为了利用可逆网络保持提取的特征,我们设计了一个由一堆可逆基本单元组成的稠密连接的可逆特征融合神经模块。如图4(a)所示,我们在这项工作中遵循的每个基本单元都是仿射耦合层。请添加图片描述
为了增加网络的表示能力,提出了两种方案:1)将每个可逆单元的直接序列特征通过跳跃连接传播到最后一个可逆单元,然后进行级联以增强其表示; 2)设计了两个可逆单元之间的有效变换操作。具体地说,我们对长程分支使用加性变换,而对局域分支使用增强的仿射变换。以第一仿射耦合层为例,给定局部和远程特征L0和G~0`,输出将被计算为在这里插入图片描述
注意,尺度函数和平移函数不一定可逆,因此,我们通过神经网络来实现它们。通过这样做,其他k−1个可逆块接收前一个块的输出并生成结果。所有输出L0/G 0,…利用残差通道关注块将每个可逆单元的Lk/Gk级联生成高频细节,然后与输入的低空间MS图像相加,跳接得到HR-MS图像。
请添加图片描述

其中,RCAB 和[·]表示通过信道维度的残余信道关注度和级联。k是我们堆叠的可逆神经单元的数目,并且设置为3以减少计算成本。
此外,为了增强与两部分特征的交互,我们使用两个级联的半实例归一化(half instance normalization (HIN))块来实现变换操作ρ(·)、η(·)和φ(·)。如图4(b)所示,
请添加图片描述
HIN模块首先使用3 × 3卷积将输入特征Fin R C   i n   × H × W R^{C~in~×H×W} RC in ×H×W投影到中间特征Fmid R 16 × H × W R^{16×H×W} R16×H×W。然后将特征Fmid1/Fmid2 R 8 × H × W R^{8×H×W} R8×H×W分为两部分,第一部分Fmid1 通过实例归一化(IN)进行归一化,然后与Fmid2通过信道维数进行连接。HIN块在Fmid1上采用IN,并通过Fmid2保持上下文信息。级联运算后,将得到的特征Fres送入一层3×3卷积算子和两个leaky ReLU激活函数。最后,HIN块通过将Fres与跳过连接的特征Fin相加来输出增强的特征Fout,如请添加图片描述
请添加图片描述

Network Loss Function

我们采用平均绝对误差(L1损失)来优化我们提出的方法在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/107099.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

30岁之后想转行,可行吗?这20条建议让你少走弯路!

都说三十而立,可眼看着到了意气风发的年龄,却突然意识到自己仍一事无成,甚至连养活自己都是问题。30多岁,大多数人还要开始买房、买车、结婚生子,养家糊口,于是各种压力逼迫之下,就想到了转行&a…

移动硬盘中安装ubuntu系统——Vmware Workstation安装

一. 简介 对于一个程序开发者来说,电脑系统开发环境非常重要。要使用相同的系统环境,可以的方式有:1、携带电脑,2、携带安装了系统的移动硬盘。相比来说,第二种方式更理想,如果是第一种方式携带电脑的话&a…

基于java+springboot的民宿预订信息网站-计算机毕业设计

运行环境 开发语言:Java 框架:springboot JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 数据库工具:Navicat11 开发软件:eclipse/myeclipse/idea Maven包:Maven 项目介绍 随着国民生…

大学没有学好专业,毕业如何转行?

大学颓废度过,毕业工作一无所长,颠沛流离! 本人17届某二流专科毕业,模具设计与制造专业。其实对模具毫无兴趣,只怪当初没有主见听从没有出过县城的老爸的命令选择了模具这个专业。大学期间上课睡觉玩手机,…

2023年元旦倒计时案例

文章目录基于HTML实现2023年倒计时代码实现基于HTML实现2023年倒计时 代码实现 <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>2023倒计时</title> <!-- <link rel"stylesheet" href"sty…

傻白探索Chiplet,Chiplet的通信结构(八)

目录 一、SoC总线结构 二、NoC结构 2.1 NoC层次 2.2 NoC基本组成和属性 2.3 NoC常见的拓扑结构 2.3.1 2D Mesh 2.3.2 2D Torus 2.3.3 3D Mesh 2.3.4 Octagon/Spidergon结构 2.3.5 Cluster Mesh结构 2.3.6 树状结构 2.3.7 蝶状结构 2.4 各种结构之间的比较 2.5 …

网络技术期末复习~基础理论题

问题1.1试述五层协议的网络体系结构的要点&#xff0c;包括各层的主要功能。 解&#xff1a; 物理层&#xff1a;传输比特流。 数据链路层&#xff1a;传送以帧为单位的数据&#xff0c;实现网络中相邻两个节点直接的连接。 网络层&#xff1a;提供主机间的通信服务。&…

【小学信息技术教资面试】《数据计算》教案

1.题目&#xff1a;数据计算 2.内容&#xff1a; 3.基本要求 &#xff08;1&#xff09;掌握公式和函数的使用方法。 &#xff08;2&#xff09;试讲中体现学生的参与性。 &#xff08;3&#xff09;配合板书讲解。 《数据计算》教案 一、教学目标 1.了解公式的组成&#x…

Hadoop综合项目——二手房统计分析(起始篇)

Hadoop综合项目——二手房统计分析&#xff08;起始篇&#xff09; 文章目录Hadoop综合项目——二手房统计分析&#xff08;起始篇&#xff09;0、 写在前面1、项目背景与功能1.1 项目背景1.2 项目功能2、数据集和数据预处理2.1 数据集2.2 数据预处理2.2.1 字段空值处理2.2.2 无…

计算机毕设Python+Vue养生知识平台(程序+LW+部署)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

浅析在线教育行业发展所面临的困境

2013年&#xff0c;在线教育行业悄然兴起&#xff0c;一时间引发讨论。到新冠疫情期间&#xff0c;受到疫情和政策的双重抨击&#xff0c;线下教育行业遭到重创&#xff0c;又有更多人开始关注到并开始看好在线教育。作为技术发展下的产物&#xff0c;在线教育跨越了时间、空间…

【小学信息技术教资面试】《认识Windows程序窗口》教案

1.题目&#xff1a;认识Windows程序窗口 2.内容&#xff1a; 3.基本要求&#xff1a; &#xff08;1&#xff09;学生掌握改变窗口大小和位置的方法。 &#xff08;2&#xff09;教学中注意师生间的交流互动。 &#xff08;3&#xff09;让学生明白Windows窗口组成。 《认识W…

超标量处理器设计——第七章_寄存器重命名

超标量处理器设计——第七章_寄存器重命名 参考《超标量处理器》姚永斌著 文章目录超标量处理器设计——第七章_寄存器重命名7.1 简述7.2 寄存器重命名方式7.2.1 用ROB进行寄存器重命名7.2.2 扩展ARF进行寄存器重命名7.2.3 使用统一的PRF进行寄存器重命名7.3 重命名映射表&…

UI 自动化测试实战(二)| 测试数据的数据驱动

关注公众号&#xff0c;获取测试开发实战干货合辑。本文节选自霍格沃兹《测试开发实战进阶》课程教学内容&#xff0c;进阶学习文末加群。 数据驱动就是通过数据的改变驱动自动化测试的执行&#xff0c;最终引起测试结果的改变。简单来说&#xff0c;就是参数化在自动化测试中的…

企业生产管理必备模板,助力企业数字化转型

如今企业在市场经济中快速发展&#xff0c;不少企业在市场中得到了更好的发展机遇。然而机遇与挑战往往是共存的&#xff0c;市场同时也给制造企业生产方面提出了更高要求——企业需要在产品结构优化、生产系统改良以及运作模式创新的基础上&#xff0c;注重管理思维模式的改进…

【实时数仓】DWM层订单宽表之维表关联优化 -- 异步查询

文章目录一 DWM层-订单宽表1 维表关联代码实现&#xff08;1&#xff09;优化2&#xff1a;异步查询a 封装线程池工具类b 封装维度异步查询的函数类DimAsyncFunctionc 自定义维度查询接口DimJoinFunctiond 使用DimAsyncFunction关联用户维度源码测试配置配置表历史数据同步总结…

构建Web应用程序哪个最好:PHP,Python还是Ruby?

在本文中&#xff0c;我们将了解哪种PHP&#xff0c;Python和Ruby最适合构建Web应用程序。 什么是 Python&#xff1f; Python 是一种具有动态语义的解释型、面向对象的高级编程语言。其高级内置数据结构&#xff0c;以及动态绑定和动态类型&#xff0c;使其特别适合用作脚本…

如何计算并有效降低独立站的客户流失率?

关键词&#xff1a;客户流失率 独立站 对于跨境电商的独立站运营来说&#xff0c;现在获取一个新用户的成本越来越高&#xff0c;成本可能是维护现有客户的5倍;品牌有大约60%–70% 的机会向现有客户销售产品&#xff0c;而仅有大约 20% 的机会向新客户销售产品。 所以&#xff…

有奖征文活动:从 RTC 到 RTE,从音视频到「实时万象」!

Hi 小伙伴们&#xff0c; 社区已经更名 RTE 两个月辣&#xff5e;大家对于 RTC 和 RTE 的区分&#xff0c;是否还有疑惑呢&#xff1f;&#x1f914; 关于这两者的区别&#xff0c;我们创始人兼 CEO 赵斌老师说&#xff1a; “RTC&#xff08;实时音视频&#xff09;从 Commu…

k8s-Service简单学习

目录 Service介绍 Service类型 Service使用 实验环境准备 ClusterIP类型的Service HeadLiness类型的Service NodePort类型的Service LoadBalancer类型的Service ExternalName类型的Service Ingress介绍&#xff08;最好&#xff09; Ingress使用 环境准备 Http代理 …