SpectralGPT: Spectral Foundation Model 论文翻译3

news2024/11/24 17:37:02

遥感领域的通用大模型 2023.11.13在CVPR发表

原文地址:[2311.07113] SpectralGPT: Spectral Foundation Model (arxiv.org)

E.消融研究

image-20231205160804763

在预训练阶段,我们对可能影响下游任务表现的各种因素进行了全面研究。这些因素包括掩蔽比、ViT patch大小、数据规模、重建目标、解码器深度、模型尺寸。为了对预训练模型进行更严格的评估,我们在BigEarthNet多标签分类数据集上对所有消融模型进行微调,只使用训练集的10%子集,这是一个更艰巨的挑战,使用mAP测量进行评估。我们选择ViT-B作为主干模型,保证了实验间的一致性。除了涉及数据规模和训练计划长度的缩减外,所有模型都在fMoW-S2数据集上进行了200 epoch的预训练。这个全面的评估框架使我们能够更深入地了解这些因素对模型性能的影响。

1)token大小:表V(a)图8(a)提供了token大小对模型性能影响的重要见解,一致表明较大的patch大小会导致模型性能降低,这与先前的研究结果一致[30]。这种现象可以归因于ViT架构的内在特征。对于较大的令牌大小,例如16 x 16,每个图像包含较少的令牌,从而导致随着模型通过其更深层的进展,细粒度空间信息的减少。因此,空间细节的减少会对模型的整体性能产生负面影响。然而,值得注意的是,无论token大小设置如何,预训练模型始终增强mAP,强调其在各种配置中提高性能的能力。值得注意的是,尽管输入图像的大小为96 × 96或128 × 128,但标记大小为8 × 8时的识别性能明显优于16 × 16,强调了预训练模型的多功能性和有效性。

2)数据规模:表V(b)和图8(b)针对预训练数据在我们研究中的影响进行了综合分析。我们使用两个数据集(即fMoW-S2, BigEarthNet)进行预训练,同时保持标准输入图像大小为96 × 96。为了更深入地研究这种比较,我们最初专门在fMoW-S2上预训练模型,然后在BigEarthNet上无缝地继续预训练,没有任何中间的微调步骤。我们的预训练数据集包括fMoW-S2的广泛训练集,其中包括来自世界各地的令人印象深刻的712,874张图像,以及BigEarthNet的训练集,其中包括欧洲地区的351,496张图像,其中不包括受雪,云或云阴影影响的图像。

表V(b)中的分析强调了数据规模和分布对模型预训练的实质性影响。在与下游任务相同的数据集上预训练的模型始终表现出优异的性能,突出了数据集一致性在有效迁移学习中的关键作用。此外,fMoW-S2在预训练方面优于BigEarthNet,主要是由于其更大的数据集和更广泛的地理覆盖。有趣的是,持续预训练的概念,结合了两个数据集,导致模型具有更高的mAP分数。这种改进可以部分归因于fMoWS2预训练期间的96 × 96图像到BigEarthNet预训练期间的128 × 128图像的过渡,强调了增加图像大小对整体模型效率的有益影响。在与下游任务相同的数据集上预训练的模型始终表现出优异的性能,突出了数据集一致性在有效迁移学习中的关键作用。此外,fMoW-S2在预训练方面优于BigEarthNet,主要是由于其更大的数据集和更广泛的地理覆盖。有趣的是,持续预训练的概念,结合了两个数据集,导致模型具有更高的mAP分数。这种改进可以部分归因于fMoWS2预训练期间的96 × 96图像到BigEarthNet预训练期间的128 × 128图像的过渡,强调了增加图像大小对整体模型效率的有益影响

3)掩蔽比:表V©和图8©揭示了掩蔽比的影响,揭示了一个值得注意的趋势,即掩蔽比越高,模型性能越好。与传统的75%的掩模率不同,我们发现多光谱图像的最佳掩模率为90%。这一观察结果与[29]中提出的假设相一致,即MIM方法中的掩蔽比与数据中的信息冗余复杂相关。多光谱图像本身具有更大的信息冗余,其光谱带之间具有很强的相关性。因此,更高的掩蔽比对于模型有效地从这些图像中学习有意义的表示是必不可少的。此外,90%的掩蔽率显著提高了预训练阶段的效率,降低了记忆复杂度加快训练时间,为模型开发提供实际优势。

4)重建目标:表V(d)和图8(d)对多光谱图像背景下重建目标对归一化、标准化数据和未归一化、标准化的原始数据的影响进行了深入分析。规范化(将所有数据缩放到[0,1]范围)标准化(将数据转换为均值为0和标准差为1)是两个研究的目标。值得注意的是,结果显示归一化和标准化重建目标之间的模型性能差异很小,主要是因为这两个目标都属于像素级数据转换。然而,在原始数据上进行预训练的模型的性能要比具有归一化重建目标的模型差得多。我们将这种现象归因于多光谱图像的特性。光谱值通常数值较大,且在不同频带之间变化,因此在原始数据上预训练的模型可能需要较长的保持时间才能收敛并显示出与在规范化和标准化数据上预训练的模型相同的性能。我们的观点表明,在特定的表示空间中使用更具语义意义的目标可能会提高模型的性能

5)解码器深度:表V(e)和图8(e)考察了解码器深度对模型性能的影响,遵循MIM方法的原则,其中预训练的编码器作为下游任务的骨干,同时丢弃解码器组件。值得注意的是,结果表明浅解码器配置不适合光谱模型预训练。这一观察结果与假设相一致,即光谱图像具有高维和复杂性的特征,需要具有增强容量的解码器,这与该领域的先前发现一致[29]。

6)模型大小:表VI和图8(f)对ViT-B和Vit-L的微调结果进行了定量和定性的对比分析,揭示了令人信服的见解。列出了macro-mAP和micro-mAP,以综合评价模型的性能。具有12个transformer层和8600万个参数的ViT-B在采用该方法时表现出了有希望的性能提升,实现了mAP(微)为85.41,比从头开始训练的ViT-B高出5.26。另一方面,具有24层3.07亿个参数的ViT-L明显优于ViT-B, mAP(micro)为86.92,明显超过从头训练的模型4.44。此外,ViT-B共有32层,6.32亿个参数,极大地提高了BigEarthNet上神经网络的性能,mAP(micro)为89.23。值得注意的是,尽管我们的模型只对10%的下游训练数据进行了微调,但使用SpectralGPT+预训练权值的ViT-H模型击败了所有使用整个训练集训练的模型,SOTA mAP(micro)为91.39。这些结果强调了适当的预训练策略的关键作用,并表明更大的ViT模型能够学习更复杂的图像表示,使它们非常适合要求更高精度的任务

7)预训练计划:在图8(g)中,我们展示了不同预训练时期训练的模型的微调结果,分别使用macro-mAP和micro-mAP指标进行评估。值得注意的是,与从头开始训练的模型相比,仅预训练50次的模型表现出显著的性能提升。图中观察到的趋势表明,模型继续受益于更长的预训练时期,这表明延长的训练可以进一步提高性能。此外,表VI中的结果强化了这一发现,因为与ViT-B相比,ViT-L和ViT-H始终获得更高的mAP,突出了扩展预训练和更大模型架构的有效性

image-20231205163103244

F.目视比较和地理特征可恢复性

image-20231205164306886

以不同的掩蔽比(即50%、75%、90%和95%)作为输入,图9直观地展示了使用SatMAE和我们的SpectralGPT获得的图像重建结果。不出所料,随着掩蔽比的增加,重建图像与原始图像的偏差越大。然而,值得强调的是,所提出的SpectralGPT在光谱图像重建性能方面明显优于SatMAE,特别是在保留视觉结构和纹理细节方面。具体来说,当使用50%的可见斑块时,SatMAE的重建结果与使用SpectralGPT的结果相当,尽管SatMAE结果中的某些细节略有模糊。随着掩模比例的增加(例如,从75%的掩模增加到90%,再增加到95%),SatMAE的重建性能大幅下降。相比之下,我们的SpectralGPT表现出优越的重建能力(参见SatMAE)。即使掩蔽率超过90%,关键结构和形状组件仍然保留在视觉中,这表明我们的模型具有强大的学习、推理和泛化能力

image-20231205164715125

除了关于掩蔽比的深入讨论和灵敏度分析外,我们还通过仅使用10%的可见斑块,其余部分被掩盖,对光谱重建能力进行了更广泛的调查。这些研究利用各种光谱波段组合,优先考虑地理特征的表示。如图10所示,我们展示了八种不同波段组合的可视化。这些可视化效果清楚地突出了我们提出的SpectralGPT的显著优势(更接近生成的原始图像)特别是在波段频谱重建能力及其在EO任务背景下的应用价值方面。在我们的研究中,我们确定了与实际应用中的观测目标相对应的八个地质特征,详见表七。此外,使用SatMAE和SpectralGPT获得的地质特征在视觉上存在明显差异。这些明显的视觉差异可归因于与我们更强大的SpectralGPT相比,SatMAE相对有限的重建和推理能力造成的光谱退化。

image-20231205164405239

结论

基础模型的爆炸性发展代表了深度学习出现后的重大技术革命。目前,各个行业正在见证技术和应用进步的重大飞跃,这在很大程度上是由基础模型的出现所推动的。RS领域也不例外,有许多EO应用程序,获得了显著的好处。光谱成像因其能够提供对观测物体和材料组成的丰富见解而获得了EO的认可,使其成为一项具有巨大潜力的变革性技术,可以应对全球挑战并重塑各个行业。然而,来自各种RS平台的光谱数据的不断扩大的可用性无疑带来了巨大的挑战。目前迫切需要开发专门为光谱遥感数据设计的基础模型。为了充分释放和利用光谱遥感数据的潜力,必须克服和解决几个具有挑战性的障碍。这包括有效处理和利用来自不同来源的各种RS光谱大数据从复杂的空间-光谱混合信息中提取有意义的知识表示以及解决相邻光谱相关建模的光谱退化问题

为了应对这些挑战,我们提出了SpectralGPT,这是一个定制的光谱RS基础模型,具有新颖的3D GPT架构。凭借其创新的3D GPT架构,超过100万张光谱图像和超过6亿个参数的训练,SpectralGPT赋予光谱RS大数据的智能处理能力。SpectralGPT可以灵活地处理大小、分辨率、时间变化率和地理覆盖范围方面的各种输入。这种3D掩蔽策略可以有效地从空间光谱耦合令牌中提取信息。此外,创新的多目标重建能够捕获序列保持的光谱特征-。特性,同时减少频谱退化。值得注意的是,我们的渐进式训练模式增强了基础模型的能力,超越了性能上的过渡点。SpectralGPT取得的这些突破使光谱RS大数据的访问更加大众化,使其更容易获得,更符合大规模EO应用的成本效益。

我们的研究还包括对基于mae的预训练基础模型的综合评估,重点是光谱重建能力。我们系统地评估了模型的性能,输入范围从50%到低至5%的可见标记。这种广泛的分析使我们能够衡量他们在光谱重建和推断方面的熟练程度,特别是在地理领域,如农业领域、自然、海洋学、地质学和植被。利用SatMAE和SpectralGPT对重建光谱图像的波段组合进行可视化,证明了后者在实际EO任务和Geo-field应用中的潜力。

展望未来,我们的研究将追求几个目标。我们计划扩大用于训练的RS数据的数量和多样性,包括各种模式、分辨率、时间序列和图像大小。这种丰富将增强RS基础模型的鲁棒性。此外,我们的目标是通过整合更广泛的下游任务来扩展SpectralGPT的能力。这将使SpectralGPT成为一种通用的人工智能模型,具有更好的泛化能力,非常适合各种EO和地球科学应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1288984.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录第二十五天(一刷C语言)|递增子序列全排列全排列II

创作目的:为了方便自己后续复习重点,以及养成写博客的习惯。 组合和排列问题是在树形结构的叶子节点上收集结果,而子集问题就是取树上所有节点的结果。 一、递增子序列 思路:参考carl文档 已经是递增序列故而不用排序&#xff…

STL源码分析之allocate

空间配置函数allocate //空间配置函数的内部实现原理 //allocate()函数,首先判断区块大小,大于128bytes就调用第一级配置器,小于128bytes就检查对应的free list. //如果free list之内有可用的区块,就直接拿来用,如果没…

Axure RP免费版:详细信息抢先知道

Axure RP收费吗? 是的,AxureRP是一种收费的原型设计工具。它提供了两种选择:免费试用版和付费版。免费试用版可免费使用30天,功能与付费版相同,但导出时会有Axure水印,文件无法保存。付费版分为Pro版和Tea…

实现了一个简单的卡通渲染效果

介绍 简单参考下实现了基本卡通着色渲染效果: 主要包含了描边和内部色块 开始构建了一个场景用于展示光线的变化,并放置了一个角色。 npr_1 接下去加入描边的效果,可以感觉到人物轮廓变明显了。 npr_2 然后再加入了内部的色块变化并调小了点…

Android集成科大讯飞语音识别与语音唤醒简易封装

一、语音唤醒部分 1、首先在科大讯飞官网注册开发者账号 控制台-讯飞开放平台 2、配置唤醒词然后下载sdk 3、选择对应功能下载 4、语音唤醒lib包全部复制到工程目录下 5、把语音唤醒词文件复制到工程的assets目录 6、复制对应权限到AndroidManifest.xml中 <uses-permissio…

同旺科技 USB TO RS-485 定制款适配器--- 拆解(二)

内附链接 1、USB TO RS-485 定制款适配器 ● 支持USB 2.0/3.0接口&#xff0c;并兼容USB 1.1接口&#xff1b; ● 支持USB总线供电&#xff1b; ● 支持Windows系统驱动&#xff0c;包含WIN10 / WIN11系统32 / 64位&#xff1b; ● 支持Windows RT、Linux、Mac OS X、Windo…

【开源】基于Vue+SpringBoot的固始鹅块销售系统

项目编号&#xff1a; S 060 &#xff0c;文末获取源码。 \color{red}{项目编号&#xff1a;S060&#xff0c;文末获取源码。} 项目编号&#xff1a;S060&#xff0c;文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 鹅块类型模块2.3 固…

CentOS关闭 swap分区

临时关闭swap分区: swapoff -a # 永久关闭swap分区: sed -ri s/.*swap.*/#&/ /etc/fstab 或者 vim /etc/fstab free -m

《opencv实用探索·八》图像模糊之均值滤波、高斯滤波的简单理解

1、前言 什么是噪声&#xff1f; 该像素与周围像素的差别非常大&#xff0c;导致从视觉上就能看出该像素无法与周围像素组成可识别的图像信息&#xff0c;降低了整个图像的质量。这种“格格不入”的像素就被称为图像的噪声。如果图像中的噪声都是随机的纯黑像素或者纯白像素&am…

批量免费AI写作工具,批量免费AI写作软件

人工智能&#xff08;AI&#xff09;的应用在各个领域不断创新。面对繁重的写作任务,我们应该怎么完成&#xff1f;本文将专心分享批量免费AI写作的方法、工具以及选择时需要注意的事项。 批量免费AI写作的方法 利用开源AI模型 一种常见的批量免费AI写作方法是利用开源的AI模…

Unity中动态合批

文章目录 前言一、动态合批的规则1、材质相同是合批的前提&#xff0c;但是如果是材质实例的话&#xff0c;则一样无法合批。2、支持不同网格的合批3、动态合批需要网格支持的顶点条件二、我们导入一个模型并且制作一个Shader&#xff0c;来测试动态合批1、我们选择模型的 Mesh…

企业级SQL开发:如何审核发布到生产环境的SQL性能

自从上世纪 70 年代数据库开始普及以来&#xff0c;DBA 们就不停地遭遇各种各样的数据库管理难题&#xff0c;其中最为显著的&#xff0c;可能就是日常的开发任务中&#xff0c;研发人员们对于核心库进行变更带来的一系列风险。由于针对数据库的数据变更是一项非常常见的任务&a…

老师如何管理课堂纪律?

1 .与学生建立良好的师生关系&#xff0c;加强沟通。建立互相尊重的关系&#xff0c;让学生感受到老师的理解和关心 2. 制定合理的课堂规则和纪律&#xff0c;让学生了解规则的重要性和必要性&#xff0c;并遵守规则。 3. 在课堂上保持秩序&#xff0c;避免嘈杂的行为和讨论。…

MAMBA介绍:一种新的可能超过Transformer的AI架构

有人说&#xff0c;“理解了人类的语言&#xff0c;就理解了世界”。一直以来&#xff0c;人工智能领域的学者和工程师们都试图让机器学习人类的语言和说话方式&#xff0c;但进展始终不大。因为人类的语言太复杂&#xff0c;太多样&#xff0c;而组成它背后的机制&#xff0c;…

如何使用Python核对文件夹内的文件

说明&#xff1a;日常工作中&#xff0c;我们经常会遇到这样的场景&#xff1a;核对A、B文件夹中文件的差异&#xff0c;找出A、B文件夹中不同部分的文件&#xff1b; 本文介绍如何使用Python来实现&#xff1b; 第一步&#xff1a;获取文件清单 首先&#xff0c;我们要获取…

Go 语言中的反射机制

欢迎大家到我的博客浏览&#xff0c;更好的阅读体验请点击 反射 | YinKais Blog 反射在大多数的应用和服务中并不常见&#xff0c;但是很多框架都依赖 Go 语言的反射机制简化代码。<!--more-->因为 Go 语言的语法元素很少、设计简单&#xff0c;所以它没有特别强的表达能…

基于c++版本数组队列改-Python数组队列的总结

##队列部分-猫猫排队 是一种遵循先入先出规则的线性数据结构。 是一种模拟排队现象&#xff0c;新来的人不断加入到队列尾部&#xff0c;而位于队列头部的人不断离开。 ##抽象数据类型队列的定义 队列是一种先进先出的线性表&#xff0c;它只允许在表的一端进行插入&#xf…

Word使用相关——(待完善)

1.word 怎样删除分节符 2.word 怎样删除目录中的分节符 欢迎使用Markdown编辑器 你好&#xff01; 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章&#xff0c;了解一下Markdown的基本语法知识。 新的改变 我…

Linux上使用独立显卡Tesla T4(测试视频压缩)

背景 将视频处理程序单独部署至K8S之外&#xff0c;使用独立GPU显卡的一台服务器上。 需事先对GPU性能做简单测试。 已通过zabbix对Linux进行了系统资源监控。 已通过PrometheusGrafana对显卡Tesla T4做了性能监控。 逐步补充&#xff0c;稍等 2023年12月6日 操作 查看当前…

【GPU】linux 安装、卸载 nvidia 显卡驱动、cuda 的官方文档、推荐方式(runfile)

文章目录 1. 显卡驱动1.1. 各版本下载地址1.2. 各版本文档地址1.3. 安装、卸载方式 2. CUDA2.1. 各版本下载地址2.2. 各版本文档地址2.3. 安装、卸载方式2.4. 多版本 CUDA 切换方式 1. 显卡驱动 1.1. 各版本下载地址 https://www.nvidia.com/Download/Find.aspx?langzh-cn 1…