(ICLR,2024)GRAFT:通过地面远程对齐无需文本注释训练遥感图像的视觉语言模型

news2024/11/15 19:57:23

文章目录

  • 相关资料
  • 摘要
  • 引言
  • 方法
    • 图像级VLMs
    • 像素级VLMs
    • 收集地面-卫星图像对
    • 用基础模型增强GRAFT VLMs
  • 实验
    • 图像级理解
    • 像素级理解

相关资料

论文:Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment
项目地址:GRAFT

摘要

我们介绍了一种无需使用任何文本注释即可训练遥感图像的视觉-语言模型的方法。我们的关键见解是使用地面上的互联网图像作为中介,连接遥感图像和语言。具体来说,我们训练了一个遥感图像的图像编码器,使其与CLIP的图像编码器对齐,使用大量配对的互联网和卫星图像。我们的无监督方法使得首次能够以两种不同的分辨率训练用于遥感图像的大规模视觉语言模型(VLM)。我们展示了这些VLM能够使卫星图像进行零样本、开放词汇表的图像分类、检索、分割和视觉问答。在每项任务中,我们无需文本注释训练的VLM都优于现有使用监督训练的VLM,分类上提高了20%,分割上提高了80%。我们的代码、数据和其他资源可在 https://graft.cs.cornell.edu 获取。

引言

我们的关键见解是利用地面上的互联网图像作为文本和卫星图像之间的中介。卫星图像捕捉了地球上某个特定位置的状况。同样的位置也可以通过人类在地面上的相机捕捉。通过利用与地面图像相关的地理标签(geotags),我们可以轻松地将卫星图像与它们联系起来,创建一个大规模的地面-卫星图像对数据集。结合CLIP的预训练互联网图像编码器,我们使用这些数据训练一个vision transformer,该vision transformer可以将卫星图像映射到CLIP编码器的特征空间。我们对这些对使用对比损失进行训练。由于这个特征空间也是CLIP文本编码器共享的,卫星编码器允许对卫星图像进行图像级文本理解,完全绕过了训练遥感VLM所需的文本注释的需求(见图1)。

在这里插入图片描述
考虑到卫星图像能够捕捉比地面图像更大的物理空间(例如,地面图像只能捕捉到湖泊的一部分,而卫星图像可以捕捉到整个湖泊),我们进一步开发了一个基于文本到补丁检索的模型,使用我们的地面-卫星图像对。具体来说,利用与地面图像相关的地理标签,我们可以识别出地面图像在卫星图像上被捕获的像素位置。然后,我们构建了一个vision transformer,它可以输出与地面图像的CLIP表示对齐的补丁表示。这个模型不仅允许分类,还允许定位:我们展示了如何使用这个表示来识别与特定文本查询相关的补丁,或者通过利用如SAM这样的基础分割模型来执行文本到图像分割。
GRAFT可以在零样本的情况下执行分类、检索、语义分割(结合SAM)和视觉问答(VQA)(结合如ViperGPT等工具),所有这些任务都是在零样本的情况下完成的。我们在这些任务上广泛评估了我们的VLM,并展示了在各种文本到图像检索(比基线提高高达20%的相对改进)和文本到分割基准测试(比基线提高超过80%的相对改进)上的最先进的零样本性能。我们的贡献总结如下:
在这里插入图片描述

  • 我们介绍了GRAFT,它能够无需任何文本注释来训练遥感VLM。
  • 利用GRAFT,我们收集了两个不同分辨率(NAIP为1米,Sentinel-2为10米)的遥感图像的两百万像素级数据集
  • 利用GRAFT和我们的数据集,我们开发了基础的视觉语言模型,用于理解卫星图像中的开放世界概念,这些模型在不同分辨率下都能理解,并在各种图像级和像素级理解任务上显著优于先前的工作。
  • 我们通过将我们的VLM与ViperGPT框架扩展,提出了解决卫星图像零样本VQA问题的方案。

方法

在这里插入图片描述
我们构建了两种类型的VLMs,它们在不同的理解层面上运作:图像级像素级。图像级模型可用于执行需要将卫星图像作为一个整体理解的任务,例如文本到图像的检索和零样本图像分类;像素级模型则在需要精确定位时使用,例如零样本分割和视觉问答(对于测量某些特征区域的面积等问题)。

图像级VLMs

我们希望构建一个图像级特征提取器 f S I f^I_S fSI,将卫星图像映射到 ( f G , f T ) (f_G, f_T) (fG,fT)的相同表示空间。我们可以使用像CLIP一样的对比损失,将卫星图像和地面图像的对应对拉近,并将负样本推开。然而,原始的对比学习设置假设一个模态(卫星图像)中的数据点映射到另一个模态(互联网图像)中的一个单一点。不幸的是,卫星图像捕捉的区域更大,并且与它们关联的是多个地面图像。因此需要一个新的公式。
我们假设卫星图像的嵌入应该与在该区域内拍摄的所有地面图像接近,并且与其它卫星图像的地面图像远离。具体来说,对于一个数据批次 B = { s i , { g i j } j = 1 N i } i = 1 N B B = \{s_i, \{g^j_i\}^{N_i}_{j=1}\}^{N^B}_{i=1} B={si,{gij}j=1Ni}i=1NB(其中 s i , i = 1 , . . . , N B s_i, i = 1, ..., N_B si,i=1,...,NB是卫星图像, g i j , j = 1 , . . . , N i g^j_i, j = 1, ..., N_i gij,j=1,...,Ni s i s_i si捕获的地理区域内拍摄的 N i N_i Ni个地面图像)。我们使用以下损失函数捕捉我们的直觉:
在这里插入图片描述

像素级VLMs

许多卫星图像理解任务,如分割,需要像素级的定位。为了实现像素级的理解,我们转向之前部分中忽略的另一个信息源:地面图像 g j i g^i_j gji拍摄的精确地理位置,这可以映射到卫星图像 s i s_i si中的像素位置 p j i p^i_j pji

为了利用这个信号,我们假设了一个网络架构 f S P f^P_S fSP,它可以为卫星图像s中的每个像素 p p p产生一个特征向量 f S P ( s ) [ p ] f^P_S(s)[p] fSP(s)[p]。我们使用ViT实现 f S P f^P_S fSP,为卫星图像的非重叠补丁产生特征向量。然后, f S P ( s ) [ p ] f^P_S(s)[p] fSP(s)[p]就是包含像素p的补丁的输出特征向量。我们使用类似的损失函数来训练这个特征提取器:
在这里插入图片描述

收集地面-卫星图像对

在这里插入图片描述

为了进行训练,我们需要一个地面-卫星图像对的数据集。我们为两种不同类型的遥感图像收集了这样的数据集:NAIP(美国地质调查局,2022年)(高分辨率,每像素1米)和Sentinel-2(Drusch等人,2012年)(低分辨率,每10米1像素)。我们下面描述我们的数据收集过程。

  1. 地面图像:我们从Flickr收集地面图像。为了获得来自多样化地区(而不仅仅是人口密集的地方)的代表性图像,我们均匀选择地点,并采样具有精确地理标签(街道级精度)的非重复图像。我们使用室内-室外分类器(在SUN397(Xiao等人,2010)上训练的ResNet18)去除室内图像。虽然我们发现使用“全部”和“室外”图像之间没有明显的区别,但我们为了实验的便利性进行了过滤。

  2. 卫星图像:我们以地面图像的地理标签为中心采样卫星图像。所有地理标签落在这个卫星图像中的地面图像都被分配给它。此外,我们不使用已经被分配的地面图像来采样卫星图像。因此,我们避免了卫星图像之间的高度重叠(至少相隔112像素)。

除了地面和卫星图像之间的地点一致性外,我们还将时间一致性融入到Sentinel-2数据中。具体来说,我们收集了互联网图像所在地点的时间上最接近的图像(包含<1%的云)。我们无法为NAIP这样做,因为NAIP的重访时间要长得多(每2年一次,而Sentinel-2每5天一次)。

用基础模型增强GRAFT VLMs

  1. 零样本图像分割。虽然像素级模型已经可以用于执行分割,但我们可以利用像SAM(Kirillov等人,2023)这样的自底向上分割模型来提高其性能。为了增强像素级模型与SAM的性能,我们首先使用我们的模型选择最高分的补丁,然后将补丁的中心作为点提示输入到SAM。

  2. 视觉问答(VQA)。虽然GRAFT可以用来回答简单的问题,如“哪张卫星图像包含棒球场?”,但更微妙的问题可能需要复杂的推理。为了允许更复杂的问题,我们将我们的VLM与ViperGPT结合起来。ViperGPT使用一个大型语言模型(LLM)将自然语言查询转换为程序,该程序又调用一个开放词汇的对象检测器。我们**将Viper-GPT中基于GLIP的检测器替换为我们在NAIP数据上训练的像素级GRAFT模型。**为了产生检测输出,我们阈值化像素级分数并检索连通组件以获得实例,然后像以前一样使用SAM进一步完善每个实例。

实验

图像级理解

在这里插入图片描述
在这里插入图片描述

像素级理解

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1663346.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

怎么把手机ip地址变成了外省

在日常使用中&#xff0c;有时我们可能因为某些原因需要快速切换手机的IP地址&#xff0c;特别是当需要从一个省份切换到另一个省份的IP时。这种需求可能来源于网络访问限制、地理位置相关服务的使用、或者网络安全等方面的考虑。那么&#xff0c;怎么把手机IP地址变成外省呢&a…

CUDA C编程:第一个程序 向量相加点积

我的电脑没有装CUDA&#xff0c;所以使用租了带GPU的云服务器&#xff0c;然后使用vscode SSH远程连接云服务器。云GPU使用的是智星云&#xff0c;0.8元/h。 智星云 可以使用nvcc --version查看系统中安装的CUDA版本。 然后写第一个CUDA程序&#xff0c;两个向量相加结果给到…

三维点云处理-聚类(下)

接着前一部分数据聚类方法的介绍&#xff0c;由于K-means和GMM方法都是基于欧式距离信息处理的&#xff0c;两者分别以圆形和椭圆形来作为数据的聚类分割方式&#xff0c;这种情况下会导致环形图和月牙图数据分割不准确&#xff0c;因此进一步的介绍一种谱聚类方法&#xff0c;…

力扣每日一题- 给植物浇水 II -2024.5.9

力扣题目&#xff1a;给植物浇水 II 题目链接: 2105.给植物浇水 II 题目描述 代码思路 根据题目内容&#xff0c;使用双指针从左右两边同时向中间移动&#xff0c;模拟浇水过程即可。 代码纯享版 class Solution {public int minimumRefill(int[] plants, int capacityA, …

启用dell服务器的iDRAC

插网线 观察到 dell服务器背板左侧有一个网口&#xff0c;标有iDRAC字样&#xff0c;使用网线将该网口和网段所在的交换机连接起来。 网络配置 重启计算机&#xff0c;依照屏幕显示按F2进入SystemSetup。选择iDRACsettings – Network&#xff0c;需要改动的如下&#xff08;现…

使用Pandas对Data列进行基于顺序的分组排列

目录 一、引言 二、Pandas库简介 三、按照数据列中元素出现的先后顺序进行分组排列 四、案例分析 五、技术细节探讨与扩展应用 1. 技术细节 2. 扩展应用 3. 示例代码&#xff1a;用户行为分析 4. 进阶应用&#xff1a;分组后的聚合操作 5. 分组后的数据筛选 6. 分组…

代码随想录算法训练营第二十五天 | 669. 修剪二叉搜索树、108.将有序数组转换为二叉搜索树、538.把二叉搜索树转换为累加树

669. 修剪二叉搜索树 题目链接/文章讲解&#xff1a; 代码随想录 视频讲解&#xff1a; 你修剪的方式不对&#xff0c;我来给你纠正一下&#xff01;| LeetCode&#xff1a;669. 修剪二叉搜索树_哔哩哔哩_bilibili 解题思路 在上一题的删除二叉树节点中&#xff0c;我们通过在…

SHAP分析+立方样条拟合的展示可能的交互作用

SHAP分析立方样条的拟合展示可能的交互作用 SHAP分析的另一个特点就是对交互作用的分析&#xff0c;计算交互作用的SHAP值&#xff0c;绘制相关的交互作用图表&#xff0c;但是仅局限于xgboost模型&#xff0c;其它的模型不能单独计算相互作用的SHAP值&#xff0c;也就不能绘制…

免费SSL证书怎么签发

大家都知道SSL证书好&#xff0c;作用大&#xff0c;安全性高&#xff0c;能加权重&#xff0c;等保必须的参考值。但是如何选择合适且正确的证书也是至关重要的&#xff0c;网站更适合单域名证书、多域名证书、泛域名证书、还是多域名通配符证书。 首先大家要清楚&#xff0c…

618有什么好物推荐?618平价好物清单,让你买到物超所值的好货!

618大促即将开启&#xff0c;大家是不是已经跃跃欲试&#xff0c;准备大肆采购一番了呢&#xff1f;别心急&#xff0c;让我为你揭晓几款数码、家居领域中的明星产品。这些好物不仅实用&#xff0c;而且性价比超高&#xff0c;让你在享受购物乐趣的同时&#xff0c;也能买到真正…

三国杀背后的图形化编程 变量跟踪与吐槽的故事

在周末的公司里&#xff0c;卧龙凤雏等几位员工终于结束了加班任务&#xff0c;他们每个人都显现出些许疲惫之态&#xff0c;但心情还算较为轻松愉悦。突然&#xff0c;有人提议玩上几局三国杀&#xff0c;以此来让大家放松一下身心。于是乎&#xff0c;几人纷纷掏出手机&#…

PLM系统的选择,PLM系统哪家最好?PLM系统最佳选择

对于PLM系统的选择&#xff0c;最好的供应商取决于你的具体业务需求、预算和公司规模。一些知名的PLM系统供应商包括彩虹PLM系统、彩虹PDM系统等。这些公司都提供了各种各样的PLM解决方案&#xff0c;包括产品数据管理、设计协作、质量管理和供应链管理等功能。要选择最适合自己…

机器学习求数组的迹

机器学习求数组的迹、也叫求矩阵的迹。 矩阵的迹&#xff0c;也称为迹数&#xff0c;是矩阵主对角线上所有元素的和。矩阵的迹具有以下重要性质&#xff1a;- 不变性&#xff1a;矩阵的迹在转置、加法、乘法等运算下保持不变。- 特征值关系&#xff1a;一个方阵的迹等于其所有特…

笔记2:torch搭建VGG网络代码详细解释

VGG网络结构 VGG网络&#xff08;Visual Geometry Group Network&#xff09;是一种经典的深度学习卷积神经网络&#xff08;CNN&#xff09;架构&#xff0c;由牛津大学的视觉几何组&#xff08;Visual Geometry Group&#xff09;在2014年提出。VGG网络在ImageNet挑战赛2014…

Visual Components 3D工厂仿真与物流规划解决方案

Visual Components是新一代的数字化工业仿真软件&#xff0c;涵盖3D工艺仿真、装配仿真、人机协作、物流仿真、机器人仿真、虚拟调试、数字孪生工厂等功能于一体的数字化工业仿真平台。 在智能制造的发展过程中&#xff0c;3D仿真技术已经成为推动产业升级、优化生产流程的重要…

LeetCode 513.找树左下角的值

LeetCode 513.找树左下角的值 1、题目 题目链接&#xff1a;513. 找树左下角的值 给定一个二叉树的 根节点 root&#xff0c;请找出该二叉树的 最底层 最左边 节点的值。 假设二叉树中至少有一个节点。 示例 1: 输入: root [2,1,3] 输出: 1示例 2: 输入: [1,2,3,4,null…

【论文速读】| LLM4FUZZ:利用大语言模型指导智能合约的模糊测试

本次分享论文&#xff1a;LLM4FUZZ: Guided Fuzzing of Smart Contracts with Large Language Models 基本信息 原文作者&#xff1a;Chaofan Shou, Jing Liu, Doudou Lu, Koushik Sen 作者单位&#xff1a;加州大学伯克利分校&#xff0c;加州大学欧文分校&#xff0c;Fuzz…

5.10.1 Pre-Trained Image Processing Transformer

研究了低级计算机视觉任务&#xff08;例如去噪、超分辨率和去雨&#xff09;并开发了一种新的预训练模型&#xff0c;即图像处理变压器&#xff08;IPT&#xff09;。利用著名的 ImageNet 基准来生成大量损坏的图像对。 IPT 模型是在这些具有多头和多尾的图像上进行训练的。此…

解决离线服务器无法加载HuggingFaceEmbeddings向量化模型的问题

由于服务器是离线的&#xff0c;因此我先在本地到huggingface官网下载模型text2vec&#xff0c;然后上传到服务器上运行&#xff0c;报错&#xff1a; (MaxRetryError(HTTPSConnectionPool(host\huggingface.co\, port443): Max retries exceeded with url: /api/models/senten…

matlab绘制时间序列图,横坐标轴如何标注为月-日

Excel表格中有类似于如下 年月日对应的数据 导入 matlab中&#xff0c;为数值矩阵&#xff1b;了解该表格中的时间跨度为从2021年1月2日至2021年12月31日&#xff0c;中间没有缺失&#xff0c;绘图代码&#xff1a; % clear; timespan1[20210102 20211231]; datenn1datenum(da…