(ISPRS,2021)具有遥感知识图谱的鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类

news2024/12/22 22:30:35

文章目录

  • Robust deep alignment network with remote sensing knowledge graph for zero-shot and generalized zero-shot remote sensing image scene classification
    • 相关资料
    • 摘要
    • 引言
    • 遥感知识图谱的表示学习
      • 遥感知识图谱的构建
      • 实体和关系的语义表示学习
      • 创建遥感场景类别的语义表示
    • 鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类
      • 零样本学习(ZSL)和广义零样本学习(GZSL)的定义
      • 潜在空间中的鲁棒深度对齐网络
        • 视觉特征和语义表示的重建
        • 跨模态特征重建(CMFR)
        • 视觉和语义分布匹配(VSDM)
        • 多类别分布分散(MCDD)
    • 实验
    • 实验

Robust deep alignment network with remote sensing knowledge graph for zero-shot and generalized zero-shot remote sensing image scene classification

相关资料

论文:Robust deep alignment network with remote sensing knowledge graph for zero-shot and generalized zero-shot remote sensing image scene classification - ScienceDirect

代码:kdy2021/SR-RSKG (github.com)

摘要

尽管深度学习已经彻底改变了遥感图像场景分类,但当前基于深度学习的方法高度依赖于预定场景类别的大量监督,并且对于超出预定场景类别的新类别表现不佳。实际上,随着涉及遥感图像场景新类别的新应用的出现,分类任务通常需要扩展,因此如何使深度学习模型具备识别训练阶段未预定场景类别之外的未见遥感图像场景的推理能力变得非常重要。本文充分利用遥感领域的特征,从头构建了一个新的遥感知识图谱(RSKG),以支持未见遥感图像场景的推理识别。为了提高面向遥感的场景类别的语义表示能力,本文提出通过遥感知识图谱的表示学习生成场景类别的语义表示(SR-RSKG)。为了追求视觉特征和语义表示之间鲁棒的跨模态匹配,本文提出了一种新型的深度对齐网络(DAN),并设计了一系列优化约束,可以同时解决零样本和广义零样本遥感图像场景分类问题。在多个公开数据集的集成遥感图像场景数据集上的广泛实验表明,所提出的SR-RSKG明显优于传统知识类型(例如,自然语言处理模型和手动注释的属性向量),并且在零样本和广义零样本遥感图像场景分类设置下,我们提出的DAN与现有最先进方法相比表现出更好的性能。构建的RSKG将与本文一起公开提供(https://github.com/kdy2021/SR-RSKG)。

引言

零样本学习(ZSL)近年来的发展为识别未见类别的样本提供了有希望的解决方案。通过利用包括看到和未见类别在内的类别的先验知识作为辅助信息,ZSL可以学习从看到类别的样本中识别未见类别的样本。通常,看到和未见类别的语义信息是人类的常识,这是普遍的,可以在训练和测试阶段使用,但是训练阶段不存在未见类别的图像样本。因此,如何表达语义是追求ZSL优越性能的关键

与计算机视觉领域相比,遥感领域的特点限制了ZSL和GZSL的发展:

  1. 遥感场景类别的名称通常具有领域特异性。如果直接利用通用自然语言处理模型(例如,Word2Vec)将遥感场景类别的名称映射为语义表示,那么这些语义表示就不能反映遥感类别的内在语义信息。
  2. 遥感图像场景通常具有大的类内差异和大的类间相似性,通常比计算机视觉领域的自然图像具有更复杂的外观。通常,在计算机视觉领域取得优异结果的ZSL和GZSL方法不能直接扩展到遥感领域的任务。总的来说,推动零样本和广义零样本遥感图像场景分类的发展值得更多的探索。

为了生成高质量的遥感场景类别的语义表示,本文基于人类专家的领域先验知识构建了一个新的遥感知识图谱(Remote Sensing Knowledge Graph, RSKG),其中RSKG充分考虑了遥感场景元素之间丰富的联系。据我们所知,本文首次提出通过遥感知识图谱的表示学习来计算遥感场景类别的语义表示(Semantic Representations of RS scene categories by representation learning of RSKG, SR-RSKG)。基于SR-RSKG,本文提出了一个新的深度对齐网络(Deep Alignment Network, DAN),并设计了一系列精心设计的约束条件,该网络可以在潜在空间中稳健地匹配视觉特征和语义表示,以解决零样本和广义零样本遥感图像场景分类问题。

遥感知识图谱的表示学习

遥感知识图谱的构建

在这里插入图片描述

为了支持零样本遥感图像场景分类,我们基于遥感场景元素构建了一个新的知识图谱(即RSKG)。值得注意的是,RS场景不仅仅是一系列对象的集合,它还包含了对象之间丰富的关系。结合遥感图像内容的特点以及地理空间关系的相关研究,我们定义了RSKG中的关系如下:

我们将关系分为两类:属性关系空间关系

  • 属性关系用于描述对象的特征或与其他对象的父子关系,可以进一步细分为数据关系和对象关系。数据关系包括形状、颜色、宽度、分布和高度;对象关系包括“拥有”、“组成部分”、“部分”和“成员”。

  • 空间关系主要描述空间中不同对象之间的位置关系,可以细分为位置关系拓扑关系模糊关系。位置关系包括“标出”、“停靠”、“停止”、“在上方”和“在上方”;拓扑关系包括“被包围”、“在…交叉”、“通过”、“遇见”、“连接”、“覆盖”、“包含”和“在内”;模糊关系包括“靠近”、“旁边”、“周围”和“沿着”。

在这里插入图片描述

当前版本的RSKG包含117个实体、26种关系和191个三元组

实体和关系的语义表示学习

在这里插入图片描述

对于知识图谱中的每个三元组(h, r, t),TransE模型假设头部实体向量加上关系向量大约等于尾部实体向量。然而,TransE模型无法处理知识图谱中出现的1-N或N-1等复杂关系。为了解决这个问题,我们推荐使用改进的表示学习模型TransH,它通过将关系建模为超平面上的平移操作来灵活处理复杂关系。

在TransH模型中,给定的嵌入向量ch和ct被映射到超平面上,通过计算 c h ⊥ = c h − w r ⊺ c h w r c_{h_⊥} = c_h − w^⊺_rc_hw_r ch=chwrchwr c t ⊥ = c t − w r ⊺ c t w r c_{t_⊥} = c_t − w^⊺_rc_tw_r ct=ctwrctwr,其中 w r w_r wr是超平面的法向量。然后,通过最小化目标函数来优化嵌入向量,目标函数定义为:

f r ( h , t ) = ∥ c h ⊥ + c r − c t ⊥ ∥ 2 2 f_r(h, t) = \| c_{h_⊥} + c_r - c_{t_⊥} \|^2_2 fr(h,t)=ch+crct22

通过最小化损失函数:

L T r a n s H = ∑ ( h , r , t ) ∈ Δ ∑ ( h ′ , r ′ , t ′ ) ∈ Δ ′ max ⁡ ( f r ( h , t ) + τ − f r ( h ′ , t ′ ) , 0 ) L_{TransH} = \sum_{(h,r,t) \in \Delta} \sum_{(h',r',t') \in \Delta'} \max(f_r(h, t) + \tau - f_r(h', t'), 0) LTransH=(h,r,t)Δ(h,r,t)Δmax(fr(h,t)+τfr(h,t),0)

其中Δ是正确三元组的集合,Δ’是错误的三元组集合,τ是正确三元组和错误三元组分数之间的最小间隔,通常设置为1。通过优化目标函数,我们可以获得SR-RSKG。

创建遥感场景类别的语义表示

在这里插入图片描述

为了全面评估零样本和广义零样本遥感图像场景分类的性能,我们采用了一个合并的数据集,该数据集整合了五个公共数据集:UCM、AID、NWPU-RESISC45、RSI-CB256和PatternNet。合并的遥感图像场景数据集由70个场景类别组成,每个类别包含800个图像场景,图像尺寸为256×256像素。如前所述,RSKG的构建考虑了尽可能多的遥感对象和场景类别的细节,因此RSKG中的实体通常涵盖了特定数据集中的场景类别。简而言之,特定任务中的场景类别可以在RSKG中找到相应的实体。

假设 Y = { y 1 , y 2 , . . . , y M } Y = \{y_1, y_2, ..., y_M\} Y={y1,y2,...,yM}表示遥感场景类别的标签集,其中 M M M表示数据集中场景类别的数量。对于每个标签 y i ∈ Y y_i \in Y yiY,RSKG中的实体与 y i y_i yi(即场景类别)有一一对应关系,我们将实体对应的语义表示记为 c i ∈ C c_i \in C ciC。值得注意的是,构建的RSKG中的实体不仅包括本文中采用的遥感场景分类数据集的场景类别,还包括其他可能的实体或同义词。因此,只要场景类别可以从RSKG中找到实体或同义词,其他遥感场景分类任务也可以灵活地使用RSKG。

鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类

零样本学习(ZSL)和广义零样本学习(GZSL)的定义

ZSL任务的定义如下:设 D s = { ( x s i , y s i , c ( y s i ) ) ∣ i = 1 , 2 , . . . , N } D_s = \{ (x_s^i, y_s^i, c(y_s^i)) \mid i = 1, 2, ..., N \} Ds={(xsi,ysi,c(ysi))i=1,2,...,N}表示训练样本集(即已见样本)。具体来说, x s i ∈ X s x_s^i \in X_s xsiXs表示来自已见类别的第i个遥感图像场景的视觉图像特征,其中图像特征是由CNN模型提取的。 y s y_s ys表示来自已见类别的第i个遥感图像场景的标签, c ( y s ) ∈ C s c(y_s) \in C_s c(ys)Cs表示相应类别的语义表示(例如,SR-RSKG)。N表示训练样本的数量。同样,我们定义 X u , Y u , C u X_u, Y_u, C_u Xu,Yu,Cu为未见过的视觉图像特征、相应的标签和语义表示。众所周知,对于ZSL和GZSL,已见类别和未见类别是不相交的,即 Y s ∩ Y u = ∅ Y_s \cap Y_u = \emptyset YsYu=。给定训练数据集 D s D_s Ds { Y u , C u } \{Y_u, C_u\} {Yu,Cu},在传统的ZSL中,任务是学习一个分类器 F Z S L : X u → Y u F_{ZSL}: X_u \rightarrow Y_u FZSL:XuYu。在GZSL中,任务是学习一个分类器 F G Z S L : X s ∪ X u → Y s ∪ Y u F_{GZSL}: X_s \cup X_u \rightarrow Y_s \cup Y_u FGZSL:XsXuYsYu

潜在空间中的鲁棒深度对齐网络

在这里插入图片描述

我们不是从视觉空间到语义空间或从语义空间到视觉空间学习映射,而是在潜在空间中学习视觉特征和语义表示的映射,以便我们可以减轻ZSL中的中心性问题(hubness problem)并增强视觉-语义耦合。

首先,我们最小化视觉和语义表示的重建损失。然后,我们在隐藏空间中对齐视觉和语义的分布,这进一步在对齐视觉特征和语义表示的基础上分离了不同类别的特征分布,提高了ZSL任务的性能。

此外,该方法基于潜在空间映射和生成训练样本的方法来训练分类器,平衡了已见和未见类别的分类性能,因此在GZSL任务中也表现出色。值得注意的是,所提到的深度对齐网络本质上试图解决文献中存在的协调表示问题。

L = L V A E + α L C M F R + β L V S D M + γ L M C D D L = L_{VAE} + \alpha L_{CMFR} + \beta L_{VSDM} + \gamma L_{MCDD} L=LVAE+αLCMFR+βLVSDM+γLMCDD

其中 α、β 和 γ 分别是跨模态特征重建损失视觉和语义分布匹配损失以及多类别分布分散损失的权重因子。

视觉特征和语义表示的重建

由于我们提出的方法在潜在空间中学习视觉特征和语义表示的映射,我们首先需要确保每种模态在潜在空间中的表示能力。此外,为了最小化信息的丢失,应尽可能使用潜在向量重建原始数据。因此,我们遵循VAE网络的架构来学习视觉特征和语义表示的重建模型,将视觉特征和语义表示投影到潜在空间中。

在这里插入图片描述

跨模态特征重建(CMFR)

通过视觉特征和语义表示的重建,我们学习了潜在空间中视觉特征和语义表示的表示。接下来,我们需要在潜在空间中对齐它们的表示。我们从两个方面实现这一点。首先是跨模态特征重建(CMFR)。在这里,视觉特征和语义表示交叉输入到另一种模态的编码器中,跨模态特征重建的损失函数可以由公式(5)定义。

在这里插入图片描述

其中 N 表示训练样本的数量, x i x_i xi c i c_i ci分别表示同一类别的视觉特征和语义表示。

视觉和语义分布匹配(VSDM)

第二是视觉和语义分布匹配(VSDM)。视觉特征和语义表示在潜在空间中的分布由 μ ( v ) i , σ ( v ) i \mu(v)_i, \sigma(v)_i μ(v)i,σ(v)i μ ( a ) i , σ ( a ) i \mu(a)_i, \sigma(a)_i μ(a)i,σ(a)i确定。我们通过减少它们之间的距离,进一步匹配潜在空间中视觉特征和语义表示的分布,视觉和语义分布匹配的损失函数可以由公式(6)定义。

在这里插入图片描述

其中 N 表示训练样本的数量, μ ( v ) i \mu(v)_i μ(v)i σ ( v ) i \sigma(v)_i σ(v)i分别表示潜在空间中视觉特征分布的均值和标准差, μ ( a ) i \mu(a)_i μ(a)i σ ( a ) i \sigma(a)_i σ(a)i分别表示潜在空间中语义表示分布的均值和标准差。

多类别分布分散(MCDD)

正如我们之前提到的,遥感图像场景具有显著的类间相似性特征,这对分类任务非常不利。为此,我们增加了约束条件,使潜在空间中不同类别的分布更加分散,多类别分布分散的损失函数可以由公式(7)定义。

在这里插入图片描述

其中 V = [ μ ( a ) 1 , μ ( a ) 2 , . . . , μ ( a ) N ] ∈ R d × N [ \mu(a)_1, \mu(a)_2, ..., \mu(a)_N ] \in \mathbb{R}^{d \times N} [μ(a)1,μ(a)2,...,μ(a)N]Rd×N,H = ( N ⋅ P − W ) / N (N \cdot P - W) / N (NPW)/N,P ∈ R N × N \mathbb{R}^{N \times N} RN×N表示单位矩阵,W ∈ R N × N \mathbb{R}^{N \times N} RN×N表示所有元素都等于1的矩阵,I ∈ R d × d \mathbb{R}^{d \times d} Rd×d是单位矩阵。

实验

N × N N \times N N×N表示单位矩阵, W ∈ R N × N W ∈\mathbb{R}^{N \times N} WRN×N表示所有元素都等于1的矩阵, I ∈ R d × d I ∈\mathbb{R}^{d \times d} IRd×d是单位矩阵。

实验

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1940857.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Git-驯化】手把手搭建Mac电脑中git环境配置以及连接github仓库

【Git-驯化】手把手搭建Mac电脑中git环境配置以及连接github仓库 本次修炼方法请往下查看 🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地! 🎇 免费获取相关内容文档关…

【Linux】HTTP 协议

目录 1. URL2. HTTP 协议2.1. HTTP 请求2.2. HTTP 响应 1. URL URL 表示着是统一资源定位符(Uniform Resource Locator), 就是 web 地址,俗称“网址”; 每个有效的 URL 可以通过互联网访问唯一的资源, 是互联网上标准资源的地址; URL 的主要由四个部分组成: sche…

【MySQL-17】存储过程-[变量篇]详解-(系统变量&用户定义变量&局部变量)

前言 大家好吖,欢迎来到 YY 滴MySQL系列 ,热烈欢迎! 本章主要内容面向接触过C的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! YY的《C》专栏YY的《C11》专栏YY的《Lin…

Pytorch使用前期准备

一、检查英伟达驱动和CUDA Toolkit是否正确安装 1.任务管理器性能选项卡中能正确显示显卡型号则表示显卡驱动正确安装 2. CUDA Toolkit会跟随pytorch自动安装 二、虚拟环境的准备 Miniconda — Anaconda documentationhttps://docs.anaconda.com/miniconda/ 1.安装anaconda或者…

Linux实用操作三

文章目录 Linux实用操作三网络传输ping命令介绍:示例: wget命令介绍:示例: curl命令介绍:示例: 端口介绍:端口的划分:查看端口占用: 进程管理进程介绍:查看进…

二十一、【机器学习】【非监督学习】- 谱聚类 (Spectral Clustering)​​

系列文章目录 第一章 【机器学习】初识机器学习 第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression) 第三章 【机器学习】【监督学习】- 支持向量机 (SVM) 第四章【机器学习】【监督学习】- K-近邻算法 (K-NN) 第五章【机器学习】【监督学习】- 决策树…

转置卷积方法

一、定义 1、卷积神经网络层通常会减少(或保持不变)采样输入图像的空间维度(高和宽),另一种类型的卷积神经网络层,它可以增加上采样中间层特征图的空间维度, 用于逆转下采样导致的空间尺寸减小…

StringBuilder, Stringbuffer,StringJoiner

StringBuilder StringBuilder 代表可变字符串对象,相当于是一个容器,里面装的字符串是可以改变的,就是用来操作字符串的。 StringBuilder 比String更适合做字符串的修改操作,效率更高,代码更加的简洁。 public clas…

职升网:咨询工程师考试科目难不难?

咨询工程师考试包含四个科目,它们分别是《宏观经济政策与发展规划》、《工程项目组织与管理》、《项目决策分析与评价》以及《现代咨询方法与实务》。每个科目都有其独特的难度和特点。 《宏观经济政策与发展规划》:这一科目被认为是备考中相对容易的科…

ubuntu20.04支持win10远程桌面连接

1. 安装xrdp sudo apt install xrdp 2. 检查xrdp状态 sudo systemctl status xrdp 要处于running状态 3.(若为Ubuntu 20)添加xrdp至ssl-cert sudo adduser xrdp ssl-cert 4. 重启服务 sudo systemctl restart xrdp 5. window 远程桌面连接&am…

AVL树超详解上

前言 学习过了二叉树以及二叉搜索树后(不了解二叉搜索树的朋友可以先看看这篇博客,二叉搜索树详解-CSDN博客),我们在一般情况下对于二叉搜索树的插入与查询时间复杂度都是O(lgN),是十分快的,但是在一些特殊…

太速科技-基于XCVU9P+ C6678的8T8R的无线MIMO平台

基于XCVU9P C6678的8T8R的无线MIMO平台 一、板卡概述 板卡基于TI TMS320C6678 DSP和XCVU9P高性能FPGA,FPGA接入4片AD9361 无线射频,构建8输入8输出的无线MIMO平台,丰富的FPGA资源和8核DSP为算法验证和信号处理提供强大能力。 二…

有人泼冷水:为什么AI基础设施创业如此艰难?

最近,Adept AI 宣布被亚马逊收购,这印证了 JOHN HWANG(前 AWS 生成式 AI 架构师,摩根士丹利交易主管)对未来的判断。于是他写了这篇文章,表达了对 AI 基础设施这个领域创业的隐忧。认为“AI 基础设施创业公…

有观点认为NVIDIA中国特供GPU H20也将面临禁售

为了能将GPU卖给中国市场,NVIDIA一直在魔改各种特供版,但是每每遭遇美国政府加码,随时都会被再次禁售,H20又要面临同样的命运。NVIDIA H20只配备了78组SM单元,相当于H100 SXM版本的六成、PCIe 5.0版本的接近七成&#…

在qt的c++程序嵌入一个qml窗口

//拖拽一个QQuickWidget c端和qml通信的桥梁 找到qml的main.qml的路径 ui->quickWidget->setSource(QUrl::fromLocalFile("../../../code/main.qml"));// QML 与 Qt Widgets 通信//窗口就成了一个类实例对象pRoot (QObject*)ui->quickWidget->rootObje…

centos8 一键安装nginx指定版本

centos 8 的源里面已经有nginx,支持命令直接安装 dnf install nginx -y但默认安装 1.14 版本,版本较老,存在安全问题。在官网找到指定版本rpm包,可直接安装 http://nginx.org/packages/centos/8/x86_64/RPMS/这里选择1.18&#…

python—爬虫爬取视频样例

下面是一个使用Python爬虫爬取视频的基本例子。创建一个Python爬虫来爬取视频通常涉及到几个步骤:发送HTTP请求、解析网页内容、提取视频链接、下载视频文件。 import jsonimport requests from lxml import etreeif __name__ __main__:# UA伪装head {"User…

一款国外开发的高质量WordPress下载站模板主题

5play下载站是由国外站长开发的一款WordPress主题,主题简约大方,为v1.8版本, 该主题模板中包含了上千个应用,登录后台以后只需要简单的三个步骤就可以轻松发布apk文章, 我们只需要在WordPress后台中导入该主题就可以…

《简历宝典》17 - 简历中“技术能力”,如何丰满且有层次,前端篇

这一节开始对技术能力模块做讲解,我们身边的这些互联网IT从业者们,前端开发、Java开发、软件测试又或者是其他职位的开发者们,技术能力这个模块是绕不过去的,从简历上看,这个模块体现了我们之前软件工作生涯中的技术功…

二、C#数据类型

本文是网页版《C# 12.0 本质论》第二章解读。欲完整跟踪本系列文章,请关注并订阅我的Essential C# 12.0解读专栏。 前言 数据类型(Data Type)是一个很恼人的话题。 似乎根本没必要对数据类型进行展开讲解,因为人人都懂。 但是…