相似性图相关性重构网络用于无监督跨模态哈希

news2025/2/13 10:37:38

《Similarity Graph-correlation Reconstruction Network for unsupervised cross-modal hashing》

  • 摘要
  • 1. 引言
  • 2. 相关工作
    • 2.1. 监督跨模态哈希方法
    • 2.2. 无监督跨模态哈希方法
  • 3. 方法论
    • 3.1 问题定义
    • 3.2 特征提取
    • 3.3 模态内关系图构建
    • 3.4. 局部关系图重置
    • 3.5. 跨模态关系图构建
    • 3.6 全局关系图构建
    • 3.7 训练目标
  • 4. 框图介绍

摘要

      现有的跨模态哈希检索方法可以同时提高检索速度和减少存储空间。然而,这些方法在确定两种模态之间的相似性度量时面临一个主要挑战。具体来说,模态内和模态间的相似性测量准确性不足,模态间的巨大差异导致语义偏差。在本文中,我们提出了一种相似性图相关性重构网络(SGRN)用于无监督跨模态哈希。特别地,局部关系图重置模块用于过滤掉相似性弱的图节点并将相似性强的图节点关联起来,从而得到细粒度的模态内相似关系图全局关系图重构模块进一步增强跨模态相关性并模态间实现细粒度的相似性对齐。此外,为了弥合模态间的差距,我们结合了实值和哈希特征的相似性表示来设计模态内和模态间的训练策略。SGRN在两个跨模态检索数据集上进行了广泛的实验,实验结果有效地验证了所提方法的优越性,并显著提高了检索性能。

“细粒度”
图像和视觉分析中的细粒度:在图像处理中,高细粒度图像包含更多的像素,因此可以显示更多的细节。在特征提取中,细粒度特征可能捕捉到更具体的图像局部变化
相似性分析中的细粒度:在相似性分析或关系图构建中,细粒度可能指的是相似性计算的精确程度。例如,在跨模态检索中,细粒度相似性对齐可能意味着能够捕捉到更细微的相似性差异,从而提供更精确的检索结果

1. 引言

      随着互联网上数据的持续扩展,用户的检索需求增加,导致检索技术的演变。大量研究兴趣致力于跨模态检索,它努力利用一种模态作为查询从另一种模态检索相关数据并探索来自各种模态的数据之间的联系。随着信息技术的进步和多媒体数据的激增,跨模态检索的效率和准确性变得越来越重要。与广泛使用的实例公共空间方法相比,跨模态哈希检索方法 可以提高跨模态检索的速度,减少存储空间,并在保持准确性在一个可控范围内的同时大大提高检索效率,从而在准确性和效率之间实现更好的平衡。跨模态哈希检索方法的基本概念是将跨模态数据映射到一个共同的汉明空间,获得相似的跨模态内容以及相似的二进制哈希代码,并保留模态内和模态间的相似性。跨模态哈希方法可以分为监督和无监督方法。监督方法需要手动标注的语义标签。在现实世界场景中,数据通常是未标记的,标记数据集非常有限。为了获得大规模多模态数据的标签,需要手动标注大量集合,这是耗时的、劳动密集型的,并且成本高昂。尽管监督方法可以实现更好的检索性能,但无监督方法更为实用无监督方法主要依赖于异构数据的共存来指导哈希代码学习。许多方法正在解决异构数据共存的一些问题。与通过语义标签学习更一致的哈希代码以获得语义相关的跨模态数据的监督方法相比,无监督方法有效地降低了计算成本。在本文中,我们专注于无监督跨模态哈希方法

2. 相关工作

2.1. 监督跨模态哈希方法

      一些监督方法使用标签信息结合语义关系来获取有效的哈希码。SDDH 对矩阵施加正交性和平衡约束,并将其嵌入哈希码中,以更好地捕获同类的相似性信息。QDCMH 提出了一种构建二次损失函数的方法。该方法将它们与表示学习和哈希码结合,以有效捕获异构跨模态相似性。NSDH 构建了一个语义标签矩阵,并结合相似性信息来增强哈希码的语义信息。最终获得了更具辨识力的哈希码。MSLF 使用标签生成不同模态的共同属性,并以较低的计算成本获得哈希码。OLCH 提出了一个在线语义表示的学习框架,以有效处理大规模和流数据。学习数据增量的哈希码,以流式方式更新哈希函数,并最终优化哈希函数。

2.2. 无监督跨模态哈希方法

      一些无监督方法专注于计算特征之间的相似性,使用相似性度量作为优化目标。DGCPN 构建检索数据作为静态全局KNN图,计算两个节点之间的相似性概率,并获取图邻居一致性。该方法通过组合损失提高相似性的准确性。构建的相似性矩阵进一步由HNH分析,从而在模态间产生高阶相似性矩阵。在此基础上引入了基于不同模态的共同表示,以减轻模态间的差异。SRCH 首先在模态内生成几何和语义图,然后应用哈希码重新定义图中的边。该方法使用哈希自编码器来维护和量化模态间的相似性。IRGR 使用KNN方法构建全局和局部相似性关系图。该方法基于图推理获得有效的相似性信息,并提出逐步训练策略以减少语义损失。DJSRH 构建实例之间的联合相似性矩阵。然而,这种方法也整合了无意义的对齐信息,造成数据冗余。在DJSRH 的基础上,DSAH 和 JDSH 更加充分利用语义相似性。DSAH 在原始特征和它们的哈希码之间实现相似性对齐。JDSH 生成辨别力哈希码,将语义相似的实例对推得更近。DGCPN 基于数据集构建静态全局KNN图,并提出新的相似性表示,但对局部的考虑不完整。HNH 考虑局部和非局部情况,并构建更高阶的相似性矩阵。然而,对模态内相似性信息的考虑不够细致,未能获得更细粒度的相似性信息。
      一些现有方法的问题需要进一步考虑。
      首先,由余弦函数表示的相似性只能捕获实例间一定程度的相关性。生成的相似性矩阵只考虑了一组实例中的成对关系,忽略了邻域关系,这将导致矩阵的准确性不足并产生无意义的相似性信息。尽管我们可以通过余弦函数计算模态内和模态间的相似性,但获得的相似性信息不够准确。因此,如何处理模态内和模态间的相似性信息尤为重要。一些方法使用关系图来表示相似性矩阵。图中的每个节点代表相似性矩阵中的每个实例,图中每条边的权重代表通过边连接的实例之间的相似性,对应于矩阵的值。第二个问题是构建相似性关系图的局限性。在构建关系图时,一些方法忽略了节点与其多个邻居之间的关系。它们大多只考虑节点对。这可能导致构建的关系图没有考虑到更全面相似性信息。最后一点是现有方法在构建两个模态之间的全局关系图时可能忽略了局部有用的信息。局部有用的相似性信息包括模态内和模态间的相关性信息,可以实现模态间细粒度的对齐并有效提高检索性能。
      为了解决上述问题,我们提出了一种无监督跨模态哈希的相似性图相关性重构网络(SGRN),以促进高效的跨模态检索。本文的主要贡献如下:
      我们提出了一种局部关系图重置(Local Relation Graph Rebasing, LRGR)模块。我们用局部关系图表示相似性,以弥补余弦函数只能捕获实例间一定程度相似性的问题以及现有方法忽略图节点邻域节点的问题。最终,我们获得了展现细粒度相似性的模态内关系图。我们提出的局部关系图重置(LRGR)模块的示意图如图1所示。
      通过本文提出的全局关系图重构(Global Relation Graph Reconstruction, GRGR)模块,我们重建的跨模态相似性关系图考虑了局部有用的相似性信息实现了模态间细粒度的对齐,并获得了更有价值的相似性信息。
      我们设计了一种结合模态内和模态间的训练策略。我们根据模态内损失和模态间损失分别训练模块,这有效地统一了相似性信息并缓解了异构数据共存问题。
      我们使用三个广泛使用的图像和文本检索数据集进行了全面实验,以验证SGRN显著提高了检索性能。我们的方法在MAP评估指标方面总体最优,我们的top-K精度曲线结果优于类似的最新无监督跨模态哈希检索方法。

3. 方法论

      图2展示了SGRN的框架,该框架可以通过特征提取获得深度语义特征。在本文中,我们采用预训练的AlexNet来提取图像特征,并使用词袋(BOW)模型来提取文本特征。随后根据DJSRH,我们对特征进行编码以获得隐藏层,并采𝑡𝑎𝑛ℎ(⋅)函数生成严格的二进制哈希码。此外,我们为原始特征和哈希特征构建了单独的相似性矩阵基于原始特征,我们的方法首先通过KNN方法构建模态内相似性关系图,然后局部关系图重置(LRGR)模块重构关系图以获得细粒度的模态内关系图。下一步是将模态内关系图结合起来获得两个模态之间的联合相似图,并通过全局关系图重构(GRGR)模块重构跨模态相似性关系图的相似性表示。最后,我们提出了一种结合模态内和模态间的训练策略来训练关系图和哈希特征的相似性矩阵以计算损失函数

3.1 问题定义

在这里插入图片描述

3.2 特征提取

在这里插入图片描述

3.3 模态内关系图构建

在这里插入图片描述

3.4. 局部关系图重置

在这里插入图片描述

3.5. 跨模态关系图构建

在这里插入图片描述
在这里插入图片描述

3.6 全局关系图构建

在这里插入图片描述

3.7 训练目标

在这里插入图片描述

4. 框图介绍

在这里插入图片描述

SGRN模型流程图:

      特征提取(Feature Extraction)

      图像特征(Image Features)和文本特征(Text Features)分别通过各自的特征提取网络进行提取。对于图像,使用预训练的AlexNet模型;对于文本,使用词袋(Bag-of-Words, BOW)模型。
      提取原始特征 𝐹𝐼 和 𝐹𝑇 ​ 通过K最近邻(KNN)算法构建局部关系图。

      局部关系图重置(Local Relation Graph Rebasing, LRGR)

      对于图像和文本模态,使用KNN算法分别构建局部关系图
      局部关系图重置模块(LRGR)通过门控机制(gating mechanism)过滤掉相似性较少的节点,保留相似性较强的节点,从而获得细粒度的局部关系图
      为视觉关系图和文本关系图分别生成门控掩码(Mask),通过sigmoid函数计算得到。

      全局关系图重构(Global Relation Graph Reconstruction, GRGR)

      将图像和文本模态的局部关系图结合,获得联合相似图
      全局关系图重构模块(GRGRGR)进一步优化跨模态相似性表示,通过增强权重掩码(enhanced weight)来整合两种模态的信息。
      计算图像到文本和文本到图像的跨模态相似性表示 𝑆𝐼,𝑇 和 𝑆𝑇,𝐼。

      相似性对齐(Alignment):

      对于图像和文本模态,分别计算二进制哈希码相似矩阵 BI​ 和 BT​。
      通过相似性对齐策略,减少两种模态之间的语义差距。

      连接(Concat):

      将图像和文本模态的相似性矩阵连接起来,形成联合跨模态相似性矩阵 S。

      训练目标(Training Objectives)

      结合模态内和模态间数据训练,分别计算模态内和模态间的损失。
      计算图像和文本模态的二进制哈希码相似矩阵。
      在每个模态内,执行哈希特征与实值特征的语义对齐。
      计算联合跨模态关系图相似性信息与跨模态哈希特征相似性信息之间的误差。
      通过上述步骤,SGRN模型能够有效地整合图像和文本模态的相似性信息,并通过全局关系图重构模块(GRGR)获得细粒度的相似性对齐,从而减少语义差距。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2297302.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

问卷数据分析|SPSS实操之单因素方差分析

适用条件: 检验分类变量和定量变量之间的差异 分类变量数量要大于等于三 具体操作: 1.选择分析--比较平均值--单因素ANOVA检验 2. 下方填分类变量,上方为各个量表数据Z1-Y2 3. 点击选项,选择描述和方差齐性检验 4.此处为结果数…

更加通用的Hexo多端部署原理及实现,适用于各种系统之间

本文推荐在作者的个人博客网站阅读:shenying.online 一、故事背景 故事发生在大学上学期间(而不是寒假)。上学期间,宿舍条件极其恶劣,半夜断电、空间狭小。我们大学垃圾条件使用游戏本的种种弊端被无限放大&#xff1…

5g基站测试要求和关键点

5G基站的测试要求涉及多个方面,以确保其性能、覆盖能力、稳定性和合规性。以下是5G基站测试的主要要求和关键点: 一、基础性能测试 射频(RF)性能测试 发射机性能:验证基站的发射功率、频率误差、调制质量(E…

算法——搜索算法:原理、类型与实战应用

搜索算法:开启高效信息检索的钥匙 在信息爆炸的时代,搜索算法无疑是计算机科学领域中熠熠生辉的存在,它就像一把神奇的钥匙,为我们打开了高效信息检索的大门。无论是在日常生活中,还是在专业的工作场景里,…

【嵌入式Linux应用开发基础】open函数与close函数

目录 一、open函数 1.1. 函数原型 1.2 参数说明 1.3 返回值 1.4. 示例代码 二、close函数 2.1. 函数原型 2.2. 示例代码 三、关键注意事项 3.1. 资源管理与泄漏防范 3.2. 错误处理的严谨性 3.3. 标志(flags)与权限(mode&#xff…

在实体机和wsl2中安装docker、使用GPU

正常使用docker和gpu,直接命令行安装dcoker和,nvidia-container-toolkit。区别在于,后者在于安装驱动已经cuda加速时存在系统上的差异。 1、安装gpu驱动 在实体机中,安装cuda加速包,我们直接安装 driver 和 cuda 即可…

Unity3D实现显示模型线框(shader)

系列文章目录 unity工具 文章目录 系列文章目录👉前言👉一、效果展示👉二、第一种方式👉二、第二种方式👉壁纸分享👉总结👉前言 在 Unity 中显示物体线框主要基于图形渲染管线和特定的渲染模式。 要显示物体的线框,通常有两种常见的方法:一种是利用内置的渲染…

VAD端到端系列梳理以及阅读

0. 简介 最近VAD v2论文出来了,又掀起了一波该系列模型的热点。我们先看一下蒋博的文章,然后再来看一下《VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning》这篇文章,代码目前还没开源,可以期待一波…

在vmd中如何渲染透明水分子

1.设置背景为白色 依次点击Graphics>>Colors... 2. 改变渲染模式 依次点击Display>>rendermode>>GLSL 3. 渲染水分子 选中水分子,显色方式改为ColorID, 编号10的颜色; 选择材质为GlassBubble; 绘图方式为QuickSurf. 若水盒子显示效…

MybatisPlus常用增删改查

记录下MybatisPlus的简单的增删改查 接口概述 Service和Mapper区别 Mapper简化了单表的sql操作步骤(CRUD),而Serivce则是对Mapper的功能增强。 Service虽然加入了数据库的操作,但还是以业务功能为主,而更加复杂的SQL…

常用电路(过压保护、电流/电压采集)

过压保护电路 输入电压使用电源(36V)或者typec(20V),需要过压保护电路处理输入再连接到CH224K,保证输入不高于最大获取电压20V MOS管导通条件为栅源极有压差,一般为5-10V 三极管导通条件为基极…

干部监督系统“三色”预警的构建与应用

在新时代背景下,强化干部监督、提升管理水平已成为推动国家治理体系和治理能力现代化的关键一环。干部监督系统“三色”预警机制作为一种创新的管理工具,通过智能化、可视化的手段,实现了对干部行为的高效管理。本文将详细探讨干部监督系统“…

Zabbix-Trigger中的time函数坑

问题描述 由于功能需求&#xff0c;需要限制trigger的报警时间&#xff0c;所以加了如下的报警限制 and (time()>010000 and time()<045959)但是事与愿违&#xff0c;报警的时间总是对不上 但是&#xff0c;Zabbix设置的时区就是北京时间&#xff0c;应该是没有问题的…

9 数据流图

9 数据流图 9.1数据平衡原则 子图缺少处理后的数据操作结果返回前端应用以及后端数据库返回操作结果到数据管理中间件。 9.2解题技巧 实件名 存储名 加工名 数据流

python项目相关

遇到的问题 解决 Python 模块导入路径问题 问题描述 在运行 Python 文件时&#xff0c;可能会遇到以下错误&#xff1a; ModuleNotFoundError: No module named utils原因&#xff1a; Python 的模块导入机制依赖于当前工作目录和 sys.path 中的路径。当直接运行某个文件时…

基于轨道角动量自由度在空间频域中的可选择特性

将光的轨道角动量自由度应用到全息领域&#xff0c;证实了轨道角动量全息&#xff1b;实现了高维轨道角动量复用全息技术&#xff0c;获得了高安全的全息加密和超高容量全息信息系统。 1、轨道角动量自由度在全息中的引入 如图1所示&#xff0c;当全息图中没有携带轨道角动量的…

机器人学的AGI实现路径:从专用智能到通用认知的跨越

文章目录 引言:机器人学的范式革命一、AGI与机器人学的融合现状1.1 传统机器人系统的局限1.2 AGI技术为机器人学带来的变革1.3 关键里程碑案例二、AGI机器人的核心技术栈2.1 多模态感知融合2.2 认知架构设计2.3 具身认知实现路径三、AGI机器人的实现路径3.1 阶段式发展路线3.2…

香港中文大学 Adobe 推出 MotionCanvas:开启用户掌控的电影级图像视频创意之旅。

简介&#xff1a; 亮点直击 将电影镜头设计引入图像到视频的合成过程中。 推出了MotionCanvas&#xff0c;这是一种简化的视频合成系统&#xff0c;用于电影镜头设计&#xff0c;提供整体运动控制&#xff0c;以场景感知的方式联合操控相机和对象的运动。 设计了专门的运动条…

基于STM32的学习环境控制系统设计

&#x1f91e;&#x1f91e;大家好&#xff0c;这里是5132单片机毕设设计项目分享&#xff0c;今天给大家分享的是学习环境控制。 设备的详细功能见网盘中的文章《21、基于STM32的学习环境控制系统设计》&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1uWSZX2zbZwy9sY…

snort3.0-ubuntu18.04 64入侵检测安装与使用ailx10ailx10​​知乎知识会员

在日常生活中&#xff0c;很多人怀疑自己的手机、电脑被监控了&#xff0c;担心自己的隐私泄漏&#xff0c;实际上最佳的检测方式就是终端检测&#xff0c;也就是EDR&#xff0c;但是就是有那么多的人在网上大放厥词&#xff0c;说任何EDR杀毒软件都检测不到监控&#xff0c;毕…