《Similarity Graph-correlation Reconstruction Network for unsupervised cross-modal hashing》
- 摘要
- 1. 引言
- 2. 相关工作
- 2.1. 监督跨模态哈希方法
- 2.2. 无监督跨模态哈希方法
- 3. 方法论
- 3.1 问题定义
- 3.2 特征提取
- 3.3 模态内关系图构建
- 3.4. 局部关系图重置
- 3.5. 跨模态关系图构建
- 3.6 全局关系图构建
- 3.7 训练目标
- 4. 框图介绍
摘要
现有的跨模态哈希检索方法可以同时提高检索速度和减少存储空间。然而,这些方法在确定两种模态之间的相似性度量时面临一个主要挑战。具体来说,模态内和模态间的相似性测量准确性不足,模态间的巨大差异导致语义偏差。在本文中,我们提出了一种相似性图相关性重构网络(SGRN)用于无监督跨模态哈希。特别地,局部关系图重置模块用于过滤掉相似性弱的图节点并将相似性强的图节点关联起来,从而得到细粒度的模态内相似关系图。全局关系图重构模块进一步增强跨模态相关性并在模态间实现细粒度的相似性对齐。此外,为了弥合模态间的差距,我们结合了实值和哈希特征的相似性表示来设计模态内和模态间的训练策略。SGRN在两个跨模态检索数据集上进行了广泛的实验,实验结果有效地验证了所提方法的优越性,并显著提高了检索性能。
“细粒度”:
图像和视觉分析中的细粒度:在图像处理中,高细粒度图像包含更多的像素,因此可以显示更多的细节。在特征提取中,细粒度特征可能捕捉到更具体的图像局部变化。
相似性分析中的细粒度:在相似性分析或关系图构建中,细粒度可能指的是相似性计算的精确程度。例如,在跨模态检索中,细粒度相似性对齐可能意味着能够捕捉到更细微的相似性差异,从而提供更精确的检索结果。
1. 引言
随着互联网上数据的持续扩展,用户的检索需求增加,导致检索技术的演变。大量研究兴趣致力于跨模态检索,它努力利用一种模态作为查询从另一种模态检索相关数据并探索来自各种模态的数据之间的联系。随着信息技术的进步和多媒体数据的激增,跨模态检索的效率和准确性变得越来越重要。与广泛使用的实例公共空间方法相比,跨模态哈希检索方法 可以提高跨模态检索的速度,减少存储空间,并在保持准确性在一个可控范围内的同时大大提高检索效率,从而在准确性和效率之间实现更好的平衡。跨模态哈希检索方法的基本概念是将跨模态数据映射到一个共同的汉明空间,获得相似的跨模态内容以及相似的二进制哈希代码,并保留模态内和模态间的相似性。跨模态哈希方法可以分为监督和无监督方法。监督方法需要手动标注的语义标签。在现实世界场景中,数据通常是未标记的,标记数据集非常有限。为了获得大规模多模态数据的标签,需要手动标注大量集合,这是耗时的、劳动密集型的,并且成本高昂。尽管监督方法可以实现更好的检索性能,但无监督方法更为实用。无监督方法主要依赖于异构数据的共存来指导哈希代码学习。许多方法正在解决异构数据共存的一些问题。与通过语义标签学习更一致的哈希代码以获得语义相关的跨模态数据的监督方法相比,无监督方法有效地降低了计算成本。在本文中,我们专注于无监督跨模态哈希方法。
2. 相关工作
2.1. 监督跨模态哈希方法
一些监督方法使用标签信息结合语义关系来获取有效的哈希码。SDDH 对矩阵施加正交性和平衡约束,并将其嵌入哈希码中,以更好地捕获同类的相似性信息。QDCMH 提出了一种构建二次损失函数的方法。该方法将它们与表示学习和哈希码结合,以有效捕获异构跨模态相似性。NSDH 构建了一个语义标签矩阵,并结合相似性信息来增强哈希码的语义信息。最终获得了更具辨识力的哈希码。MSLF 使用标签生成不同模态的共同属性,并以较低的计算成本获得哈希码。OLCH 提出了一个在线语义表示的学习框架,以有效处理大规模和流数据。学习数据增量的哈希码,以流式方式更新哈希函数,并最终优化哈希函数。
2.2. 无监督跨模态哈希方法
一些无监督方法专注于计算特征之间的相似性,使用相似性度量作为优化目标。DGCPN 构建检索数据作为静态全局KNN图,计算两个节点之间的相似性概率,并获取图邻居一致性。该方法通过组合损失提高相似性的准确性。构建的相似性矩阵进一步由HNH分析,从而在模态间产生高阶相似性矩阵。在此基础上引入了基于不同模态的共同表示,以减轻模态间的差异。SRCH 首先在模态内生成几何和语义图,然后应用哈希码重新定义图中的边。该方法使用哈希自编码器来维护和量化模态间的相似性。IRGR 使用KNN方法构建全局和局部相似性关系图。该方法基于图推理获得有效的相似性信息,并提出逐步训练策略以减少语义损失。DJSRH 构建实例之间的联合相似性矩阵。然而,这种方法也整合了无意义的对齐信息,造成数据冗余。在DJSRH 的基础上,DSAH 和 JDSH 更加充分利用语义相似性。DSAH 在原始特征和它们的哈希码之间实现相似性对齐。JDSH 生成辨别力哈希码,将语义相似的实例对推得更近。DGCPN 基于数据集构建静态全局KNN图,并提出新的相似性表示,但对局部的考虑不完整。HNH 考虑局部和非局部情况,并构建更高阶的相似性矩阵。然而,对模态内相似性信息的考虑不够细致,未能获得更细粒度的相似性信息。
一些现有方法的问题需要进一步考虑。
首先,由余弦函数表示的相似性只能捕获实例间一定程度的相关性。生成的相似性矩阵只考虑了一组实例中的成对关系,忽略了邻域关系,这将导致矩阵的准确性不足并产生无意义的相似性信息。尽管我们可以通过余弦函数计算模态内和模态间的相似性,但获得的相似性信息不够准确。因此,如何处理模态内和模态间的相似性信息尤为重要。一些方法使用关系图来表示相似性矩阵。图中的每个节点代表相似性矩阵中的每个实例,图中每条边的权重代表通过边连接的实例之间的相似性,对应于矩阵的值。第二个问题是构建相似性关系图的局限性。在构建关系图时,一些方法忽略了节点与其多个邻居之间的关系。它们大多只考虑节点对。这可能导致构建的关系图没有考虑到更全面相似性信息。最后一点是现有方法在构建两个模态之间的全局关系图时可能忽略了局部有用的信息。局部有用的相似性信息包括模态内和模态间的相关性信息,可以实现模态间细粒度的对齐并有效提高检索性能。
为了解决上述问题,我们提出了一种无监督跨模态哈希的相似性图相关性重构网络(SGRN),以促进高效的跨模态检索。本文的主要贡献如下:
我们提出了一种局部关系图重置(Local Relation Graph Rebasing, LRGR)模块。我们用局部关系图表示相似性,以弥补余弦函数只能捕获实例间一定程度相似性的问题以及现有方法忽略图节点邻域节点的问题。最终,我们获得了展现细粒度相似性的模态内关系图。我们提出的局部关系图重置(LRGR)模块的示意图如图1所示。
通过本文提出的全局关系图重构(Global Relation Graph Reconstruction, GRGR)模块,我们重建的跨模态相似性关系图考虑了局部有用的相似性信息。实现了模态间细粒度的对齐,并获得了更有价值的相似性信息。
我们设计了一种结合模态内和模态间的训练策略。我们根据模态内损失和模态间损失分别训练模块,这有效地统一了相似性信息并缓解了异构数据共存问题。
我们使用三个广泛使用的图像和文本检索数据集进行了全面实验,以验证SGRN显著提高了检索性能。我们的方法在MAP评估指标方面总体最优,我们的top-K精度曲线结果优于类似的最新无监督跨模态哈希检索方法。
3. 方法论
图2展示了SGRN的框架,该框架可以通过特征提取获得深度语义特征。在本文中,我们采用预训练的AlexNet来提取图像特征,并使用词袋(BOW)模型来提取文本特征。随后根据DJSRH,我们对特征进行编码以获得隐藏层,并采𝑡𝑎𝑛ℎ(⋅)函数生成严格的二进制哈希码。此外,我们为原始特征和哈希特征构建了单独的相似性矩阵。基于原始特征,我们的方法首先通过KNN方法构建模态内相似性关系图,然后局部关系图重置(LRGR)模块重构关系图以获得细粒度的模态内关系图。下一步是将模态内关系图结合起来获得两个模态之间的联合相似图,并通过全局关系图重构(GRGR)模块重构跨模态相似性关系图的相似性表示。最后,我们提出了一种结合模态内和模态间的训练策略来训练关系图和哈希特征的相似性矩阵以计算损失函数。
3.1 问题定义
3.2 特征提取
3.3 模态内关系图构建
3.4. 局部关系图重置
3.5. 跨模态关系图构建
3.6 全局关系图构建
3.7 训练目标
4. 框图介绍
SGRN模型流程图:
特征提取(Feature Extraction):
图像特征(Image Features)和文本特征(Text Features)分别通过各自的特征提取网络进行提取。对于图像,使用预训练的AlexNet模型;对于文本,使用词袋(Bag-of-Words, BOW)模型。
提取原始特征 𝐹𝐼 和 𝐹𝑇 通过K最近邻(KNN)算法构建局部关系图。
局部关系图重置(Local Relation Graph Rebasing, LRGR):
对于图像和文本模态,使用KNN算法分别构建局部关系图。
局部关系图重置模块(LRGR)通过门控机制(gating mechanism)过滤掉相似性较少的节点,保留相似性较强的节点,从而获得细粒度的局部关系图。
为视觉关系图和文本关系图分别生成门控掩码(Mask),通过sigmoid函数计算得到。
全局关系图重构(Global Relation Graph Reconstruction, GRGR):
将图像和文本模态的局部关系图结合,获得联合相似图。
全局关系图重构模块(GRGRGR)进一步优化跨模态相似性表示,通过增强权重掩码(enhanced weight)来整合两种模态的信息。
计算图像到文本和文本到图像的跨模态相似性表示 𝑆𝐼,𝑇 和 𝑆𝑇,𝐼。
相似性对齐(Alignment):
对于图像和文本模态,分别计算二进制哈希码相似矩阵 BI 和 BT。
通过相似性对齐策略,减少两种模态之间的语义差距。
连接(Concat):
将图像和文本模态的相似性矩阵连接起来,形成联合跨模态相似性矩阵 S。
训练目标(Training Objectives):
结合模态内和模态间数据训练,分别计算模态内和模态间的损失。
计算图像和文本模态的二进制哈希码相似矩阵。
在每个模态内,执行哈希特征与实值特征的语义对齐。
计算联合跨模态关系图相似性信息与跨模态哈希特征相似性信息之间的误差。
通过上述步骤,SGRN模型能够有效地整合图像和文本模态的相似性信息,并通过全局关系图重构模块(GRGR)获得细粒度的相似性对齐,从而减少语义差距。