Cross-Modality Person Re-identification with Memory-Based Contrastive Embedding

news2025/1/24 22:30:10

文章目录

- 题目：Cross-Modality Person Re-identification with Memory-Based Contrastive Embedding（基于记忆对比嵌入的跨模态人物再识别）
- 摘要
- 论文分析
- - 网络框架
  - 1、Problem Definition（模态预处理）
  - 2、Learning Modality-Aware and Modality-Agnostic Proxies（学习模态感知和模态不可知代理）
  - 3、Cross-Modality Mutual Information（模态互消息）
  - 4、Global Modality-Agnostic Cluster Contrast（全局模态不可知聚类对比）
  - 5、Overall Objective Function
- 实验结果

题目：Cross-Modality Person Re-identification with Memory-Based Contrastive Embedding（基于记忆对比嵌入的跨模态人物再识别）

期刊合集：最近五年，包含顶刊，顶会，学报>>网址

摘要

由于模态之间存在差异，VI-ReID 变得更具挑战性，即阶层间的混乱（模态之间）和阶层内的变化（如姿势、视点、光照、背景聚类、遮挡等)。作者提出 基于聚合记忆的跨模态深度度量学习 框架，该框架受益于越来越多的学习模态感知和模态不可知的质心代理，用于聚类对比和互信息学习。此外，为了抑制模态差异，同时利用历史和最新学习的聚类代理来增强跨模态关联。这种训练机制通过增加学习到的聚类代理的多样性来获得硬正参考，最终实现跨模态图像特征之间更强的“拉紧”效果。

论文分析

网络框架

在这里插入图片描述

1、Problem Definition（模态预处理）

这都是常规操作：① 在这里插入图片描述代表可见光和红外模态的图像，表示可见和红外全部图像数，对应相应的真实标签（ground-truth）。

任务： 给定某一模态的查询人物图像，跨模态人物ReID任务的目的是根据学习到的图像特征相似度，检索具有相同身份的另一模态的行人图像。

② 在这里插入图片描述作为对应可见光图像的第 i 个提取特征。

CNN 架构由基于记忆的模态感知和模态不可知聚类对比目标、跨模态互信息约束和全局模态不可知聚类对比目标共同优化。

③ 文章还利用通道增强策略进行数据增强，通过随机 交换可见光 图像的颜色通道生成新的辅助模态（看这篇文章： Channel augmented joint learning for visible-infrared recognition），记作在这里插入图片描述，，
对应的特征向量记为，与可见光图像特征向量保持维度一致。

2、Learning Modality-Aware and Modality-Agnostic Proxies（学习模态感知和模态不可知代理）

基于 vallina 记忆的聚类对比学习（Cluster contrast for unsupervised person re-identification），最重要的组成部分是基于聚类的记忆库，其中每个聚类由平均特征向量 W ^m (也表示为聚类中心) 表示，所有聚类特征向量都基于单个特征更新。第 k 类的聚类质心初始化如下：

在这里插入图片描述
对 RGB 模态的聚类存储库 W ^m ∈ R ^{d×N ^p} 进行初始化，提取每个聚类的特征向量均值，其中 d 和 N ^p 分别表示特征维数和身份/聚类个数。表示 RGB 特征空间中属于第 k 类的训练图像的子集，|·| 表示聚类集中的实例数。在模型训练过程中，使用相应的聚类特征向量更新存储在记忆库中的聚类质心。

然后，基于记忆库的聚类对比学习可以导出，它也是一个分类器。
在这里插入图片描述

在这里插入图片描述
同样得到红外损失，数据增强模态的损失，
最终损失合在一起：

3、Cross-Modality Mutual Information（模态互消息）

为增强模态关联，同时抑制模态差异，作者提出跨模态互信息约束。前一阶段已经分别学习了每个模态的单位质心。也就是说，存储在记忆库中的质心只从它们对应的模态中学习知识。因此，给定一个行人图像特征 (记为f)，无论它属于哪个模态，如果它在不同模态中相对最近的质心对应相同的同一性，则意味着模型提取了模态共享的图像特征，消除了模态的差异。

基于学习到的不同模态的图像质心，将得到的图像特征在这里插入图片描述转化为概率形式。

在基于记忆的聚类对比学习中，观察到可以从历史学习的聚类质心中获益更多。由于一些历史聚类质心相对于记忆库中最新动态学习的质心距离模态/身份边界较远，这可能导致对对应模态分布的 “拉近” 效应增强。因此，使用前一个 epoch 结束时学习到的质心作为分类器，从而使下一个训练 epoch 的质心参数始终保持固定。

RGB 模态的质心在这里插入图片描述，输入特征在聚类质心下的概率表示：

在这里插入图片描述

相应的，下面也成立。

在这里插入图片描述

这里作者做了前提条件，历史聚类质心参数与存储在最新内存库中的质心是不同的，尽管它们都可以代表恒等式的聚类中心。历史聚类质心 C = {Cv, Cr, Ca, Cu} 通过其自身模态空间中同一同一性内的特征向量的均值计算，其中特征向量由前一个训练历元结束时获得的模型提取。通过 Kullback-Leibler 散度计算，RGB 模态和 IR 模态之间的概率，
在这里插入图片描述

显然，该目标函数鼓励 RGB 模态中的输入特征向量在这里插入图片描述在其原始 RGB 模态质心和 IR 模态质心上都具有一致性的概率，而另一 IR 模态中的输入特征则相反。通过这种方式，可以鼓励模型在不同模态之间学习知识，并进一步学习与模态无关的特征。

辅助模态数据是通过通道增强策略由相应的 RGB 模态数据生成的，同样需要建立辅助模态与 IR 模态之间的互信息约束，抑制模态差异。
整体的跨模态互信息约束如下：
在这里插入图片描述

4、Global Modality-Agnostic Cluster Contrast（全局模态不可知聚类对比）

为进一步抑制模态差异，在已学习的历史模态不可知聚类质心 C ^u 的基础上，提出了全局模态不可知聚类对比学习。目标函数可表示为：
在这里插入图片描述
是习得的历史模态不可知的聚类质心。为特征对应的正质心，α 是正距离和最小负距离之间的最小裕度参数。通过最小化上述损失函数，可以以整体模态不可知的方式抑制模态差异。