Shape-Erased Feature Learning for Visible-Infrared Person Re-Identification(形状擦除特征学习在可见红外人物再识别中的应用)
期刊合集:最近五年,包含顶刊,顶会,学报>>网址
文章来源:CVPR 2023
代码地址:https://github.com/jiawei151/sgiel_vireid
研究背景
由于可见光和红外图像之间存在巨大的模态差异,并且视觉模糊程度较高,因此学习不同模态之间的共享语义的概念直接用于可见-红外人物再识别是一个非常具有挑战性的问题。
体型是VI-ReID的重要模态共享线索之一。为了挖掘更多样化的模态共享线索,我们期望在学习特征中删除与体型相关的语义概念,可以迫使模型提取更多和其他模态共享特征进行识别。为此,我们提出了在两个正交子空间中解相关模态共享特征的形状擦除特征学习范式。在一个子空间中共同学习形状相关特征和在正交补中共同学习形状擦除特征,实现了形状擦除特征与丢弃身体形状信息的身份之间的条件互信息最大化,从而显着增强了学习表征的多样性。
近年来,针对非重叠摄像机视图行人匹配的人再识别(ReID)得到了快速发展。然而,当人们出现在白天和只有红外摄像机才能清楚地捕捉到他们的外表时,ReID仍然具有挑战性,这提高了可见红外ReID (VIReID)的任务。在VI-ReID领域已经出现了许多卓有成效的工作[4,6,15,16,28,31]。在现实场景中,发现丰富多样的情态共享语义概念通常有助于提高VI-ReID语义分析的有效性。
在VI-ReID的线索中,我们可以在许多情况下通过行人的身体形状来识别行人,因为它包含了模态不变信息,并且对光线变化具有鲁棒性。然而,体型并不是解释一个人身份的唯一或充分的语义概念。在某些情况下,仅仅根据体型来区分可能很困难,但我们仍然可以通过其他语义概念来区分他们,比如他们的物品、发型或面部结构。受此启发,我们在图1中虚线左侧的V enn图中说明了可见和红外模态之间的信息理论度量。假设体型(红色表示)和身份相关的模态共享信息(虚线框表示)部分重叠。
需要注意的是部分原因还在于1 arXiv:2304.04205v1 [cs]中包含了与身份无关的信息。身体形状图,例如人体姿势。这种部分重叠的假设表明,VI-ReID的目标信息是身份相关和模态共享的,可以分为两个与体型相关和不相关的独立成分。
基于以上的观察和假设,为了挖掘更多的VI-ReID模态共享线索,我们希望能够删除特征中与体型相关的语义概念,迫使VI-ReID模型提取更多的其他模态共享特征进行识别。如图1虚线右侧所示,将形状擦除的特征与形状相关的特征去相关,同时发现与形状无关的知识,而形状相关的特征可以通过某种给定的身体形状先验来明确引导,这很容易通过现有的预训练的人类解析模型获得[17]。这样,形状相关特征和形状擦除特征都被明确量化,而这两个特征的判别性可以独立保持。
具体而言,我们提出了形状擦除特征学习范式,该范式将正交性引入表征以满足独立约束的放松。然后将该表征分解为位于两个正交子空间中的两个子表征,分别用于形状相关和形状擦除的特征学习。通过在一个子空间中学习和覆盖大多数可判别的体型特征,形状擦除特征被迫在另一个子空间中发现其他模态共享的可判别语义概念,因为形状相关特征在其正交补中受到约束。在上述假设下,我们从互信息的角度构建了这种形状擦除特征学习范式,并证明了形状擦除和形状相关目标的联合学习实现了形状擦除特征与丢弃身体形状信息的身份之间的条件互信息最大化,从而显着增强了学习表征的多样性。最后,我们设计了一个形状引导的多元特征学习框架(SGIEL),该框架共同优化形状相关目标和形状擦除目标,以学习模式共享和判别集成表示。我们的工作贡献总结如下:
作者提出了一种用于 VI-ReID 任务的形状擦除特征学习范式,该范式通过正交分解的方式将形状擦除特征与形状相关特征解相关。具体来说,在一个子空间中,形状相关的特征以身体形状先验(Body Shape Prior)为导向,而形状擦除的特征在其正交补中被约束,从而发现更多其他模态共享的判别语义概念,从而显著增强了学习表征的多样性。
基于所提出的形状擦除特征学习范式,设计了一个形状引导的多样化特征学习框架,该框架联合优化形状相关目标和形状擦除目标,以学习模式共享和判别集成表示。
论文分析
网络框架
3.1、Preliminary(相关准备工作)
VI-ReID Setup
考虑随机变量X(i)和Y表示VI-ReID的数据和标签,其中i = 1表示可见模态,i = 2表示红外模态。利用X(i)和Y的观测值构建数据集D = {D(i)}2i=1,其中D(i) = {X(i) j, yj}Nij=1。每种模态的样本都是从同一组C个人中收集的,但每种模态的每个身份的样本数量可以任意。设f和g分别表示图像编码器和分类器,VI-ReID的目标是学习一个f来提取不同模态和不同相机视图下不变的表示z(i) = f(x(i))∈Rn。
Body Shape Data
我们借用[17]中提出的预训练自我校正人类解析(SCHP)模型从背景中分割出人体形状。给定图像的一个像素,我们直接将SCHP预测的头部、躯干或四肢部分的概率相加,以创建身体形状图。具体来说,对于来自数据集D的每个样本x(i),无论是可见光还是红外,我们使用SCHP生成具有相同图像大小和标签的配对体型图x(s),即D与其对应的体型数据之间的一对一映射。设fs和gs分别表示体型图编码器和分类器,x(s)的潜在表示为z(s) = fs(x(s))∈Rm, m < n。
3.2、Shape-Erased Feature Learning Paradigm(形状擦除特征学习范式)
在本节中,我们首先解释明确量化形状相关和形状擦除特征的关键独立假设,以及近似它的松弛。
基于这种松弛的独立约束,我们提出了形状擦除特征学习。
3.2.1、Independence between Z(i)sr and Z(i)se
我们首先将形状擦除特征学习范式的主要设计表述为如图2所示的图形模型。
假设模态共享的形状相关特征Z(i)sr 和模态共享形状擦除特征Z(i)se是彼此独立的,并且由在X(i)中提取的积分表示Z(i)导出,即Z(i)→Z(i)sr, Z(i)→Z(i)se,
是同时学习任意两个特征而不相互影响的必要条件。
独立表达式如下:
I(·;·)表示互信息,为0就是没有两者之间没有任何关系;由于互信息估计复杂且耗时,我们将独立性放宽为正交约束,表示为正交分解,得到方程(1)的松弛版为
式中,P∈Rn×m(m < n)为半正交矩阵,P P T构成正交投影。
这样,形状相关的特征是在子空间P中学习的,而形状删除的特征是在正交补P⊥中学习的,近似满足独立约束。
在实践中,由于P通常采用标准正态分布初始化,当n→∞时,P变成半正交矩阵的概率趋于1。为了进一步增强这种正交性,我们通过Eq.(3)对P T P与单位矩阵Im的各维差用l1范数正则化P:
3.2.2、Shape-Erased Feature Learning
如第1节所述,我们的目标是明确量化Z(i)sr和Z(i)se,以便Z(i)se可以在丢弃用于描述X(s)的信息时推断身份Y。这可以表示为给定体型X(s)的Z(i)se和Y之间的条件互信息最大化,即i (Z(i)se;Y | X (s)):
其中第一项表示Z(i)se和Y之间的互信息,第二项表示Z(i)se、Y和X(s)之间的互信息。
接着作者做了两个操作:最大化前者,最小化后者
Maximize:这里主要是通过一个最小化交的叉熵来实现
Minimize:
因为I(Y;X(s))是难以处理的,我们用下面两步近似它。
首先,我们考虑一个要求,即X的表示Z至少可以像使用原始数据X一样描述Y。这一要求被称为充分性[1],其定义如下:
定义1(充分性)。当且仅当下列条件时,X的表示Z对Y是充分的:
其次,我们希望与形状相关的特征Z(i)sr能够完全代表真实的体型特征Z(s);
为了使Z(i)sr完全表示Z(s),由于Z(i)sr和Z(s)之间存在一对一的映射,我们最大化i (Z(i)sr;Z(s))通过最小化元素均方误差(MSE)来引导Z(i)sr模仿Z(s)如Eq. (9),
式中∥·∥2为l2范数。
此外,为了减少X(i)的Z(i)sr与X(s)的Z(s)之间的横视差异,我们的目标是最小化以下条件互信息i (X(i);老Z (i) | X (s)):
表示给定X(s)视图下Z(i)sr中的剩余信息。
3.3、Overall Framework( )
实验结果
总结
假设体型信息和身份相关的模态共享信息(虚线框表示)部分重叠。为了使提取的特征更加多样化,我们提出了形状擦除特征学习范式,将表征分解为形状相关特征和形状擦除特征。
学习形状擦除特征驱动模型发现除身体形状之外更丰富的模态共享语义概念。