行人重识别(REID)——原理方法

news2026/2/9 21:18:41

行人重识别：短时

类内差异增大，类间差异减小

应用——行人跟踪

单摄像头单目标
单摄像头多目标
多摄像头多目标

行人重识别系统

特征提取

学习能够应对在不同摄像头下行人变化的特征
度量学习

将学习到的特征映射到新的空间使相同的人更近，不同的人更远
图像检索

根据图片特征之间的距离进行排序，返回检索结果

评价模式

single query vs multi query

Single query是指probe中每个人的图像为一张（N=1），而multi query是指probe中每个人的图像为N>1张图像，然后融合N张图片的特征（最大池化或者平均池化）作为最终特征。同样的Rank-k下，一般N越大，得到的识别率越高。

特征

全局特征

每一张图片的全局信息进行一个特征抽取，全局特征没有任何的空间信息。

噪声区域会对全局特征造成极大的干扰
姿态的不对齐也会使全局特征无法匹配

局部特征

对图像的某一个区域进行特征提取，最后将多个局部特征融合起来作为最终特征

水平切块 ★★★

将图像进行水平方向的等分，每一个水平切块通过水平池化提取一个特征
Gate Siamese 和 AlignedReID 通过设计规则融合所有的局部特征计算距离
PCB，ICNN，SCPNet 对每一个局部特征计算一个 ReID 损失，直接将局部特征拼接起来
联合局部特征和全局特征往往能够得到更好的结果

Gate Siamese

每一块经过 CNN 网络得到特征，局部特征按顺序输入到 LSTM 网络，自动表达为图像最终的特征
利用对比损失训练网络

AlignedReID

主要解决姿态不对齐的问题
骨架网络为 ResNet50

动态对齐 (DMLI)
- 假如输入图像为256×128，输出的特征图尺寸为 8×4×2048
- 利用水平池化得到 8 个局部特征，并计算一个 8×8 的距离方阵
- 对齐局部信息不能有跳连（从上到下）
- 利用 shortest path 来找到最优的动态连接

PCB

输入图像 384×128，分成 6 块
利用 ResNet50 提取特征，最后 24×8 的 feature map
每一行提取一个局部特征，连接一个 ReID loss
使用的时候把 6 个局部特征 concatenate 起来

ICNN

ICNN≈PCB + global branch with triplet loss

SCPNet

利用 spatial part 特征连监督 channel group 特征，将 local feature 传给 global feature

姿态信息 ★★★

利用一个姿态估计模型得到行人的（14个）关键姿态点
根据姿态点得到具有语义信息的 part 区域
对于每个 part 区域提取局部特征
联合局部特征和全局特征往往能够得到更好的结果
姿态点估计模型：Hourglass、OpenPose、CPM、AlphaPose
Part：通过一定规则手工设置一些矩形框区域
Attention：网络自动学习出的比较重要的任意形状区域

PIE

CRM 提取姿态点
分成几个part，进行仿射变换对齐
融合原图和仿射图的特征
采用 ID 损失训练网络

Spindle Net

FFN 网络提取特征，FFN 网络层次性地融合特征

PDC

利用姿态点信息分割为六个part
改进 STN 网络为 PTN 网络，学习仿射变换参数得到 modified part image
融合全局特征和局部特征
计算三个 ReID 损失
浅层网络共享，高层网络独立

GLAD

分为头，上身，下身三个 part
融合全局特征和三个 part 的特征

PABP

利用 ReID 网络提取 feature map A
利用 openpose 提取 feature map P
A 和 R 每个对应像素位置的向量进行外积，并向量化
会激活对应位置的外观特征

分割信息 ★★

图像语义分割是一种极精细的像素级别 part 信息
图像分割分为粗粒度的行人前景分割和细粒度的肢体语义分割
分割结果通常作为图像预处理的 Mask 或者 feature map 中的 attention 相乘
目前基于分割的方法没有取得特别广泛的应用

前背景提取

SPReID

网格特征 ★

网格特征是比较细粒度的物理区域特征
早期工作将网格特征扩展为part特征计算两幅图像的特征图差
近期利用网格特征解决 partial ReID 工作
总体而言网格特征并不常用

IDLA

骨干网络为 Siamese 网络计算
两幅图 5x5 网格特征差值
交换"主客"分别计算 K 和 K’
计算二分类验证损失

PersonNet

DSR

将一副图像的所有网格特征作为一个特征集合
对两个特征集合进行稀疏重建得到集合距离

序列重识别

姿态变化丰富
遮挡现象普遍
总有几帧质量好，也有几帧质量差
需要考虑如何融合各帧的信息

单帧 → 序列

对每一帧图像都提取一个ReID特征
直接通过平均池化或者最大池化来得到最终的ReID特征
比较简单，性能依赖于单帧 ReID 的性能

CNN+LSTM

类似于动作识别，利用 CNN 提取特征，然后利用 LSTM 提取时序特征

难点

如何对多帧特征进行特征融合？
如何对每帧图像进行质量判断？
如何提取序列图像的运动特征？
如何解决序列帧数不统一问题？
如何提高序列 ReID 的运算效率？

学术尝试

AMOC

帧与帧之间存在着运动（步态）特征，也有利于 ReID 任务
包含空间子网络和运动子网络
- 空间子网络提取单帧图像的内容特征
- 运动子网络提取相邻两帧的运动特征
- 融合内容特征与运动特征作为该帧的最终特征
利用 RNN 网络融合所有帧的特征信息
利用对比损失判断两个序列是否属于同一个行人ID

DFGP

采用传统的 LOMO 特征提取序列每一帧图像的行人特征

利用 PCN 网络提取每一帧特征，之后平均池化得到序列特征，找到最稳定帧 MSVP
对 MSVP 提取 LOMO 特征，并与序列q计算特征距离，按照距离进行 softmin 归一化，得到每帧权重
特征×权重之后进行最大池化
融合池化后的序列特征和最稳定帧的特征作为最终特征

RQEN

遮挡是序列重识别中非常普遍的一个问题，会造成特征分布不均匀

对每帧行人提取14个关键姿态点，并分为3个语义 part
当某个姿态点被遮挡之后，pose map 的响应值会非常低

全局分支提取全局特征
局部分支提取局部特征
姿态分支对图像进行质量（遮挡）判断

基于 GAN 的方法

痛点

数据不够用 → 生成图像
- 政府限制监控数据的采集
- 人工标注采集数据价格昂贵
- 缺乏一些极难的极端样本
数据有偏差 → 减小偏差
- 姿态与姿态之间存在偏差
- 相机与相机之间存在偏差
- 地域与地域之间存在偏差

组成

生成器：随机数 → 生成样本
判别器：判断生成样本是否真实

代表方法

GAN+LSRO

利用 GAN 网络随机生成行人图片，利用 LSRO 技术平滑 ID 标签，训练交叉熵损失

照片随机生成，ID 信息不可靠

CamStyle

利用 CycleGAN 来实现任意两个相机之间的风格转换

原始样本计算ID损失，生成样本利用平滑标签计算交叉熵损失

PTGAN

不同场景下采集的数据存在明显的偏差

利用 PSPNet 分割行人前景 mask
利用 CycleGAN 的思想进行图像风格转换
计算mask区域生成损失，保持行人前景尽可能不变
联合风格损失与生成损失

SPGAN

与 PTGAN 类似，利用 source domain 的数据生成 target domain，解决不同场景下采集的数据间的明显偏差

PNGAN

利用 GAN 来生成固定姿态样本

利用 GAN 生成目标姿态的样本
原图和生成图分别进入两个 ReID 网络
融合原图和生成图的特征作为最终特征，融合方式使用max池化

对比

算法	GAN	CycleGAN	PTGAN	SPGAN	PNGAN
基础	GAN	CycleGAN	CycleGAN	CycleGAN	InfoGAN
额外	标签平滑	标签平滑	前景分割	孪生网络	姿态估计
目标	数据增广	相机偏差	数据域偏差	数据域偏差	姿态偏差