行人重识别综述

news2025/1/16 5:09:13

Deep Learning for Person Re-identification: A Survey and Outlook

论文地址https://arxiv.org/pdf/2001.04193

1. 摘要

we categorize it into the closed-world and open-world settings.

  • closed-world:学术环境下

  • open-world :实际应用场景下

2. 引言

引言部分主要讨论了跨非重叠摄像头的行人重识别(Re-ID)问题,强调其在智能监控系统中的重要性和挑战。作者提到Re-ID面临的挑战,如视角变化、低分辨率、光照变化等,并指出早期研究主要集中在手工特征构建和距离度量学习上。随着深度学习的发展,虽然在一些标准数据集上取得了显著进展,但实际应用与研究场景之间仍存在较大差距。此外,作者提出了一个新的基线方法AGW和一个新的评估指标mINP,旨在推动未来的Re-ID研究,并讨论了一些未来的研究方向,以期缩小封闭世界和开放世界应用之间的差距。

2.1 构建一个ReID系统需要的五个步骤

  1. 原始数据采集

  2. 生成边界框:框出其中的行人,借助算法:person detection or tracking algorithms

  3. 对训练数据进行标注:标注这些个体在不同摄像头下的相同身份。这意味着,对于给定的个体,需要在不同摄像头捕获的图像中识别出该个体,并为其分配相同的标识符。

  4. 训练模型(核心):

    • feature representation learning

    • distance metric learning

    • their combinations

  5. 检索:给定一个疑犯(查询对象)和一个图库集,我们使用上一阶段学习的Re-ID模型提取特征表示。通过对计算的查询到库的相似性进行排序,获得检索到的排名列表。(Some methods have also investigated the ranking optimization to improve the retrieval performance)

2.2 学术环境与实际应用场景对比

学术环境实际应用场景
数据all the persons are represented by images/videos captured by single-modality visible cameras in the closed-world settingprocess heterogeneous data, which are infrared images [21], [60], sketches [61], depth images [62], or even text descriptions
人物框选generated bounding boxes ——已经框选好的require end-to-end person search from the raw images or videos ——端到端也就是要自己处理
标注大量且已经标注好少量或没有标注
标注正确性assume that all the annotations are correct, with clean labelsannotation noise
query是否在galleryassume that the query must occur in the gallery set by calculating the CMC [68] and mAPquery person may not appear in the gallery set [69], [70], or we need to perform the verification rather than retrieval [26]. This brings us to the open-set person Re-ID

3. CLOSED-WORLD PERSON RE-IDENTIFICATION

假设条件

  • 单一模态捕捉的图像或视频

  • 人物已经被框选,大多数是同一人

  • 有足够的标注

  • 标注正确

  • query person肯定在

  • gallery set.

standard closed-world Re-ID system 三个主要组件:

  • Feature Representation Learning ——focuses on developing the feature construction strategies

  • Deep Metric Learning——which aims at designing the training objectives with different loss functions or sampling strategies

  • Ranking Optimization ——concentrates on optimizing the retrieved ranking list.

2.1 Feature Representation Learning

four main categories
  1. Global Feature ——global feature representation vector for each person image without additional annotation cues

  2. Local Feature (§ 2.1.2), it aggregates part-level local features to formulate a combined representation for each person image

  3. Auxiliary Feature (§ 2.1.3), it improves the feature representation learning using auxiliary information, e.g., attributes [71], [72], [78], GAN generated images [42], etc

  4. Video Feature (§ 2.1.4), it learns video representation for video-based Re-ID [7] using multiple image frames and temporal information [73], [74

2.1.1 Global Feature Representation Learning
  • joint learning framework consisting of a singleimage representation (SIR) and cross-image representation (CIR) training process as a multi-class classification problem by treating each identity as a distinct class.

  • Attention Information.

  • Attention information in person re-identification refers to techniques used to enhance feature learning by focusing on specific parts of the data. It includes pixel-level attention which emphasizes individual pixels, part-level attention which focuses on different regions of a person's image, and spatial or background suppression to reduce noise from irrelevant areas. It also includes context-aware attention for handling multiple person images, which improves the feature learning by considering the relationships between different images or sequences. These attention mechanisms contribute to more accurate identification by highlighting relevant features and suppressing irrelevant ones.

Global Feature Representation Learning in person re-identification primarily focuses on extracting a comprehensive feature vector for the entire person image. It utilizes networks originally designed for image classification and applies them to re-ID, leveraging fine-grained cues for learning distinctive features.

2.1.2 Local Feature Representation Learning

Local Feature Representation Learning aims to be robust against issues such as misalignment of person images. It divides the body into parts or regions and extracts features from these specific areas. This method helps in accurately matching body parts across different images and is especially useful in dealing with variations in pose or when parts of the body are occluded.

2.1.3 Auxiliary Feature Representation Learning

usually requires additional annotated information (e.g., semantic attributes [71]) or generated/augmented training samples to reinforce the feature representation

  1. Semantic Attributes: These are descriptive characteristics such as "male," "short hair," "wearing a red hat," etc., which can be used to provide additional context and improve the accuracy of feature representation. The learning models may use these semantic attributes to distinguish between individuals more effectively, especially in semi-supervised learning settings where not all data may be labeled.语义属性:这些是描述性特征,例如“男性”、“短发”、“戴红帽子”等,可用于提供额外的上下文并提高特征表示的准确性。学习模型可以使用这些语义属性来更有效地区分个体,尤其是在并非所有数据都可以标记的半监督学习环境中。

  2. Viewpoint Information: This takes into account the angle from which the person is captured across different cameras. By considering the viewpoint, models can learn to recognize the same individual from various angles, which is crucial for robust Re-ID across multiple cameras.视点信息:这考虑了在不同摄像机上捕捉人物的角度。通过考虑视点,模型可以学会从不同角度识别同一个人,这对于跨多个摄像头进行强大的 Re-ID 至关重要。

  3. Domain Information: Treating images from different cameras as distinct domains, this approach aims to extract a globally optimal feature set that accounts for cross-camera variations. This could involve aligning features across these domains to ensure consistent identification.域信息:将来自不同相机的图像视为不同的域,此方法旨在提取考虑跨相机变化的全局最优特征集。这可能涉及对这些域的要素进行对齐,以确保一致的标识。

  4. GAN Generation: The use of Generative Adversarial Networks (GANs) to create synthetic images helps in addressing cross-camera variations and enhances the robustness of the model. These generated images can provide additional data points for training, particularly useful when actual images are scarce or when trying to model different environmental conditions.GAN生成:使用生成对抗网络(GAN)创建合成图像有助于解决跨相机变化问题,并增强模型的鲁棒性。这些生成的图像可以为训练提供额外的数据点,当实际图像稀缺或尝试对不同的环境条件进行建模时,特别有用。

  5. Data Augmentation: Custom data augmentation methods such as random resizing, cropping, and flipping are used to artificially expand the dataset, making the trained model more generalizable and less prone to overfitting. More sophisticated techniques might include generating occluded samples or applying random erasing strategies to simulate a wider variety of real-world conditions that the Re-ID system may encounter.数据增强:使用随机调整大小、裁剪和翻转等自定义数据增强方法,人为地扩展数据集,使训练后的模型更具泛化性,不易出现过度拟合。更复杂的技术可能包括生成遮挡样本或应用随机擦除策略来模拟 Re-ID 系统可能遇到的更多实际情况。

2.1.4 Video Feature Representation Learning

additional challenges

  1. accurately capture the temporal information.

  2. unavoidable outlier tracking frames within the videos

  3. handle the varying lengths of video sequences

2.1.5 Architecture Design

设计不同架构来解决

2.2 Deep Metric Learning

2.2.1 Loss Function Design

identity loss, verification loss and triplet loss

Re-ID领域中常用的四种损失函数及其作用:

  1. Identity Loss(身份损失):

    • 将人员Re-ID的训练过程视为一个图像分类问题,其中每个身份被视为一个独立的类别。

    • 在测试阶段,使用池化层或嵌入层的输出作为特征提取器。

    • 使用softmax函数计算输入图像被正确识别为其类别的概率,并通过交叉熵计算身份损失。

    • 身份损失在训练过程中自动挖掘难样本,简单易训练,且通常与标签平滑等策略结合使用以提高模型的泛化能力。

  2. Verification Loss(验证损失):

    • 优化成对关系,使用对比损失或二元验证损失来改善相对成对距离的比较。

    • 对比损失关注于增强样本对之间的欧氏距离比较,通过最大化同一身份内样本的相似性和不同身份样本的差异性。

    • 二元验证损失区分图像对的正负,关注于识别输入图像对是否属于同一身份。

  3. Triplet Loss(三元组损失):

    • 将Re-ID模型训练过程视为一个检索排序问题,确保同一身份的样本对距离小于不同身份样本对的距离。

    • 三元组包含一个锚点样本、一个正样本(与锚点同一身份)和一个负样本(不同身份),通过预定义的边际参数优化这三者之间的距离。

    • 为了提高训练的效果,采用了各种信息三元组挖掘方法,以选择更具信息量的三元组进行训练。

  4. OIM Loss(在线实例匹配损失):

    • 设计了一个包含存储实例特征的内存库,通过内存库优化在线实例匹配。

    • OIM损失通过比较输入特征与内存库中存储的特征之间的相似度,处理大量非目标身份的实例。

    • 这种方法在无监督领域自适应Re-ID中也得到了应用,通过控制相似度空间的温度参数优化实例匹配分数。

2.2.2 Training strategy

训练策略(Training strategy)是机器学习和深度学习中一组用于指导模型训练过程的方法和技术。它包括各种技巧和方法,旨在提高模型的学习效率、性能和泛化能力。

  1. 批量采样策略的挑战

    • 由于每个身份标注的训练图像数量差异很大,以及正负样本对之间严重不平衡,设计有效的训练策略变得具有挑战性。

  2. 身份采样

    • 处理样本不平衡问题的最常见策略是身份采样。在这种策略下,每个训练批次会随机选取一定数量的身份,然后从每个选定的身份中采样几张图像。这种批量采样策略保证了有效的正负样本挖掘。

  3. 适应性采样

    • 为了处理正负样本之间的不平衡问题,流行的方法是适应性采样,通过调整正负样本的贡献来应对不平衡,例如采样率学习(SRL)和课程采样等。

  4. 样本重权

    • 另一种方法是样本重权,通过使用样本分布或相似性差异来调整样本权重。这有助于平衡训练过程中样本的影响,提高模型对不同样本的区分能力。

  5. 高效的参考约束

    • 设计了高效的参考约束来将成对/三元组相似性转化为样本到参考的相似性,这不仅解决了不平衡问题,而且增强了区分性,并且对异常值具有鲁棒性。

  6. 多损失动态训练策略

    • 通过适应性地重新加权身份损失和三元组损失,动态组合多个损失函数,可以提取它们之间的共享组件。这种多损失训练策略导致了一致的性能提升。

2.3 Ranking Optimization

2.3.1 Re-ranking

通过不同的技术和方法(如重排、查询适应性和人机交互)来实现更准确的排名顺序。这些方法能够根据不同的情境和需求,灵活地优化排名结果,从而提高检索的准确性和效率。

2.3.2 Rank Fusion

在实际应用中,不同的检索或识别算法可能对同一数据集有不同的理解和表现,某些算法在特定情境下表现良好,而在其他情境下表现可能较差。排名融合通过合理地结合这些算法产生的结果,旨在充分利用每种方法的优势,从而提供一个综合考虑了多种视角和信息的更准确、更可靠的排名结果。

2.4 Datasets and Evaluation

数据集

GitHub - NEU-Gou/awesome-reid-dataset: Collection of public available person re-identification datasets

评估指标

  1. 累积匹配特性(CMC):

    • CMC曲线或CMC-k指标(又称Rank-k匹配准确率)反映了在前k个检索结果中找到正确匹配的概率。当每个查询仅对应一个正确结果时,CMC提供了一个准确的评估。然而,在包含多个正确匹配项的大型摄像头网络中,CMC可能无法完全反映模型跨多个摄像头的区分能力。

  2. 平均平均精确度(mAP):

    • mAP衡量的是在有多个正确匹配项时的平均检索性能,它在图像检索领域被广泛使用。对于Re-ID评估,mAP可以解决两个系统在查找第一个正确匹配(可能是容易的匹配)时表现相同,但在检索其他难度较大的匹配项时能力不同的问题。

  3. FLOPs(浮点操作次数每秒):

    • FLOPs是衡量模型复杂度和运算效率的指标,特别是在计算资源受限的训练/测试设备上,FLOPs成为了一个重要的考量因素。它反映了执行某个操作或运行模型一次所需的浮点运算次数。

  4. 网络参数大小:

    • 网络参数大小指的是构成模型的参数总量,这直接影响模型的存储需求和计算复杂度。在资源受限的环境中,参数越少的模型越受欢迎,因为它们占用的内存少,运行速度可能更快。

一些代表性方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1458948.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

瑞_23种设计模式_适配器模式

文章目录 1 适配器模式(Adapter Pattern)1.1 介绍1.2 概述1.3 适配器模式的结构 2 类适配器模式2.1 案例2.2 代码实现 3 对象适配器模式(推荐)★3.1 案例3.2 代码实现 4 拓展——JDK源码解析 🙊 前言:本文章…

Java项目,营销抽奖系统设计实现

作者:小傅哥 博客:https://bugstack.cn 项目:https://gaga.plus 沉淀、分享、成长,让自己和他人都能有所收获!😄 大家好,我是技术UP主,小傅哥。 经过这个假期的嘎嘎卷🧨…

VMware下安装银河麒麟V10操作系统

VMware下安装银河麒麟V10操作系统 文章目录 下载在VMware中应用编辑虚拟机设置 在麒麟系统内安装 下载 官网下载:https://www.kylinos.cn/ 银河麒麟、中标麒麟、开放麒麟、星光麒麟 在VMware中应用 1.新建虚拟机 2.稍后安装操作系统 3.新建虚拟机向导&#xff0…

设计模式三:工厂模式

工厂模式包括简单工厂模式、工厂方法模式和抽象工厂模式,其中后两者属于23中设计模式 各种模式中共同用到的实体对象类: //汽车类:宝马X3/X5/X7;发动机类:B48TU、B48//宝马汽车接口 public interface BMWCar {void s…

CSS-基础-MDN文档学习笔记

CSS构建基础 查看更多学习笔记:GitHub:LoveEmiliaForever MDN中文官网 CSS选择器 选择器是什么 CSS 选择器是 CSS 规则的第一部分,它用来选择HTML元素,选择器所选择的元素,叫做选择器的对象 选择器列表 如果有多…

盘点3款实用的音频文件转文字工具!

在信息爆炸的时代,我们每天都面临着海量的信息输入和输出。其中,音频信息作为一种重要的信息传播方式,如何高效地将其转化为文字,成为许多人和企业迫切的需求。本文将为您盘点几款实用的音频转文字工具,让声音瞬间转化…

通过闭包表解决无限极代理分销

闭包表设计 闭包表是解决分层存储一个简单而又优雅的解决方案,它记录了表中所有的节点关系,并不仅仅是直接的父子关系。   在闭包表的设计中,额外创建了一张节点关系表(空间换取时间),它包含两列,每一列都是一个指向…

facebook群控如何做?使用静态住宅ip代理有什么好处?

在进行Facebook群控时,ip地址的管理是非常重要的,因为Facebook通常会检测ip地址的使用情况,如果发现有异常的使用行为,比如从同一个ip地址频繁进行登录、发布内容或者在短时间内进行大量的活动等等,就会视为垃圾邮件或…

我的NPI项目之Android USB 系列(一) - 遥望和USB的相识

和USB应该是老朋友了,从2011年接触Android开发开始,就天天和USB打交道了。那时候还有不 对称扁头的usb/方口的usb,直到如今使用广泛的防反插USB3.0 type-C。 但是,一直有一个不是很清楚的问题萦绕在心头,那就是。先有…

Vue3 学习笔记(Day1)

「写在前面」 本文为尚硅谷禹神 Vue3 教程的学习笔记。本着自己学习、分享他人的态度,分享学习笔记,希望能对大家有所帮助。 目录 0 课程介绍 1 Vue3 简介 2 创建 Vue3 工程 2.1 基于 vue-cli 创建 2.2 基于 vite 创建(推荐) 2.3 …

[word] word正反面打印应该怎么设置呢? #知识分享#学习方法#职场发展

word正反面打印应该怎么设置呢? word文档打印时,如果页数比较多,出于格式要求或为了节省纸张,通常需要正反面打印,那怎么操作正反双面打印呢?通常有两种方法打印。 1、选择“打印”对话框底部的“打印”下…

linux 安装、删除 JTAG驱动

安装 安装驱动需要sudo访问权限,所以得手动安装。 在petalinux安装目录下: 文件的路径。 cd tools/xsct/data/xicom/cable_drivers/lin64/install_script/install_drivers 然后执行文件 install_drivers。 sudo ./install_drivers安装成功。 删除 …

FFmpeg进阶-给视频添加马赛克效果

很多时候为了隐藏视频中的敏感信息如人脸、身份证号、车牌号等,我们会采用马赛克算法对视频帧中的一部分内容进行处理。这里介绍一下如何采用FFmpeg实现马赛克效果。 马赛克效果算法的原理如下: 1.分块处理:首先将图像划分为多个小块或区域 2.像素替换:对于每个小块,算法会将…

sentinel的资源数据指标是如何采集

资源数据采集 之前的NodeSelectorSlot和ClusterBuilderSlot已经完成了对资源调用树的构建, 现在则是要对资源进行收集, 核心点就是这些资源数据是如何统计 LogSlot 作用: 记录异常请求日志, 用于故障排查 public class LogSlot extends AbstractLinkedProcessorSlot<Def…

鸿蒙 状态管理-组件装饰器

前提&#xff1a;基于官网3.1/4.0文档。参考官网文档 基于Android开发体系来进行比较和思考。&#xff08;或有偏颇&#xff0c;自行斟酌&#xff09; 1.概念 Android中使用过Jetpack MVVM框架知道状态管理&#xff0c;包括React前端所使用的状态管理框架&#xff0c;都有所设…

爬虫知识--01

爬虫介绍 # 爬虫的概念&#xff1a; 通过编程技术(python:request,selenium)&#xff0c;获取互联网中的数据(app&#xff0c;小程序&#xff0c;网站)&#xff0c;数据清洗(xpaht&#xff0c;lxml)后存到库中(mysql&#xff0c;redis&#xff0c;文件&#xff0c;excel&#x…

GIN框架介绍以及使用

Gin是一个用Go语言编写的web框架。它是一个类似于martini但拥有更好性能的API框架, 由于使用了httprouter&#xff0c;速度提高了近40倍。 如果你是性能和高效的追求者, 你会爱上Gin&#xff0c;而且现在大多数企业都在使用Gin框架&#xff0c;反正学一学总没有错。 1、 GIn框…

微信小程序-绑定数据并在后台获取它

如图 遍历列表的过程中需要绑定数据&#xff0c;点击时候需要绑定数据 这里是源代码 <block wx:for"{{productList}}" wx:key"productId"><view class"product-item" bindtap"handleProductClick" data-product-id"{{i…

【J1939】一、概述,协议基础

文章目录 1. 背景2. 要点3. J1939帧细节3.1 协议数据单元(Protocol Data Unit,PDU)3.2 参数组编号(PGN)3.3 可疑参数编号(Suspect Parameter Number,SPN)参考1. 背景 J1939是一种用于商用车辆的通信协议,它定义了一套车辆电子控制单元之间进行数据通信的规范。J1939协议…

Java+SpringBoot:滑雪场管理的技术革新

✍✍计算机编程指导师 ⭐⭐个人介绍&#xff1a;自己非常喜欢研究技术问题&#xff01;专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目&#xff1a;有源码或者技术上的问题欢迎在评论区一起讨论交流&#xff01; ⚡⚡ Java实战 |…