ReID专栏(一) 任务与数据集概述

news2025/1/9 2:20:13

前言 本专栏针对Closed-world的ReID任务,首先介绍本任务的目标与主要数据集,包括行人重识别、跨模态行人重识别与车辆重识别。然后从三类表征学习的角度解读相关论文,表征学习是本任务的核心,大量重识别工作都致力于提高表征学习的性能。再次,我们介绍了度量学习和排序优化的发展。最后,我们解读了重识别领域最新的研究方法和研究思路。

本教程禁止转载。同时,本教程来自知识星球【CV技术指南】更多技术教程,可加入星球学习。

Transformer、目标检测、语义分割交流群

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

任务概述

ReID( Re-identification),是利用计算机视觉技术判断图像或视频中是否存在特定行人或车辆的技术,它是属于图像检索的一个子任务。ReID的概念最早在2006年的CVPR会议上被提出,简单来说,在监控拍不到目标的情况下,ReID可以代替行人、车辆识别来在视频中找到目标对象。

现阶段的reid问题主要分为两大类:closed-world和open-world。closed-world重在研究,主要是从一大堆行人或车辆的bounding box图片中去检索目标,而open-world重在“落地”,主要是直接从视频中去检索目标,或者是偏向无监督、弱监督学习。以下是两个world的具体区别:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u8e5DRVr-1685697928709)(image/task1.jpg)]

ReID作为匹配任务在测试时会用到两个数据集,Query sets 和Gallery sets,主要有以下特征:
ReID数据集:
1.数据集分为训练集、验证集、Query sets、Gallery sets
2.数据集通常是通过人工标注或者检测算法得到的行人、车辆图片,目前与检测独立,每个行人或车辆为一个类别子集
3.在训练集上进行模型的训练,得到模型后对Query与Gallery中的图片提取特征计算相似度,对于每个Query在Gallery中找出前N个与其相似的图片
4.训练、测试中目标身份不重复

总体步骤:

行人重识别

任务难点:

  • Gallery中同一个行人照片的视角不一样

  • 光照条件不一样

  • 行人在照片中的尺寸很小,也就导致了行人的bounding box像素很低

  • 行人的姿势不一样

  • 可能存在遮挡

而对于现实的“落地”,难点就更多了:

  • 摄像机可能在不断增加,拍摄的场景也就更加复杂
  • Gallery十分巨大
  • 训练时可能不存在标注的信息(也就是需要无监督或者弱监督学习)
  • 对网络的泛化能力要求很高(跨域)
  • testing环节是未知的
  • 行人可能换衣服了

数据集

单模态

经典数据集:

Market-1501:Person Re-Identification Meets Image Search:

链接:https://pan.baidu.com/s/1ntIi2Op

2015年,论文 Person Re-Identification Meets Image Search 提出了 Market 1501 数据集,现在 Market 1501 数据集已经成为行人重识别领域最常用的数据集之一。

Market 1501 的行人图片采集自清华大学校园的 6 个摄像头,一共标注了 1501 个行人。其中,751 个行人标注用于训练集,750 个行人标注用于测试集,训练集和测试集中没有重复的行人 ID,也就是说出现在训练集中的 751 个行人均未出现在测试集中。

训练集:751 个行人,12936 张图片
测试集:750 个行人,19732 张图片
query 集:750 个行人,3368 张图片
query 集的行人图片都是手动标注的图片,从 6 个摄像头中为测试集中的每个行人选取一张图片,构成 query 集。测试集中的每个行人至多有 6 张图片,query 集共有 3368 张图片。

网络模型训练时,会用到训练集;测试模型好坏时,会用到测试集和 query 集。此时测试集也被称作 gallery 集。因此实际用到的子集为,训练集、gallery 集 和 query 集。

MARS: A Video Benchmark for Large-Scale Person Re-identification(基于视频)

链接:https://pan.baidu.com/s/1XKBdY8437O79FnjWvkjusw 提取码: ymc5

考虑了视频中的人员再识别(reid)问题,本文介绍了一个新的视频reid数据集,名为运动分析和重新识别集(MARS),是Market-1501 datase数据集的视频扩展。

MARS是迄今为止最大的视频reid数据集,它包含1,261个id和大约20,000个tracklet,与基于图像的数据集相比,它提供了丰富的视觉信息。

DukeMTMC-reID:Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro

链接:https://drive.google.com/open?id=1jjE85dRCMOgRtvJ5RQV9-Afs-2_5dY3O

它的行人数据来源于论文 Performance Measures and a Data Set for Multi-Target, Multi-Camera Tracking 提出的行人追踪 DukeMTMC 数据集,DukeMTMC-reID 是 DukeMTMC 数据集的一个子集。需要注意的是,该数据集存在隐私泄露问题,作者已在官方渠道下架数据集。目前部分顶会文章仍在使用。

DukeMTMC 数据集采集自 Duke 大学的 8 个摄像头,数据集以视频形式存储,具有手动标注的行人边界框。DukeMTMC-reID 数据集从 DukeMTMC 数据集的视频中,每 120 帧采集一张图像构成 DukeMTMC-reID 数据集。原始数据集包含了85分钟的高分辨率视频,采集自8个不同的摄像头。并且提供了人工标注的bounding box。从视频中每120帧采样一张图像,得到了 36,411张图像。一共有1,404个人出现在大于两个摄像头下,有408个人只出现在一个摄像头下。所以作者随机采样了 702 个人作为训练集,702个人作为测试集。在测试集中,采样了每个ID的每个摄像头下的一张照片作为 查询图像(query)。剩下的图像加入测试的 搜索库(gallery),并且将之前的 408人作为干扰项,也加到 gallery中。最终,DukeMTMC-reID 包含了 16,522张训练图片(来自702个人), 2,228个查询图像(来自另外的702个人),以及 17,661 张图像的搜索库(gallery)。并提供切割后的图像供下载。

跨模态

RegDB:Person Recognition System Based on a Combination of Body Images from Visible Light and Thermal Cameras

数据集RegDB包含了412个行人身份,每个行人收集了10张RGB图像和10张热图像,其中有254个女性和158个男性,并且412个人中有156个人是从正面拍摄,256个人从背面拍摄。

SYSU-MM01(最常用)

链接:https://pan.baidu.com/share/init?surl=mAp_722PlqXCLYAzJi5mSw 提取码:sysu

491和人物ID,296个用于训练,99个用于验证,96个用于测试,287,628 RGB images and 15,792 IR images。4个RGB相机,2个红外相机。

SYSU_MM01数据集共包含七个文件夹, 其中cam1,cam2,cam4,cam5均为RGB图像,cam3和cam6为IR(Infrared)图像.

车辆重识别

任务难点:

  • 摄像机的拍摄角度不同
  • 光照强度不同
  • 车辆间遮挡、环境遮挡
  • 色差变化
  • 车头车尾角度不同
  • 同型号车相似度极高

数据集

VeRi776:A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance

链接:https://vehiclereid.github.io/VeRi/

包含超过50,000张776辆车的图像,这些图像由20台摄像机拍摄,在24小时内覆盖1.0平方公里的面积,这使得该数据集可扩展到足以用于车辆Re-Id和其他相关研究。图像是在真实世界的无约束监视场景中捕获的,并标有不同的属性,例如: BBox,类型,颜色和品牌。因此可以学习和评估车辆Re-Id的复杂模型。每辆车在不同的视点,照明,分辨率和遮挡下由2~18台摄像机拍摄,在实际监控环境中为车辆Re-Id提供高复发率。 它还标有足够的牌照和时空信息,例如板块的BBox,板条,车辆的时间戳以及相邻相机之间的距离。

VehicleID:Deep Relative Distance Learning: Tell the Difference Between Similar Vehicles

链接:https://www.pkuml.org/resources/pku-vehicleid.html

数据集包含白天在中国一个小城市中分布的多个真实监控摄像头捕获的数据,其中包括26267辆车(共221763张图像),主要包含前后两种视角,且每张图像除了车辆ID、摄像头编号的标注信息以外,还有车辆型号的详细信息(共 250 种厂商车型),为了使车辆再识别方法的性能评测更加全面,VehicleID将测试集按照车辆图像的尺寸划分为大、中、小3个子集。 每个图像都带有一个与现实世界中的身份相对应的id标签。 此外,作者手动标记了10319辆车辆(共90196张图像)的车辆型号信息。

VERI-Wild: A Large Dataset and a New Method for Vehicle Re-Identification in the Wild

链接:https://pan.baidu.com/share/init?surl=FzvR5iRQgh8ZbSYZPbi9aQ 提取码:kob9

该数据集收集于市郊地区,包含174个交通摄像头拍摄的 416 314 张关于 40 671 辆汽车的图像。VERI-Wild是在超过200平方公里的市郊地区收集得到的,摄像机是24小时连续拍摄30天,其长时间的连续拍摄考虑了车辆真实的各种天气和光照问题,因此车辆在被捕获的过程中不受过多限制,且车辆所处场景更加丰富,车辆图像的采集时间跨度长,光照和天气的变化十分明显。训练集包括277 797张图像(共30 671辆汽车),测试集包括138 517张图像(共10 000辆汽车)。同样地,VERI-Wild的测试集也根据图像尺寸被分为了大、中、小3个子集。

评价指标

  1. Rank-n:图像库搜索中置信度最靠前的 n 张图片中有正确结果的概率。例如 Rank-5 代表,搜索库中计算置信度排序,置信度最高的前 5 张图片中有正确结果的概率。

  2. mAP 与 mINP:AP 的计算和目标检测 AP 计算类似,即求不同 Recall 对应Precision 的平均值,mAP 为 AP 的平均值;mINP(mean Inverse Negative Penalty)计算公式如下:

    即 平均逆置负样本惩罚率。

小结

在后续的分享中,我们将从全局表征学习、局部表征学习和f辅助表征学习的思路去详细介绍这一领域的发展,然后介绍重识别中有关度量方法的进展,这与其他视觉任务的度量有较大区别。最后,我们总结重识别最新的赛道和未来的发展方向。


欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

模型部署交流群:732145323。用于计算机视觉方面的模型部署、高性能计算、优化加速、技术学习等方面的交流。

其它文章

ICLR 2023 | RevCol:可逆的多 column 网络,大模型架构设计新范式

CVPR 2023 | 即插即用的注意力模块 HAT: 激活更多有用的像素助力low-level任务显著涨点!

ICML 2023 | 轻量级视觉Transformer (ViT) 的预训练实践手册

即插即用系列 | 高效多尺度注意力模块EMA成为YOLOv5改进的小帮手

即插即用系列 | Meta 新作 MMViT: 基于交叉注意力机制的多尺度和多视角编码神经网络架构

全新YOLO模型YOLOCS来啦 | 面面俱到地改进YOLOv5的Backbone/Neck/Head

ReID专栏(三) 注意力的应用

ReID专栏(二)多尺度设计与应用

ReID专栏(一) 任务与数据集概述

libtorch教程(三)简单模型搭建

libtorch教程(二)张量的常规操作

libtorch教程(一)开发环境搭建:VS+libtorch和Qt+libtorch

异常检测专栏(三)传统的异常检测算法——上

异常检测专栏(二):评价指标及常用数据集

异常检测专栏(一)异常检测概述

【CV技术指南】咱们自己的CV全栈指导班、基础入门班、论文指导班 全面上线!!_

CV最全知识体系和技术教程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/602628.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uboot源码结构、配置、编译

目录 1.uboot源码结构 1.1uboot源码获取 1.2 uboot的特点 1.3 uboot源码结构 2、uboot配置与编译 2.1uboot配置 2.2 uboot编译 1.uboot源码结构 1.1uboot源码获取 uboot是一个开源的软件。开源有两层含义。一是可以免费用、二是开放源代码 uboot源码下载 http://www.denx…

记一次线上MQ堆积问题处理

背景 线上订单服务10个POD节点,某kafka tpoic原有6个分区。 问题现象 上午11.30左右一波下单高峰,根据分布式消息告警发现有少量消息堆积,但是堆积量不大,持续几分钟后恢复正常。 下午1点后出现新一轮高峰,出现了大…

window环境安装kafka

一、配置系统环境变量 JAVA_HOME 二、配置安装zookeeper 1、下载安装包 https://zookeeper.apache.org/releases.html#download 2、 解压并进入ZooKeeper目录,如:D:\kafka\zookeeper\conf, 将“zoo_sample.cfg”重命名为“zoo.cfg”, 3、打开“zoo.c…

机器学习集成学习——GBDT(Gradient Boosting Decision Tree 梯度提升决策树)算法

系列文章目录 机器学习神经网络——Adaboost分离器算法 机器学习之SVM分类器介绍——核函数、SVM分类器的使用 机器学习的一些常见算法介绍【线性回归,岭回归,套索回归,弹性网络】 文章目录 系列文章目录 前言 一、GBDT(Gradient Boos…

PHP学习笔记第三天

前言 作者简介:不知名白帽,网络安全学习者。 博客主页:不知名白帽的博客_CSDN博客-网络安全,CTF,内网渗透领域博主 网络安全交流社区:https://bbs.csdn.net/forums/angluoanquan 目录 PHP if..else PHP switch PHP数组 PHP数…

【AI 孙燕姿 || AI 音色转换】RVC 使用图文教程:教你如何实现无难度男女换声(伪音)以及 AI 孙燕姿!

最近,视频网站音乐区up主掀了“AI孙燕姿”的风潮。这种使用AI技术提取某位歌手的音色,再用其替换另一位歌手音色的方式,可以实现接近歌手本人翻唱的逼真效果。除孙燕姿外,面对周杰伦、陶喆、陈奕迅、王菲等众多具有独特嗓音的歌手…

YOLOv3: An Incremental Improvement 全文翻译

YOLOv3 论文全篇完整翻译 摘要 本文介绍了YOLO的一些更新内容!我们进行了一系列小的设计改进,以使其更好。我们还训练了一个相当不错的新网络。它比上一版稍微大一些,但更加准确。不过不用担心,它依然保持了快速性能。在320320像…

C++数据结构:图结构入门

C数据结构 线性顺序表(数组) 线性顺序表(链表) Python风格双向链表的实现 散列表简单实现(hash表) 栈和队列的应用 二叉树之一(数组存储) 二叉树之二(二叉搜索树&#x…

驱动开发:内核PE结构VA与FOA转换

本章将继续探索内核中解析PE文件的相关内容,PE文件中FOA与VA,RVA之间的转换也是很重要的,所谓的FOA是文件中的地址,VA则是内存装入后的虚拟地址,RVA是内存基址与当前地址的相对偏移,本章还是需要用到《驱动开发&#x…

第二十篇、基于Arduino uno,获取MFRC-522 RFID射频IC卡模块的信息,并进行识别——结果导向

0、结果 说明:先来看看串口调试助手显示的结果,"卡号"对应的是IC卡的卡号,"1号已进入"表示识别到正确的卡,也就是之前录入的卡号,因此可以应用到门禁。如果是你想要的,可以接着往下看…

OLED和LCD对比

OLED和LCD对比 今天等离子已不复存在,OLED 出现了新的竞争者。在本概述中,我们将了解这两种技术之间的差异、优缺点等。 我们将从简短介绍每种显示技术的工作原理开始。我们将使用术语“面板”,因为显示技术是功能性电视屏幕的一个组成部分…

(字符串 ) 151. 反转字符串中的单词 ——【Leetcode每日一题】

❓151. 反转字符串中的单词 难度:中等 给你一个字符串 s ,请你反转字符串中 单词 的顺序。 单词 是由非空格字符组成的字符串。s 中使用至少一个空格将字符串中的 单词 分隔开。 返回 单词 顺序颠倒且 单词 之间用单个空格连接的结果字符串。 注意&…

面向对象编程 实验三 sduwh 子窗口与控件的基本用法、资源的使用 参考实验报告1

源自网络收集,仅供参考 实验三收集到两份完整报告,这是其一,另一份见本专栏下一篇文章。 实验题目 《面向对象程序设计》 实验三 实验题目:子窗口与控件的基本用法、资源的使用 整体目的:理解、窗口之间的消息传送…

DAY08_JavaScrip

目录 1 JavaScript1.1 JavaScript简介1.2 JavaScript引入方式1.2.1 内联脚本1.2.2 内部脚本1.2.3 外部脚本 1.3 JavaScript基础语法1.3.1 书写语法1.3.2 输出语句1.3.3 变量1.3.4 数据类型1.3.5 运算符1.3.5.1 \和区别1.3.5.2 类型转换 1.3.6 流程控制语句1.3.6.1 if 语句1.3.6…

常见设计模式

单例模式 单例对象的类必须保证只有一个实例存在,整个系统只能使用一个对象实例,优点:不会频繁地创建和销毁对象,浪费系统资源。缺点是没有抽象层,难以扩展。 单例模式的常见写法: 饿汉式单例模式的写法&…

免安装版MySQL数据库的安装和卸载

说明:MySQL早些版本有分安装版和免安装版,可在官网(https://dev.mysql.com/downloads/mysql/)下载,推荐使用最新版本,是免安装版的,下载完配置一下就可以用。 推荐使用最新版本 安装 我这里以…

第3章“程序的机器级表示”:过程

文章目录 3.7 过程3.7.1 栈帧3.7.2 转移控制3.7.3 寄存器使用惯例3.7.4 过程示例3.7.5 递归过程 3.7 过程 一个过程调用包括将数据(以过程参数和返回值的形式)和控制从代码的一部分传递到另一部分。另外,它还必须在进入时为过程的局部变量分…

金融人不能错过的中国人民大学与加拿大女王大学金融硕士,你不能不知道

金融行业是一个发展飞速的行业,越来越多的优秀人士的涌入,让本就卷起来的金融行业变得异常拥挤,怎么办,想留有一席之地只能不断的提升与攀登,金融人不能错过的中国人民大学与加拿大女王大学金融硕士,你不能…

架构EA演进

架构演进 目录概述需求: 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy,skip hardness,make a better result,wait for change,challenge Survive. happy for hardess to solve den…

spring cloud搭建(service)

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…