基于深度学习的行人重识别

news2024/9/24 17:14:15

目录

1、基于表征学习的ReID方法

2、基于度量学习的ReID方法

(1)对比损失(Contrastive loss)

(2)三元组损失(Triplet loss)

(3) 四元组损失(Quadruplet loss)

(4)难样本采样三元组损失(Triplet loss with batch hard mining, TriHard loss)

(5)边界挖掘损失(Margin sample mining loss, MSML)

(6)各种loss的性能对比

3、基于局部特征的ReID方法


1、基于表征学习的ReID方法

        基于表征学习(Representation learning)的方法是一类非常常用的行人重识别方法[1-4]。这主要得益于深度学习,尤其是卷积神经网络(Convolutional neural network, CNN)的快速发展。由于CNN可以自动从原始的图像数据中根据任务需求自动提取出表征特征(Representation),所以有些研究者把行人重识别问题看做分类(Classification/Identification)问题或者验证(Verification)问题:(1)分类问题是指利用行人的ID或者属性等作为训练标签来训练模型;

(2)验证问题是指输入一对(两张)行人图片,让网络来学习这两张图片是否属于同一个行人。

        论文[1]利用Classification/Identification loss和verification loss来训练网络,其网络示意图如下图所示。网络输入为若干对行人图片,包括分类子网络(Classification Subnet)和验证子网络(Verification Subnet)。分类子网络对图片进行ID预测,根据预测的ID来计算分类误差损失。验证子网络融合两张图片的特征,判断这两张图片是否属于同一个行人,该子网络实质上等于一个二分类网络。经过足够数据的训练,再次输入一张测试图片,网络将自动提取出一个特征,这个特征用于行人重识别任务。

         但是也有论文认为光靠行人的ID信息不足以学习出一个泛化能力足够强的模型。在这些工作中,它们额外标注了行人图片的属性特征,例如性别、头发、衣着等属性。通过引入行人属性标签,模型不但要准确地预测出行人ID,还要预测出各项正确的行人属性,这大大增加了模型的泛化能力,多数论文也显示这种方法是有效的。下图是其中一个示例[2],从图中可以看出,网络输出的特征不仅用于预测行人的ID信息,还用于预测各项行人属性。通过结合ID损失和属性损失能够提高网络的泛化能力。

        如今依然有大量工作是基于表征学习,表征学习也成为了ReID领域的一个非常重要的baseline,并且表征学习的方法比较鲁棒,训练比较稳定,结果也比较容易复现。但是个人的实际经验感觉表征学习容易在数据集的domain上过拟合,并且当训练ID增加到一定程度的时候会显得比较乏力。 

2、基于度量学习的ReID方法

        度量学习(Metric learning)是广泛用于图像检索领域的一种方法。不同于表征学习,度量学习旨在通过网络学习出两张图片的相似度。在行人重识别问题上,具体为同一行人的不同图片相似度大于不同行人的不同图片。最后网络的损失函数使得相同行人图片(正样本对)的距离尽可能小,不同行人图片(负样本对)的距离尽可能大。常用的度量学习损失方法有对比损失(Contrastive loss)[5]、三元组损失(Triplet loss)[6-8]、 四元组损失(Quadruplet loss)[9]、难样本采样三元组损失(Triplet hard loss with batch hard mining, TriHard loss)[10]、边界挖掘损失(Margin sample mining loss, MSML)[11]。首先,假如有两张输入图片 𝐼1 和 𝐼2 ,通过网络的前馈我们可以得到它们归一化后的特征向量 𝑓𝐼1 和 𝑓𝐼2 。我们定义这两张图片特征向量的欧式距离为:

𝑑𝐼1,𝐼2=||𝑓𝐼1−𝑓𝐼2||2

(1)对比损失(Contrastive loss)

        对比损失用于训练孪生网络(Siamese network),其结构图如上图所示。孪生网络的输入为一对(两张)图片 𝐼𝑎 和 𝐼𝑏 ,这两张图片可以为同一行人,也可以为不同行人。每一对训练图片都有一个标签 𝑦 ,其中 𝑦=1 表示两张图片属于同一个行人(正样本对),反之 𝑦=0 表示它们属于不同行人(负样本对)。之后,对比损失函数写作:

𝐿𝑐=𝑦𝑑𝐼𝑎,𝐼𝑏2+(1−𝑦)(𝛼−𝑑𝐼𝑎,𝐼𝑏)+2

        

(2)三元组损失(Triplet loss)

        三元组损失是一种被广泛应用的度量学习损失,之后的大量度量学习方法也是基于三元组损失演变而来。顾名思义,三元组损失需要三张输入图片。和对比损失不同,一个输入的三元组(Triplet)包括一对正样本对和一对负样本对。三张图片分别命名为固定图片(Anchor) 𝑎 ,正样本图片(Positive) 𝑝 和负样本图片(Negative) 𝑛 。图片 𝑎 和图片 𝑝 为一对正样本对,图片 𝑎 和图片 𝑛 为一对负样本对。则三元组损失表示为:

𝐿𝑡=(𝑑𝑎,𝑝−𝑑𝑎,𝑛+𝛼)+

        如下图所示,三元组可以拉近正样本对之间的距离,推开负样本对之间的距离,最后使得相同ID的行人图片在特征空间里形成聚类,达到行人重识别的目的。

        其中 (𝑧)+ 表示 𝑚𝑎𝑥(𝑧,0) , 𝛼 是根据实际需求设计的阈值参数。为了最小化损失函数,当网络输入一对正样本对, 𝑑(𝐼𝑎,𝐼𝑏) 会逐渐变小,即相同ID的行人图片会逐渐在特征空间形成聚类。反之,当网络输入一对负样本对时, 𝑑(𝐼𝑎,𝐼𝑏) 会逐渐变大直到超过设定的 𝛼 。通过最小化 𝐿𝑐 ,最后可以使得正样本对之间的距离逐渐变小,负样本对之间的距离逐渐变大,从而满足行人重识别任务的需要。

 

论文[8]认为原版的Triplet loss只考虑正负样本对之间的相对距离,而并没有考虑正样本对之间的绝对距离,为此提出改进三元组损失(Improved triplet loss):

𝐿𝑖𝑡=𝑑𝑎,𝑝+(𝑑𝑎,𝑝−𝑑𝑎,𝑛+𝛼)+

公式添加 𝑑𝑎,𝑝 项,保证网络不仅能够在特征空间把正负样本推开,也能保证正样本对之间的距离很近。

(3) 四元组损失(Quadruplet loss)

        四元组损失是三元组损失的另一个改进版本。顾名思义,四元组(Quadruplet)需要四张输入图片,和三元组不同的是多了一张负样本图片。即四张图片为固定图片(Anchor) 𝑎 ,正样本图片(Positive) 𝑝 ,负样本图片1(Negative1) 𝑛1 和负样本图片2(Negative2) 𝑛2 。其中 𝑛1 和 𝑛2 是两张不同行人ID的图片,其结构如上图所示。则四元组损失表示为:

𝑞=(𝑑𝑎,𝑝−𝑑𝑎,𝑛1+𝛼)++(𝑑𝑎,𝑝−𝑑𝑛1,𝑛2+𝛽)+

        其中 𝛼 和 𝛽 是手动设置的正常数,通常设置 𝛽 小于 𝛼 ,前一项称为强推动,后一项称为弱推动。相比于三元组损失只考虑正负样本间的相对距离,四元组添加的第二项不共享ID,所以考虑的是正负样本间的绝对距离。因此,四元组损失通常能让模型学习到更好的表征。

(4)难样本采样三元组损失(Triplet loss with batch hard mining, TriHard loss)

        难样采样三元组损失(本文之后用TriHard损失表示)是三元组损失的改进版。传统的三元组随机从训练数据中抽样三张图片,这样的做法虽然比较简单,但是抽样出来的大部分都是简单易区分的样本对。如果大量训练的样本对都是简单的样本对,那么这是不利于网络学习到更好的表征。大量论文发现用更难的样本去训练网络能够提高网络的泛化能力,而采样难样本对的方法很多。论文[10]提出了一种基于训练批量(Batch)的在线难样本采样方法——TriHard Loss。

        TriHard损失的核心思想是:对于每一个训练batch,随机挑选 𝑃 个ID的行人,每个行人随机挑选 𝐾 张不同的图片,即一个batch含有 𝑃×𝐾 张图片。之后对于batch中的每一张图片 𝑎 ,我们可以挑选一个最难的正样本和一个最难的负样本和 𝑎 组成一个三元组。

        首先我们定义和 𝑎 为相同ID的图片集为 𝐴 ,剩下不同ID的图片图片集为 𝐵 ,则TriHard损失表示为:

𝐿𝑡ℎ=1𝑃×𝐾∑𝑎∈𝑏𝑎𝑡𝑐ℎ(max𝑝∈𝐴𝑑𝑎,𝑝−min𝑛∈𝐵𝑑𝑎,𝑛+𝛼)+

        其中 𝛼 是人为设定的阈值参数。TriHard损失会计算 𝑎 和batch中的每一张图片在特征空间的欧式距离,然后选出与 𝑎 距离最远(最不像)的正样本 𝑝 和距离最近(最像)的负样本 𝑛 来计算三元组损失。通常TriHard损失效果比传统的三元组损失要好。

(5)边界挖掘损失(Margin sample mining loss, MSML)

        边界样本挖掘损失(MSML)是一种引入难样本采样思想的度量学习方法。三元组损失只考虑了正负样本对之间的相对距离。为了引入正负样本对之间的绝对距离,四元组损失加入一张负样本组成了四元组{𝑎,𝑝,𝑛1,𝑛2}。四元组损失也定义为:

𝐿𝑞=(𝑑𝑎,𝑝−𝑑𝑎,𝑛1+𝛼)++(𝑑𝑎,𝑝−𝑑𝑛1,𝑛2+𝛽)+

        假如我们忽视参数 𝛼 和 𝛽 的影响,我们可以用一种更加通用的形式表示四元组损失:

𝐿𝑞′=(𝑑𝑎,𝑝−𝑑𝑚,𝑛+𝛼)+

        其中 𝑚 和 𝑛 是一对负样本对, 𝑚 和 𝑎 既可以是一对正样本对也可以是一对负样本对。之后把TriHard loss的难样本挖掘思想引入进来,便可以得到:

𝐿𝑚𝑠𝑚𝑙=(max𝑎,𝑝𝑑𝑎,𝑝−min𝑚,𝑛𝑑𝑚,𝑛+𝛼)+

        其中 𝑎,𝑝,𝑚,𝑛 均是batch中的图片, 𝑎,𝑝 是batch中最不像的正样本对, 𝑚,𝑛 是batch 中最像的负样本对, 𝑎,𝑚 皆可以是正样本对也可以是负样本对。概括而言TriHard损失是针对batch中的每一张图片都挑选了一个三元组,而MSML损失只挑选出最难的一个正样本对和最难的一个负样本对计算损失。所以MSML是比TriHard更难的一种难样本采样,此外 max𝑎,𝑝𝑑𝑎,𝑝 可以看作是正样本对距离的上界, min𝑚,𝑛𝑑𝑚,𝑛 可以看作是负样本对的下界。MSML是为了把正负样本对的边界给推开,因此命名为边界样本挖掘损失。总的概括,MSML是同时兼顾相对距离和绝对距离并引入了难样本采样思想的度量学习方法。其演变思想如下图:

(6)各种loss的性能对比

在论文[11]之中,对上面提到的主要损失函数在尽可能公平的实验的条件下进行性能对比,实验结果如下表所示。作为一个参考

 

3、基于局部特征的ReID方法

早期的ReID研究大家还主要关注点在全局的global feature上,就是用整图得到一个特征向量进行图像检索。但是后来大家逐渐发现全局特征遇到了瓶颈,于是开始渐渐研究起局部的local feature。常用的提取局部特征的思路主要有图像切块、利用骨架关键点定位以及姿态矫正等等。

(1)图片切块是一种很常见的提取局部特征方式[12]。如下图所示,图片被垂直等分为若干份,因为垂直切割更符合我们对人体识别的直观感受,所以行人重识别领域很少用到水平切割。

 

之后,被分割好的若干块图像块按照顺序送到一个长短时记忆网络(Long short term memory network, LSTM),最后的特征融合了所有图像块的局部特征。但是这种缺点在于对图像对齐的要求比较高,如果两幅图像没有上下对齐,那么很可能出现头和上身对比的现象,反而使得模型判断错误。

(2)为了解决图像不对齐情况下手动图像切片失效的问题,一些论文利用一些先验知识先将行人进行对齐,这些先验知识主要是预训练的人体姿态(Pose)和骨架关键点(Skeleton) 模型。论文[13]先用姿态估计的模型估计出行人的关键点,然后用仿射变换使得相同的关键点对齐。如下图所示,一个行人通常被分为14个关键点,这14个关键点把人体结果分为若干个区域。为了提取不同尺度上的局部特征,作者设定了三个不同的PoseBox组合。之后这三个PoseBox矫正后的图片和原始为矫正的图片一起送到网络里去提取特征,这个特征包含了全局信息和局部信息。特别提出,这个仿射变换可以在进入网络之前的预处理中进行,也可以在输入到网络后进行。如果是后者的话需要需要对仿射变换做一个改进,因为传统的仿射变化是不可导的。为了使得网络可以训练,需要引入可导的近似放射变化,在本文中不赘述相关知识。

 (3)CVPR2017的工作Spindle Net[14]也利用了14个人体关键点来提取局部特征。和论文[12]不同的是,Spindle Net并没有用仿射变换来对齐局部图像区域,而是直接利用这些关键点来抠出感兴趣区域(Region of interest, ROI)。Spindle Net网络如下图所示,首先通过骨架关键点提取的网络提取14个人体关键点,之后利用这些关键点提取7个人体结构ROI。网络中所有提取特征的CNN(橙色表示)参数都是共享的,这个CNN分成了线性的三个子网络FEN-C1、FEN-C2、FEN-C3。对于输入的一张行人图片,有一个预训练好的骨架关键点提取CNN(蓝色表示)来获得14个人体关键点,从而得到7个ROI区域,其中包括三个大区域(头、上身、下身)和四个四肢小区域。这7个ROI区域和原始图片进入同一个CNN网络提取特征。原始图片经过完整的CNN得到一个全局特征。三个大区域经过FEN-C2和FEN-C3子网络得到三个局部特征。四个四肢区域经过FEN-C3子网络得到四个局部特征。之后这8个特征按照图示的方式在不同的尺度进行联结,最终得到一个融合全局特征和多个尺度局部特征的行人重识别特征。

(4)论文[15]提出了一种全局-局部对齐特征描述子(Global-Local-Alignment Descriptor, GLAD),来解决行人姿态变化的问题。与Spindle Net类似,GLAD利用提取的人体关键点把图片分为头部、上身和下身三个部分。之后将整图和三个局部图片一起输入到一个参数共享CNN网络中,最后提取的特征融合了全局和局部的特征。为了适应不同分辨率大小的图片输入,网络利用全局平均池化(Global average pooling, GAP)来提取各自的特征。和Spindle Net略微不同的是四个输入图片各自计算对应的损失,而不是融合为一个特征计算一个总的损失。

 (5)以上所有的局部特征对齐方法都需要一个额外的骨架关键点或者姿态估计的模型。而训练一个可以达到实用程度的模型需要收集足够多的训练数据,这个代价是非常大的。为了解决以上问题,AlignedReID[16]提出基于SP距离的自动对齐模型,在不需要额外信息的情况下来自动对齐局部特征。而采用的方法就是动态对齐算法,或者也叫最短路径距离。这个最短距离就是自动计算出的local distance。

这个local distance可以和任何global distance的方法结合起来,论文[15]选择以TriHard loss作为baseline实验,最后整个网络的结构如下图所示,具体细节可以去看原论文。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1920819.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

React+TS前台项目实战(三十)-- 首页构建之基于react-query和性能hook实现全页面数据渲染

文章目录 前言一、首页源码详细注释说明技术分析1. 页面功能分析2. 代码详细注释 二、效果展示总结 前言 前三篇文章详细介绍了首页的响应式布局,采用关注点分离进行模块拆解,现在只需按需引入模块,页面更加简洁,代码的维护性得到…

【鸿蒙学习笔记】关系型数据库概述

目录标题 关系型数据库的运行机制样例代码共通方法 DBUtilsIndex 代码效果 关系型数据库的运行机制 1、 关系型数据库对应用提供通用的操作接口,底层使用SQLite作为持久化存储引擎,支持SQLite具有的数据库特性,包括但不限于事务、索引、视图…

MongoDB教程(一):Linux系统安装mongoDB详细教程

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 文章目录 引言一、Ubuntu…

【单片机毕业设计选题24059】-太阳能嵌入式智能充电系统研究

系统功能: 系统由太阳能电池板提供电源, 系统上电后显示“欢迎使用智能充电系统请稍后”, 两秒钟后进入主页面显示。 第一行显示太阳能电池板输入的电压值 第二行显示系统输出的电压值 第三行显示采集到的太阳能电池板温度 第四行显示设置的太阳能…

【Linux杂货铺】1.环境变量

1.环境变量基本概念 环境变量( environment variables )一般是指在操作系统中用来指定操作系统运行环境的一些参数。如:我们在编写 C / C +代码的时候,在链接的时候,从来不知道我们的所链接的动态静态库在哪…

信创会不会烂尾

最近又有不少人开始忽悠信创概念了,感觉这又是部分人发财的噱头,集体资源浪费的开始! 我们软件业几代人和全世界的差距能短时间内追上?人家会本着友谊第一比赛第二的原则,站在原地等你追?然后和你一起相扶到美好的未来&#xff1…

华为HCIP Datacom H12-821 卷37

1.多选题 下面关于Network- Summary-LSA 描述正确的是 A、Network- Summary-LSA中的Metric被设置成从该ABR到达目的网段的开销值 B、Network- Sumary-LSA中的Net mask 被设置成目的网段的网络掩码 C、Network- Summary-LSA 是由ASBR产生的 D、Network- Summary-LSA 中的Li…

年度必看|2024全球工业网络市场份额预测报告

重点摘要 每年,HMS Networks 都会对工业网络市场进行全面分析,旨在估计工厂自动化中按类型和协议划分的新连接节点的分布情况。最新研究表明,工业网络市场继续扩张,预计 2024 年将增长 7%。值得注意的是,工业以太网仍然…

python 实验八 数据分析与展示

一、实验目的 掌握掌握matplotlib库中pyplot模块的使用。 二、实验环境 Window10(x64),Python 3.8(x64),PyCharm Community Edition 2020.3.2(x64) 三、实验内容 现有列表hight…

WAV 和 FLAC 哪个音质好?常见音频格式又如何转换?

音频文件的格式种类繁多,每种格式都有其独特的优势和应用场景。其中,WAV 和 FLAC 作为两种常见的无损音频格式,备受音频发烧友和专业人士的青睐。它们不仅能够保留原始录音的全部细节,还为听众提供了近乎 CD 品质的听觉体验。然而…

文字转语音免费工具有哪些?嘎嘎好使的配音工具推荐

每天刷视频看多了大家随手创作的各种生活小段子,自己不免也心痒痒地想玩上一把,可奈何却搞不懂各种旁白配音怎么弄。 好在经过一番摸索之后,可算是被我整明白免费文字转语音该怎么操作了!接下来就把我搜集到的4款宝藏配音神器整理…

Windows 怎么删除D盘?多种方法详解!

有关Windows电脑的文件整理,文章详细介绍了怎么删除D盘的多种方法,释放不必要的空间。 “我最近在整理电脑文件的时候遇到一个问题,我想请教一下大家。我的Windows电脑上有一个D盘,里面存放了一些不需要的文件,我想彻…

PE73_D_E6_BLE

产品参数 产品型号 PE73_D_E6_BLE 尺寸(mm) 176.2*137.15*80mm 显示技术 电子墨水屏双面显示 显示区域(mm) 163.2(H) * 97.92(V) 分辨率(像素) 800*480 外观颜色 银色 显示颜色 黑/白/红/黄/蓝/绿 视觉角度 180 工作温度 15-35℃ 产品重量 268g 电池容…

ABAQUS广东正版代理商:亿达四方——达索官方授权

在粤港澳大湾区建设的浪潮中,广东作为中国改革开放的前沿阵地,始终走在科技创新的最前线。亿达四方,作为国际领先的仿真软件ABAQUS在广东地区的官方授权代理商,正以先进的技术和服务,推动着广东地区制造业向智能化、高…

自然语言处理:第四十二章 RAG与LLM原先知识冲突时,大模型会如何处理?

文章链接:7B?13B?175B?解读大模型的参数 (qq.com) 写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!! 写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!! 写在前面: 笔者更新…

vue 使用腾讯地图 标点 自定义瓦片 折线配置

vue 使用腾讯地图 标点 自定义瓦片 折线配置 申请腾讯地图秘钥 key 腾讯地图开发者 https://lbs.qq.com/dev/console/application/mine 腾讯地图开发文档 https://lbs.qq.com/webApi/javascriptGL/glGuide/glOverview 添加 key 代码中引入 // 入口文件 index.html // 填…

Ambari Hive 创建函数无权限

作者:櫰木 1、创建udf函数 参考文档:https://blog.csdn.net/helloxiaozhe/article/details/102498567 如果已经编写好,请使用自己的。如果没有请参考以上链接进行udf函数编写。 2、创建函数遇到的问题 由于集群开启了kerberos&#xff0…

UART编程

Q:为什么使用串口前要先在电脑上安装CH340驱动? 三种编程方式简介 也可以通过DMA方式减小CPU资源的消耗 直接把数据在SRAM内存和UART模块进行传输 ,流程: 把数据在DMA中配置好数据传输产生中断,CPU介入 编程方式改进 1、查询…

求职学习笔记day1

自己一直算是一个内耗拖延的人,内耗着考了研,内耗着拖着不找工作,一直拖到了毕业。研究生没考上,工作没有,也羡慕着别人成功的生活,最后毕业的也不太开心。 一、最近总结 游戏 高考结束以来和大学期间作息…

Proteus + Keil单片机仿真教程(六)多位LED数码管的动态显示

上一节我们通过锁存器和八个八位数码管实现了多个数码管的静态显示,这节主要讲解多位数码管的动态显示,所谓的动态显示就是对两个锁存器的控制。考虑一个问题,现在给WS位锁存器增加一个循环,让它从1111 1110到0111 1111会发生什么事情?话不多说,先上代码: #include<…