TIFS-2024 细粒度表示和重组在换衣行人重识别中的应用

news2024/11/28 12:50:10

总体结论

本文提出了一种新的细粒度表示与重构(FIRe2)框架,用于解决布变人重识别问题。通过细粒度特征挖掘和属性重构,FIRe2在不依赖任何辅助信息的情况下,实现了最先进的性能。该方法在多个基准数据集上取得了显著的成果,展示了其在现实世界应用中的潜力。

优点与创新

  1. 提出了一个新的框架FIRe2,用于解决换衣人Re-ID问题,仅需RGB图像作为输入,能够提取身份相关和衣物无关的特征。
  2. 设计了一个细粒度特征挖掘(FFM)模块,通过聚类获取每个人的细粒度伪标签和属性,并引入属性感知分类损失以促进细粒度表示学习。
  3. 提出了一个细粒度属性重构(FAR)模块,通过在潜在空间中重构不同属性的图像特征来有效地丰富特征表示。

不足与反思

  1. 聚类操作可能会在训练过程中带来额外的内存消耗和时间成本,聚类的质量可能会影响最终结果。
  2. 未来将探索更先进的属性聚类和重构方法,以期实现更大的改进。

关键问题及回答

问题1:细粒度特征挖掘(FFM)模块是如何设计的?它在细粒度学习中的作用是什么?

细粒度特征挖掘(FFM)模块通过聚类分别对每个人的图像进行聚类。具体来说,首先构建一个CNN模型来提取图像特征,然后使用DBSCAN算法对这些特征进行聚类。聚类过程中不需要预先指定聚类数目,DBSCAN算法会根据数据本身的相似性自动形成聚类。聚类完成后,每个聚类会被赋予一个细粒度伪标签,这些标签在不同的人之间不共享。通过引入属性感知的分类损失,模型被鼓励学习到与这些伪标签相关的细粒度特征,从而提升身份相关特征的辨别力。

问题2:细粒度属性重构(FAR)模块是如何工作的?它在特征增强方面的效果如何?

细粒度属性重构(FAR)模块通过在潜在空间中重构不同属性的图像特征来增强鲁棒的特征学习。具体操作是,采用实例归一化来解耦输入图像的原始属性,然后在同一批次的图像之间重构不同的属性。例如,对于输入图像的某个部位,先计算其均值和标准差,然后将这些属性替换为来自其他图像的新属性。通过这种方式,模型能够学习到更加丰富和多样的特征表示,从而提高对不同衣物变化的鲁棒性。实验结果表明,FAR模块在布变设置下能够带来2.9%到4.3%的Rank-1准确率和mAP提升。

问题3:FIRe2方法在多个数据集上的表现如何?它是如何验证其有效性的?

FIRe2方法在五个广泛使用的布变人重识别基准上进行了评估,包括PRCC、LTCC、Celeb-reID、DeepChange和LaST。在PRCC数据集上,FIRe2在标准设置和布变设置下分别达到了65.0%和63.1%的Rank-1准确率和mAP。在LTCC数据集上,FIRe2在标准设置和布变设置下分别达到了44.6%和19.1%的Rank-1准确率和mAP。在Celeb-reID数据集上,FIRe2在没有衣物注释的情况下,Rank-1准确率和mAP分别达到了64.0%和18.2%。在DeepChange和LaST数据集上,FIRe2也表现出色,分别超越了ResNet-50基线和ViT-B/16模型,并在LaST数据集上达到了75.0%的Rank-1准确率和32.2%的mAP。通过这些结果,FIRe2展示了其在布变人重识别任务中的有效性。

研究背景

  1. 研究问题:这篇文章要解决的问题是布变人重识别(Re-ID),即在不同的摄像头下识别同一个人的身份。现有的方法主要依赖于辅助信息来促进身份相关特征的学习,但这些信息在现实应用中可能不可用。
  2. 研究难点:该问题的研究难点包括:缺乏具有辨别力的特征和有限的训练样本。现有方法通常利用形状或步态的软生物特征以及额外的衣物标签来辅助学习,但这些信息在现实世界中往往不可用。
  3. 相关工作:该问题的研究相关工作有:传统的短期场景下的人重识别方法、利用生成模型合成不同衣物的图像、利用辅助模态(如关键点、轮廓、步态和3D形状)的方法、以及最近利用轻量级衣物标签信息的方法。

研究方法

这篇论文提出了一种新的细粒度表示与重构(FIRe2)框架,用于解决布变人重识别问题。具体来说,

细粒度特征挖掘(FFM)模块:首先,设计了一个细粒度特征挖掘模块,通过聚类分别对每个人的图像进行聚类。相似细粒度属性(如衣物和视角)的图像被鼓励聚集在一起。引入了一个属性感知的分类损失,基于聚类标签进行细粒度学习,这些标签在不同的人之间不共享,促进了模型学习身份相关的特征。
 

细粒度属性重构(FAR)模块:为了充分利用细粒度属性,提出了一个细粒度属性重构模块,通过在潜在空间中重构不同属性的图像特征来增强鲁棒的特征学习。具体来说,采用实例归一化来解耦输入图像的原始属性,然后在同一批次的图像之间重构不同的属性。此外,分别重构输入图像的上半身和下半身属性,以丰富同一人的各种属性表示。
 

  1. 训练和推理过程:在早期训练阶段,模型倾向于通过区分容易样本学习粗略的粒度和容易的身份信息。提出的FFM和FAR模块鼓励模型学习细粒度的身份特征,因此在模型学习到不错的行人身份表示之前,仅使用基本的身份分类损失进行监督。然后逐渐添加其他项,包括常用的三元组损失、属性感知的分类损失和属性重构特征的交叉熵损失,以共同帮助模型学习鲁棒的细粒度身份特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2227579.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于JSP的篮球系列网上商城系统【附源码】

基于JSP的篮球系列网上商城系统 效果如下: 系统首页界面 商品信息界面 购物车界面 购物车界面 管理员登录界面 管理员功能界面 用户注册界面 我的收藏界面 研究背景 21世纪,我国早在上世纪就已普及互联网信息,互联网对人们生活中带来了无限…

重学SpringBoot3-怎样优雅停机

更多SpringBoot3内容请关注我的专栏:《SpringBoot3》 期待您的点赞👍收藏⭐评论✍ 重学SpringBoot3-怎样优雅停机 1. 什么是优雅停机?2. Spring Boot 3 优雅停机的配置3. Tomcat 和 Reactor Netty 的优雅停机机制3.1 Tomcat 优雅停机3.2 Reac…

MySQL 数据库备份与恢复全攻略

MySQL 数据库备份与恢复全攻略 引言 在现代应用中,数据库是核心组件之一。无论是个人项目还是企业级应用,数据的安全性和完整性都至关重要。为了防止数据丢失、损坏或意外删除,定期备份数据库是必不可少的。本文将详细介绍 MySQL 数据库的备…

Cesium基础-(Entity)-(Billboard)

里边包含Vue、React框架代码 2、Billboard 广告牌 Cesium中的Billboard是一种用于在3D场景中添加图像标签的简单方式。Billboard提供了一种方法来显示定向的2D图像,这些图像通常用于表示简单的标记、符号或图标。以下是对Billboard的详细解读: 1. Billboard的定义和特性 B…

DEVOPS: 容器与虚拟化与云原生

概述 传统虚拟机,利用 hypervisor,模拟出独立的硬件和系统,在此之上创建应用虚拟机是一个主机模拟出多个主机虚拟机需要先拥有独立的系统docker 是把应用及配套环境独立打包成一个单位docker 是在主机系统中建立多个应用及配套环境docker 是…

ansible开局配置-openEuler

ansible干啥用的就不多介绍了,这篇文章主要在说ansible的安装、开局配置、免密登录。 ansible安装 查看系统版本 cat /etc/openEuler-latest输出内容如下: openeulerversionopenEuler-24.03-LTS compiletime2024-05-27-21-31-28 gccversion12.3.1-30.…

img 标签的 object-fit 属性

设置图片固定尺寸后,可以通过 object-fit 属性调整图片展示的形式 object-fit: contain; 图片的长宽比不变,相应调整大小。 object-fit: cover; 当图片的长宽比与容器的长宽比不一致时,会被裁切。 object-fit: fill; 图片不再锁定长宽…

基于边缘计算的智能门禁系统架构设计分析

案例 阅读以下关于 Web 系统架构设计的叙述,回答问题1至问题3。 【说明】 某公司拟开发一套基于边缘计算的智能门禁系统,用于如园区、新零售、工业现场等存在来访被访业务的场景。来访者在来访前,可以通过线上提前预约的方式将自己的个人信息…

数学建模清风——论文写作方法教程笔记

PS:本文不讲LateX的使用!讲述论文的写作方法 首页:论文标题摘要关键词 一、问题重述 二、问题分析 三、模型假设 四、符号说明 五、模型的建立与求解 六、模型的分析与检验 七、模型的评价、改进与推广 八、参考文献 附录 首页&#xff…

Laravel5 抓取第三方网站图片,存储到本地

背景 近期发现,网站上的部分图片无法显示, 分析发现,是因为引用的第三方网站图片(第三方服务器证书已过期) 想着以后显示的方便 直接抓取第三方服务器图片,转存到本地服务器 思路 1. 查询数据表&#xff0…

自适应神经网络架构:原理解析与代码示例

个人主页:chian-ocean 文章专栏 自适应神经网络结构:深入探讨与代码实现 1. 引言 随着深度学习的不断发展,传统神经网络模型在处理复杂任务时的局限性逐渐显现。固定的网络结构和参数对于动态变化的环境和多样化的数据往往难以适应&#…

《Python游戏编程入门》注-第4章1

《Python游戏编程入门》的第4章是“用户输入:Bomb Cathcer游戏”,通过轮询键盘和鼠标设备状态实现Bomb Cathcer游戏。 1 Bomb Cathcer游戏介绍 “4.1 认识Bomb Cathcer游戏”内容介绍了Bomb Cathcer游戏的玩法,即通过鼠标来控制红色“挡板”…

【Java基础】2、Java基础语法

f2/fnf2:选中点中的文件名 ​​​​​​​ 1.注释 为什么要有注释? 给别人和以后的自己可以看懂的解释 注释含义 注释是在程序指定位置的说明性信息;简单理解,就是对代码的一种解释 注释分类 单行注释 //注释信息 多行注释…

Spring Boot 应用开发概述

目录 Spring Boot 应用开发概述 Spring Boot 的核心特性 Spring Boot 的开发模式 Spring Boot 在企业应用开发中的优势 结论 Spring Boot 应用开发概述 Spring Boot 是由 Pivotal 团队开发的一个框架,基于 Spring 框架,旨在简化和加速基于 Spring …

微信小程序 - 动画(Animation)执行过程 / 实现过程 / 实现方式

前言 因官方文档描述不清晰,本文主要介绍微信小程序动画 实现过程 / 实现方式。 实现过程 推荐你对照 官方文档 来看本文章,这样更有利于理解。 简单来说,整个动画实现过程就三步: 创建一个动画实例 animation。调用实例的方法来描述动画。最后通过动画实例的 export 方法…

docker的安装配置与基本简单命令

目录 1.docker简介 2.docker安装 2.1使用root用户登陆 更新yum源 2.2安装依赖 2.3设置yum源 更新yum源索引 2.4安装docker 2.5启动并且设置开机自启动 2.6验证安装是否成功 2.7配置docker加速器 2.8重启docker服务 3.docker简单使用 3.1下载镜像 3.2列出…

【Spring】Cookie与Session

💐个人主页:初晴~ 📚相关专栏:计算机网络那些事 一、Cookie是什么? Cookie的存在主要是为了解决HTTP协议的无状态性问题,即协议本身无法记住用户之前的操作。 "⽆状态" 的含义指的是: 默认情况…

论文略读:Can We Edit Factual Knowledge by In-Context Learning?

EMNLP 2023 第一个探索in-context learning在语言模型知识编辑方便的效果 传统的知识编辑方法通过在包含特定知识的文本上进行微调来改进 LLMs 随着模型规模的增加,这些基于梯度的方法会带来巨大的计算成本->论文提出了上下文知识编辑(IKE&#xff0…

WebGL 添加背景图

1. 纹理坐标(st坐标)简介 ST纹理坐标(也称为UV坐标)是一种二维坐标系统,用于在三维模型的表面上精确地定位二维纹理图像。这种坐标系统通常将纹理的左下角映射到(0,0),而右上角映射到(1,1)。 S坐标&#x…

基于Multisim的可编程放大电路设计与仿真

74LS279(RS触发器),结合开关,将输出接入74LS163实现的8位计数器的时钟端,每拨动两次开关K,将产生一个脉冲信号,计数器将加一,产生的结果为000,001,010,011,100,101,110,111&#xff…