[论文分享]Pedestrian attribute recognition based on attribute correlation

news2024/11/16 7:54:01

Pedestrian attribute recognition based on attribute correlation

行人属性识别广泛应用于行人跟踪和行人重识别。

两项最基本的挑战:

  1. 多标签性质
  2. 数据样本的差异性特征,例如类别不平衡和部分遮挡。

不同方法的示意图:
在这里插入图片描述

此项工作中,作者提出了一种交叉属性和特征网络(Cross Attribute and Feature Network,CAFN),它充分利用任意一对属性之间的相关性进行行人属性识别,以应对这些挑战。

  1. CAFN包含两个模块:跨属性注意力模块(Cross-attribute Attention Module ,C2AM)和跨特征注意力模块(Cross-feature Attention Module,CFAM)
  2. C2AM使网络在训练过程中自动学习关系矩阵,可以量化属性集中任意一对属性之间的相关性,并引入CFAM来融合不同的属性特征,生成更准确、鲁棒的属性特征。

方法介绍

网络整体架构,可以看到:CAFN 中包含了 CFAM 模块,CFAM 中包含了 C2AM 模块。
在这里插入图片描述
换句话说,从上面的架构图中,可以看到作者提出的 C2AM 模块(跨属性注意力模块),特别像 transformer 中的 self-attention 模块。作者通过实验说明其可以更高的构建跨属性注意力。
然后,其 CFAM 模块(跨特征注意力模块)有点像多头注意力的多头。作者在论文中用 h 表示,h=4。

损失函数

作者使用的是 加权二元交叉熵损失函数:
在这里插入图片描述

实验结果

为了验证所提出模型的有效性,作者分别在三个公共数据集 PETA、RAP 和 PA-100K 上进行了实验。

先介绍一下这三个数据集

  • PETA 数据集[25]包含 8705 名行人,总共 19,000 张图像(分辨率范围从 17×39 到 169×365)。每个行人都标记有 61 个二元属性和 4 个多类属性。然而,根据既定协议,某些属性将不会被使用。我们只使用 35 个正标签比例高于 5% 的属性。另外,采用与[18]相同的方法划分PETA数据集,训练、验证和测试集中的图像数量分别为9500、1900和7600。
  • RAP数据集[26]是从真实的室内环境中收集的。共使用26个摄像机采集监控场景图像,共41585个样本,分辨率范围为 36×92
    至 344×554 。具体来说,有33,268张训练图像和8317张测试图像。每个图像样本包含 72 个细粒度属性(69 个二元属性和 3 个多类属性)。然而,我们只利用了 51 个正标签比例高于 1% 的属性。
  • PA-100K数据集[16]由598个真实室外监控摄像头拍摄的图片组成。总共有 100,000 个样本,每个样本图像的分辨率在 50×100
    和 758×454 之间。 PA-100K数据集是迄今为止最大的行人属性识别数据集。整个数据集按照8:1:1的比例随机分为训练集、验证集和测试集。数据集中的每个图像都标有 26 个属性。

在这里插入图片描述

在这里插入图片描述

定量分析

图5给出了来自PETA数据集的三个不同视角的示例,用于定性分析。正如我们所看到的,所提出的 C2AM 和 CFAM4
可以成功识别年龄、性别、服装、鞋类和其他属性。第一个例子中,行人的服装不利于性别判断,但长发属性有助于性别属性的识别。在第二个例子中,行人服装的下半部分被部分遮挡,但上半部分的服装属性有助于正确识别下半部分的服装属性。第三个例子中还提供了一个失败案例。由于短袖和短裤之间的相关性,C2AM 错误地将裤子识别为短裤。然而,错误的预测在 CFAM4
中得到了很好的纠正。

在这里插入图片描述

提出利用属性之间的相关性来辅助每个属性的检测和识别。为了获得相关性信息,我们让网络学习属性之间的关系矩阵来量化属性集中的每一对属性。这部分可视化收敛后网络中学习到的关系矩阵,如图6所示。颜色越亮,相关性越大。可以看出,关系矩阵学习了更多抽象信息,例如图6a中男性和长发之间存在明显的相关性。网络CAFN会同时学习多个不同的关系矩阵,共同完成最终的属性识别。图6b中的另一个关系矩阵突出了短袖和短裤之间的相关性,而图6c中的另一个关系矩阵突出了运动鞋和鞋子之间的相关性。

在这里插入图片描述

结论

在本文中,考虑如何利用任意属性对之间的相关性,作者提出了一种用于行人属性识别的新颖架构 CAFN。它包含两个基本模块:跨属性注意模块和跨特征注意模块。由于两个模块之间的合作,CAFN的性能得到了提升。作者在三个公共数据集(PETA、RAP、PA-100K)上进行了实验,并取得了令人信服的结果。实验结果表明网络 CAFN 优于大多数现有方法。此外,大量的实验验证了网络中两个关键模块的有效性。未来,关注如何在多模态视角下探索和挖掘图像与属性之间的相关性,可以进一步提高模型区分不同属性的能力是有意义的。

reference

本论文发表于 Multimedia Systems 期刊,

  • 影响因子:3.9
  • 中科院分区:计算机科学 4区

[1] ZHAO R, LANG C, LI Z, et al. Pedestrian attribute recognition based on attribute correlation[J/OL]. Multimedia Systems, 2022, 28(3): 1069-1081. DOI:10.1007/s00530-022-00893-y.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/930823.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux操作系统--常用指令(用户管理操作类)

用户的管理需要使用超级管理员(root)来进行操作 (1).useradd添加新用户 功能:给当前的操作系统添加新的用户 语法: useradd 用户名 (2).passwd设置用户新密码 功能:给当前的用户设置密码 语法: passwd用户名 (3).i

核辐射对生物的影响

目录 1.什么是核辐射 2.核辐射的危害 3.核辐射对环境造成的影响 4.核辐射的影响会持续多长时间 1.什么是核辐射 核辐射是指自然界或人工产生的高能粒子或电磁波的放射性能量。当原子核不稳定时,会发生放射性衰变,释放出核辐射。 核辐射主要分为三种类…

市场的新宠:4G智能手表

现在人们提到智能手表,健康监测、运动记录、接打电话等定是他不可或缺的功能,而其中通讯功能在绝大数多的智能手表上都是通过蓝牙实现的,需要让手表通过蓝牙连接到手机端来进行。在没有手机的情况下,配置再高的蓝牙智能手表也是“…

深入浅出AXI协议(2)——通道及信号

一、前言 在之前的文章中,我们主要介绍了什么是AXI协议,AXI协议的特点与优点,然后对于AXI协议非常重要的五通道结构进行了介绍,了解了5个通道各自的作用。本文我们继续AXI协议的学习,我们将讨论5个通道的具体内容和相对…

判断网站是否开启CDN加速

方法一: 我们可以在CMD中ping一下想要测试的网站。比如baidu.com。 我们看到转向的还是baidu.com 接着用命令nslookup尝试下反向解析: 这种情况下一般是没有做CDN加速。 假设我们ping www.csdn.com: 我们看到它跳转到xxxx.com去了,这说明c…

Spring AOP 的实现及原理

目录 什么是 Spring AOP ?AOP 是啥 ?Spring AOP 可以干啥 ? AOP 的组成Spring AOP 的实现Spring AOP 的实现原理 什么是 Spring AOP ? AOP 是啥 ? 我们知道 OOP 是面向对象编程, 那 AOP 又是啥呢 ? AOP(Aspect Oriented Prog…

fastadmin后台表格新增tab选项卡不生效问题

官方一张图解析表格列表功能文档&#xff1a;(一张图解析FastAdmin中的表格列表的功能 - FastAdmin问答社区) 会遇到后期手动添加tab栏的情况 首先&#xff0c;需要在控制器对应的index.html页面中需要增加你想要筛选的字段 <div class"panel-heading">{:bui…

基于神经网络的3D地质模型

地球科学家需要对地质环境进行最佳估计才能进行模拟或评估。 除了地质背景之外&#xff0c;建立地质模型还需要一整套数学方法&#xff0c;如贝叶斯网络、协同克里金法、支持向量机、神经网络、随机模型&#xff0c;以在钻井日志或地球物理信息确实稀缺或不确定时定义哪些可能是…

leetcode 583. 两个字符串的删除操作

2023.8.26 本题看似很绕&#xff0c;其实就是 最长公共子序列 的变式。 求出最长公共子序列之后&#xff0c;再用两单词的总长度减去他们的最长公共子序列即可。 代码如下&#xff1a; class Solution { public:int minDistance(string word1, string word2) {vector<vec…

Java——单例设计模式

什么是设计模式&#xff1f; 设计模式是在大量的实践中总结和理论化之后优选的代码结构、编程风格、以及解决问题的思考方式。设计模式免去我们自己再思考和摸索。就像是经典的棋谱&#xff0c;不同的棋局&#xff0c;我们用不同的棋谱、“套路”。 经典的设计模式共有23种。…

时序分解 | MATLAB实现基于SVD奇异值分解的信号分解分量可视化

时序分解 | MATLAB实现基于SVD奇异值分解的信号分解分量可视化 目录 时序分解 | MATLAB实现基于SVD奇异值分解的信号分解分量可视化效果一览基本介绍程序设计参考资料 效果一览 基本介绍 SVD分解重构算法&#xff0c;MATLAB程序&#xff0c;奇异值分解 (Singular Value Decompo…

响应式web-PC端web与移动端web(H5)兼容适配 选型方案

背景 项目需要&#xff0c;公司已经有一套PC端web&#xff0c;需要做一套手机端浏览器可用的&#xff0c;但是又想兼容pc端&#xff0c;适配的web项目。 以下是查阅到响应布局现成的开源模版。根据自己技术栈&#xff0c;vue2,js来搜索相关的开源项目。 RuoYi 使用若依快速…

【C++进阶(一)】STL大法以及string的使用

&#x1f493;博主CSDN主页:杭电码农-NEO&#x1f493;   ⏩专栏分类:C从入门到精通⏪   &#x1f69a;代码仓库:NEO的学习日记&#x1f69a;   &#x1f339;关注我&#x1faf5;带你学习C   &#x1f51d;&#x1f51d; STL标准库 1. 前言2. STL库的版本以及缺陷3. ST…

骨传导耳机和普通耳机哪个危害大?一文读懂骨传导耳机!

作为一个5年重度运动爱好者&#xff0c;常年跑步、爬山、骑行&#xff0c;入手过的各类耳机超30款&#xff0c;用真实体验告诉大家&#xff0c;骨传导耳机和普通耳机哪个危害大&#xff01; 首先大家要知道的是&#xff0c;不管什么类型的耳机&#xff0c;如说说音量过大&…

origin导出pdf曲线超出边框

软件版本 软件版本Word2021Origin2021Adobe Acrobat Pro2023 问题描述 Origin导出的emf格式矢量图片&#xff0c;插入到Word中&#xff0c;显示正常&#xff0c;但是在使用Word导出→创建Adobe PDF→创建Adobe PDF导出PDF文件后&#xff0c;图片曲线就会超出边框&#xff0c…

MySQL—MySQL的NULL值是怎么存放的

一、引言 1、MySQL数据存放在哪个文件&#xff1f; 创建一个数据库会产生三种格式的文件&#xff0c;分别是.opt格式、.frm格式、.ibd格式。 opt格式&#xff1a;用来存储当前数据库的默认字符集和字符校验规则。 frm格式&#xff1a;该文件是用来保存每个表的元数据信息的&…

骨传导耳机哪个牌子好?这几款热门骨传导耳机款式不要错过

我是一名耳机的重度使用者&#xff0c;每天上下班的路上都会使用耳机来听音乐&#xff0c;以前使用有线耳机多一些&#xff0c;后来无线耳机出现&#xff0c;我就开始使用无线耳机。无线耳机有很多种&#xff0c;挂颈式、真无线、骨传导、气传导等各种耳机都有用过&#xff0c;…

nodejs+vue养老院管理系统 u1yrv

本智慧养老中心管理系统是为了提高用户查阅信息的效率和管理人员管理信息的工作效率&#xff0c;可以快速存储大量数据&#xff0c;还有信息检索功能&#xff0c;这大大的满足了老人信息和管理员这两者的需求。操作简单易懂&#xff0c;合理分析各个模块的功能&#xff0c;尽可…

无涯教程-进程 - 内存映射

mmap()系统调用提供了将文件或设备映射到内存的调用进程的虚拟地址空间中的映射。这有两种类型- 文件映射 - 此映射将进程的虚拟内存区域映射到文件&#xff0c;这意味着读取或写入那些内存区域会导致文件被读取或写入&#xff0c;这是默认的映射类型。 匿名映射 - 此映射…