【RT】统一的基于文本的行人检索:大规模多属性和语言检索基准

news2024/11/25 5:36:09

在这里插入图片描述Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark
西安交通大学
针对 基于文本的行人检索的预训练 展开探索

Motivation
Data Scarcity

Contributions

  • MALS(Multi-Attribute and Language Search dataset for person retrieval):本文引入了一个大型的多属性和语言搜索数据集,用于基于文本的person retrieval,包含150万+图像-文本对,比现有的CUHK-PEDES大37.5倍,所有图像都有丰富的(27个)属性注释。
  • APTM(Attribute Prompt Learning and Text Matching Learning)框架,基于MALS提出了一种联合属性提示学习和文本匹配学习框架,考虑属性和文本之间的shared knowledge,两个任务互补并相互受益。
  • 提出的方法在三个具有挑战性的real-world基准实现了competitive的召回率。此外,我们观察到文本匹配任务也有助于属性识别,在PA-100K上对APTM进行微调,我们获得(obtain)82.58%mA的具有竞争性的性能。

MALS

  1. 将其他数据集的文本描述作为prompts,利用扩散模型(ImaginAIry)生成图像-文本对;
  2. 针对生成的不能满足训练需求的图像进行后处理(post-process)。删除灰度、模糊和嘈杂的图像,利用OpenPose检测的关键点作为紧凑的边界框重新剪裁图像;
  3. 图像描述校准:初始图像-文本对中的多个图像共享相同的文本描述,导致文本多样性较差。因此,我们利用BLIP模型为每一张合成图像生成对应的文本描述,最终形成图像-文本对,示例Fig. 1。
  4. 属性注释:我们首先以和Market-1501属性数据集相同的属性空间。通过文本关键词匹配(显示匹配和隐式扩展),自动为每一对图像-文本对注释了27种不同类型的属性,如Table 2。
    (相关的属性通常突出图像和文本样本的关键特征,许多基于文本的person retrieval工作表明了属性在性能改进方面的潜力,受此启发,我们用属性标注进一步增强了我们的MALS。)
    在这里插入图片描述
    Fig.1. Selected image-text pairs from our MALS (top) and CUHK-PEDES (bottom). We could observe that the visual gap between synthetic data and real ones is relatively small. In MALS, image-text pairs match almost as well as manual annotation, although there are some flaws occasionally. It is worth noting that images in MALS are high-fidelity with rich and diverse variations in terms of pose, appearance, background, etc.
    在这里插入图片描述Table 2: Attribute space consists of 27 attributes. Here we show the attribute category, the name in the annotation file, and the available label choices.

APTM
联合属性提示学习和文本匹配学习框架
在这里插入图片描述
可以简单理解为权重shared的双流结构吗

实验在CUHK-PEDES、RSTPReid和ICFG-PEDES数据集上评估了APTM(微调过程中优化ITC、ITM和MLM损失)。APTM在三个数据集上均达到了SOTA的R1
在这里插入图片描述
Table 3: Performance Comparison on CUHK-PEDES

这篇能学一下文章撰写结构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/725039.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于亚马逊测评,为何绝大多数卖家都倾向于自养号测评

亚马逊测评在当前的电商环境中对于卖家的重要性不言而喻。现在越来越多的卖家选择自养账号测评,相对于找国外买手或测评服务商,主要是出于以下考虑: 1.避免买家账号资源的重复使用:使用国外买手或测评服务商时,买家账…

Python+selenium自动化测试

批量执行完用例后,生成的测试报告是文本形式的,不够直观,为了更好的展示测试报告,最好是生成HTML格式的。 unittest里面是不能生成html格式报告的,需要导入一个第三方的模块:HTMLTestRunner 一、导入HTML…

VSCode如何通过Ctrl+P快速打开node_modules中的文件

背景 咱们新建一个NodeJS项目,必然会安装许多依赖包,因此经常需要查阅某些依赖包的源码文件。但是,由于node_modules目录包含的文件太多,出于性能考虑,在VSCode中默认情况下是禁止搜索node_modules目录的。在这种情况…

Spring Boot 中的 XSS 攻击是什么,原理,如何预防

Spring Boot 中的 XSS 攻击是什么,原理,如何预防 XSS(Cross-Site Scripting,跨站脚本攻击)是 Web 应用程序开发中常见的一种安全问题。在 Spring Boot 中,XSS 攻击可能会导致应用程序被攻击者利用&#xf…

阿里云直播配置

一、开通阿里云直播 首先进入阿里云直播产品主页:https://www.aliyun.com/product/live 。 点击下方的“立即开通”。 如果是还未注册的用户请按照页面提示进行完成注册并实名认证。 2、首次进入会提示开通服务,点击“开通服务”,然后选择计…

操作系统与内核、系统编程与应用编程

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和…

Ubuntu18.04系统如何安装和使用telnet工具

在ubuntu18.04中如何安装和使用telnet工具呢?本文给出详细说明。 1.更新软件列表 sudo apt update 2.安装telnet服务 sudo apt install openbsd-inetd telnetd 3.查看telnet运行状态 netstat -a | grep telnet 4.登录测试 telnet 127.0.0.1

【NLP】PNR指标

PNR(Positive Negative Rate) 正逆序比 正序数 / 逆序数; 当正序数量越多、逆序数量越少时,表明模型对序关系的刻画越准确,模型效果越好。 参考:https://www.jianshu.com/p/e9813ac25cb6

如何使用不同的工具运行交互式的python

最近在极客时间学习陈旸老师《数据分析实战45讲》专栏,需要用到python,自19年后基本没用过python,现在又重头抓起,针对遇到的问题进行总结积累。代码片段均取自专栏内容。 示例代码: name raw_input("Whats your…

了解抖音本地生活服务商:连接你与便捷生活的桥梁

抖音本地生活服务商是抖音平台为用户提供的一项服务,旨在连接用户与本地商家,为用户提供更便捷的本地生活服务。下面是四川不若与众对抖音本地生活服务商的介绍。 1. 提供多样化的服务:抖音本地生活服务商为用户提供了多样化的服务&#xff0…

MongoDB【MongoDB索引Index (索引概述、索引类型、复合索引、)】(三)-全面详解(学习总结---从入门到深化)

目录 MongoDB索引Index 聚合操作 通过聚合操作可以处理多个文档,并返回计算后的结果。 对多个文档进行分组对分组的文档执行操作并返回单个结果分析数据变化 聚合管道 分别由多个阶段来处理文档,每个阶段的输出是下个阶段的输入, 返回的是…

C / C++的wprintf打印速度太慢,改WriteConsoleW输出提速200+倍

在 C / C 处理将UTF-8字符串内容输出到终端控制台时,平时惯用一个广泛使用的 wprintf() 函数,虽然它支持 Unicode 、UTF-8 字符,但在测试过程中发现它输出大文件时会有严重拖累性能, 测试打印文件:一个将近6万行的 Jav…

VTK 学习笔记一

https://www.cnblogs.com/yangai/p/5955614.html VTK笔记-了解VTK_黑山老妖的笔记本的博客-CSDN博客 一、VTK一般流程 1、source 数据源 VTK基础教程(1)- vtkPolyData 介绍_TGTSTTG的博客-CSDN博客 vtkSource 数据源,个人理解的就是故事灵…

从交易成本模型的角度解析高频交易策略的优劣

高频交易作为一种快速的股市交易方式,越来越受到了投资者的关注。但是,高频交易捕捉到的价格差很小,因此需要使用的交易成本模型与传统的投资方式有所不同。本文将从交易成本模型的角度出发,探讨高频交易策略的优劣。 一、交易成…

jar-protect Jar 包加壳工具

jar-protect 是 java 的 jar 加密加壳工具,对 class 文件进行加密防护,避免反编译破解。 java 本身是开放性极强的语言,代码也容易被反编译,没有语言层面的一些常规保护机制,jar 包很容易被反编译和破解。 受 classfi…

【资料分享】RK3568核心板规格书(4x ARM Cortex-A55(64bit),主频1.8GHz)

1 核心板简介 创龙科技SOM-TL3568是一款基于瑞芯微RK3568J/RK3568B2处理器设计的四核ARM Cortex-A55全国产工业核心板,每核主频高达1.8GHz/2.0GHz。核心板CPU、ROM、RAM、电源、晶振、连接器等所有器件均采用国产工业级方案,国产化率100%。 核心板通过…

Android中的SDK以及利用Android Studio生成aar

1、什么是SDK(Software Development Kit) 广义上的SDK: 指的是为特定的软件包、软件框架、硬件平台、操作系统等建立应用程序时所使用的开发工具的集合。比如你在编辑器里敲代码的时候它会自动补全代码,自动错误检查&#xff0c…

Linux开发工具Make/Makefile篇

文章目录 🍈0. 前言🍉1. 见见猪跑🍊2. 依赖关系和依赖方法🍋3. 清理🍌4. 不可多次编译的原理🍍4.1 原因🍍4.2 stat命令🍍4.3 验证 🥭5. 伪目标🍎6. 取消回显 …

【如何用大语言模型快速深度学习系列】从word2vec、SVD到GloVe

三天热度果然名不虚传,写作的效率有所下降,但是只要坚持二十一天就能养成习惯啦!冲冲冲! 上一节回顾 文章链接 在上一章我们将词的概念,通过n-gram组合成了n个词的切片,终于将前后词之间建立了一个联系&a…

MySQL授权操作

目录 授权和撤销授权 创建用户 授权 撤销授权 授权其他用户与撤销权限 授权和撤销授权 创建用户 create user 用户名% identified by 密码; 示例:create user tom% identified by 123456; 授权 GRANT ALL ON 库名.表名 TO 用户名’客户端主机 ; 示例&a…