ICCV 2023|PViC:构建交互谓词视觉上下文,高效提升HOI Transformer检测性能

news2024/11/23 23:00:37

da458493de324238ad995c4518f2d1f0.png

文章链接:https://arxiv.org/abs/2308.06202
代码仓库:https://github.com/fredzzhang/pvic

在今年的计算机视觉顶会上,基于视觉Transformer(ViT)的工作仍然占有非常重要的地位。目前最受研究者青睐的,莫过于最初用于目标检测任务的DETR框架,DETR引入了基于查询向量的目标定位功能,可以轻松的转换到其他更加复杂的视觉理解任务中。例如本文介绍一篇发表在顶级会议ICCV 2023上的工作,研究团队来自于澳大利亚国立大学和微软亚洲研究院,提出了一种基于DETR框架的谓词视觉上下文方法(predicate visual context,PViC)来解决人物交互检测任务(HOI)

作者认为先前用于HOI的两阶段Transformer方法虽然有很高的训练效率,但是其通常将HOI分类限制在缺乏细粒度上下文信息的对象特征上,忽略了画面中目标的姿态和方向信息,这自然会影响模型对于复杂动作的识别性能。因此本文探索图像中的谓词动词来作为视觉上下文,并重新设计Transformer内部的交叉注意力,通过改进后的查询向量设计和空间信息引导的位置编码,PViC方法可以在多个标准HOI基准上达到SOTA性能,同时保持较低的训练代价。

01. 引言

人物交互检测任务需要同时定位和识别发生动作的人和物体,同时要精确的识别他们之间的关系。基于Transformer的HOI检测方法基本上遵循了DETR引入的编码器-解码器风格,其中的可学习查询向量使用高斯噪声随机初始化,并逐步解码为人、谓词、对象三元组。目前效果最好的两阶段检测器UPT[1]是在DETR的基础上微调而来,其可以对单个对象token和成对(人-对象)token进行自注意力计算,作者在下图(a)和(b)中分别对人和自行车的特征(当前动作为清洗自行车)进行可视化,可以看到,注意力区域聚集在人的头部以及自行车检测框的边界区域,其缺乏识别具体HOI谓词动作所需的关键特征

1d9ff25405214fea9ab72cc8cdde7afd.png

通过上述可视化分析后,本文作者认为单纯微调DETR模型并不能满足HOI检测的需要,必须对Transformer编解码器进行调整以产生判别性特征,本文通过深入探索图像中的谓词上下文实现了高效的HOI定位,上图(d)展示了本文方法的特征可视化效果,注意力区域显著定位于人与自行车接触处。

18a7c241a9644c89a985125bfafc58c7.png

如上图所示,作者还对比了本文方法与UPT在对复杂HOI谓词检测时的分数对比,可以观察出,UPT在四种谓词情况中(Feeding、Typing、Washing和Cutting)均识别失败,这表明其需要更加丰富的视觉上下文,作者认为其主要缺乏与谓词主体相关的细粒度信息,例如人体姿态以及和对象的空间位置。为此,本文提出了PViC方法从Transformer内部运行机制出发进行重新设计查询键值向量和位置编码,以提升模型整体的检测性能。

02. 本文方法

在先前的HOI Transformer中,通常遵循DETR中原始的查询向量构建方法来进行自注意力计算,即使用高斯噪声进行随机初始化,并随着训练的进行来学习空间表示(框中心位置、宽度和高度等),作者将此类查询称为隐式查询构建,如下图(a)。为了更加明确的针对图像中的人-物进行注意力计算,本文提出了一种称为显示查询的构建方式,如下图(b),提前注入空间和内容先验信息来提高后续检测的性能

fd47b2df829649b0ba7f29a9426fea29.png

2.1 显式查询构建

d502c0c7f9364c209ed717145340eb92.png

2.2 重新设计位置编码引导HOI检测​​​​​​​

03. 实验效果

本文的实验在两个标准的HOI检测数据集HICO-DET和V-COCO上进行,前者是一个大规模数据集,包含了37633张训练图像和9546张测试图像,包含了80个对象类、117个动作类和600 个交互类,后者则相对规模较小,只有24个动作类别。

作者首先将PViC与其他baseline方法进行对比,当模型对人和相应目标的预测框与ground-truth框的IoU值大于0.5时,才认为当前检测有效。为了同时证明本文方法的可扩展性,作者同时列出了本文方法在两个视觉backbone(ResNet50和Swin-L)上的性能,从上表中可以看出,本文方法在ResNet50上的效果已经超过UPT方法2.5mAP,UPT使用了参数量更大的ResNet101。当加大视觉backbone和前置目标检测框架的参数时(H-DETR+Swin-L),PViC获得了更加显著的性能提升

a698127940dd4101a632ebe7d08b5e3f.png

随后作者对PViC的HOI检测效果进行可视化展示,并选取了数据集中训练样本较少的几个样例(类似于few-shot设置),例如舔叉子(六个训练样本,下图a)、骑长颈鹿(两个训练样本,下图b)和检查停车计时器(36个训练样本,下图c)。可以看到,PViC在数据量较少的情况下,仍然能够精确的检测到图像中的人、目标以及他们之间的交互关系,而无需通过大量数据笨重的学习语义上下文。

为了深入研究本文所改进各个操作对整体性能的影响,作者对其进行了消融实验,如上表所示,首先将最原始的Transformer作为baseline模型(A),随后进行渐进式的构建,例如直接加入本文提出的显示查询构建方法(B)。从表中可以观察到,只引入交叉注意力和编码器来对键和查询向量计算只能带来很小的提升,这说明直接使用DETR的特征可以与目标特征形成过拟合,不利于进行HOI检测,这侧面印证了本文重新设计查询向量构建和位置编码的有效性和重要性

04. 总结

在本文中,作者首先分析了现有基于DETR框架的两阶段HOI检测器中的视觉特征建模效果,并得出结论,它们的主要弱点是缺乏与当前谓词动作相关的上下文信息,因为它们原来是专门针对定位任务设计和训练的。因此本文提出了一种改进的设计,通过交叉注意力将图像特征重新引入人-物体对表示中,为此,本文作者对注意力计算中的键和查询向量的构建进行了重新设计,并引入边界框的位置编码作为空间引导,来实现更加明确的计算人-物交互的交叉注意力。与之前的两阶段方法相比,本文方法极大的简化了架构,仅保留了Transformer的基础运算模块,而无需其他冗余的自定义单元。在HOI检测范畴之外,本文方法也为与其他类似的高级视觉任务引入了一种新型的细粒度视觉上下文建模方法

参考

[1] Fredierc Z. Zhang, Dylan Campbell, and Stephen Gould. Efficient two-stage detection of human–object interactions with a novel unary–pairwise transformer. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2022.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1184287.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM Native内存泄露的排查分析(64M 问题)

我们有一个线上的项目,刚启动完就占用了使用 top 命令查看 RES 占用了超过 1.5G,这明显不合理,于是进行了一些分析找到了根本的原因,下面是完整的分析过程,希望对你有所帮助。 会涉及到下面这些内容 Linux 经典的 64M…

2023最新版Android逆向教程——第4天:真机环境的配置

目录 一、安卓逆向设备推荐二、真机环境配置(刷机基础教程)2.1 刷机方式的分类2.2 刷机包的分类2.3 谷歌手机工厂镜像2.4 简单配置2.5 进入 Bootloader 模式2.6 刷机详解 二、真机环境配置(root)三、真机环境配置(其他)3.1 调整时间3.2 关闭 wifi 信号上的3.3 停用设置向导 安卓…

HBase基础编程

文章目录 HBase基础编程一、实验目标二、实验要求及注意事项三、实验内容及步骤 附:系列文章 HBase基础编程 一、实验目标 掌握如何通过HBase shell命令来设计HBase表结构实例,从而理解HBase的列式存储结构掌 握 java编程创建HBase表和删除HBase表。 …

新能源汽车高压线束是如何快速连接到测试设备上进行电性能测试的

快速连接形成稳定的电测试在新能源行业里面是很常见的测试场景,比如说在新能源汽车行业的电池包、电机、电控制器的电性能测试中会有很多高压线束,需要将这些线束和电池包、电控制器、电机与测试设备快速连接在一起进行相关的EOL/DCR测试。 新能源汽车高…

内网隧道搭建( 内网穿透)

一、使用代理工具 ew_for_win 1、环境准备: (1)一台双网卡虚拟机(作为跳板),能同时与攻击者主机和受害者主机通信: (2)一台攻击者主机: (3&…

【陈老板赠书活动 - 17期】- 她以亲身经历证明,程序员借助AI做副业可以有多成功!

陈老老老板🦸 👨‍💻本文专栏:赠书活动专栏(为大家争取的福利,免费送书) 👨‍💻本文简述:生活就像海洋,只有意志坚强的人,才能到达彼岸。 👨‍&am…

最新Next14 路由处理器 Route Handlers

四、使用Next路由处理程序 Next.js Route Handlers I. Next中路由处理程序是什么 ​ 路由处理程序是在用户访问站点路由时执行的功能。它们负责处理对定义的URL或路由的传入HTTP请求,以生成所需的数据。从本质上讲,当用户访问Next.js应用程序中的特定页…

全新智能后备保护器综合产品解决方案

SCB后备保护器是一种用于浪涌保护器(SPD)的专用外置脱离器,它可以有效地防止SPD因故障或短路而引起的火灾和设备损坏,同时保证SPD在雷电流冲击下不误动作,维持电气设备的防雷保护状态。地凯科技将介绍后备保护器的应用…

pycharm remote host显示nothing to show

远程服务器remote host右侧消失解决方法_dl_风禾的博客-CSDN博客文章浏览阅读727次。remote host打开方法https://blog.csdn.net/weixin_43959436/article/details/127818707?ops_request_misc%257B%2522request%255Fid%2522%253A%2522169940685316800197099235%2522%252C%252…

软件开发项目文档系列之十三如何撰写用户操作手册

目录 1 引言1.1 目的1.2 系统概述1.3 参考资料1.4 文档格式 2 系统运行环境2.1 系统硬件环境2.2 系统软件环境 3 系统设置说明3.1 公告发布3.2 角色管理3.3 通用管理 4 用户账户与访问说明4.1 注册与登录4.2 密码管理 5 数据管理说明5.1 数据导入与导出5.2 数据备份与还原 6 帮…

二维码智慧门牌管理系统升级解决方案:高效、安全、便捷

文章目录 前言一、用户管理二、菜单管理三、角色管理四、字典管理五、权限管理六、日志管理 前言 随着科技的不断发展,传统门牌管理系统已经无法满足现代管理的需求。为了提高管理效率,降低安全风险,并实现便捷的日志管理,二维码…

JAVA综合知识点总结-基础篇(4)

三十一、平时浏览的书籍..................................................................................... 三十二、java Exception体系结构......................................................................... 三十三、session和cookie的区别...........…

小白学爬虫:通过商品ID或商品链接封装接口获取淘宝商品销量数据接口|淘宝商品销量接口|淘宝月销量接口|淘宝总销量接口

淘宝商品销量接口是淘宝开放平台提供的一种API接口,通过该接口,商家可以获取到淘宝平台上的商品销量数据。使用淘宝商品销量接口的步骤如下: 1、在淘宝开放平台注册并创建应用,获取API Key和Secret Key等必要的信息。 2、根据淘宝…

可完美兼容迪文的串口屏?

如何让屏幕识别迪文协议,下面介绍淘晶驰USART HMI上位机用法 首先在工程输入0000-fffe 然后在program.s输入recmod2,在控件列表里就会刷新带有_vp的控件 带_vp的控件可以像迪文一样使用地址 导入字库,输入项目地址,根据通信协议来…

舞台灯光专用电机驱动及应用方案

舞台灯光的运用是舞台艺术中不可或缺的重要手段,达到突出重点、塑造人物形象、烘托环境气氛的目的;在舞台灯光的使用过程中,会对灯光的角度有较多的要求而步进电机具有较好的调节性;且控制方式更加灵活多样;能满足舞台…

配置阿里云镜像加速器 -docker

1.百度aliyun 2.找到镜像服务ACR 3.搞一个个人版,身份验证一下就行了很简单 4.找到镜像加速器Centos 5.在xshell执行下面4条命令:4条命令直接从上面操作文档中粘贴,不容易出错 sudo mkdir -p /etc/docker sudo tee /etc/docker/daemon.json…

企业如何选型iPaaS平台

企业数字化转型已是大势所趋,伴随着我国数字化转型改革的不断深入,加快推进企业数字化转型是新发展格局下实现经济高质量发展的必由之路。 企业在数字化转型过程中会搭建众多应用系统,以解决不同业务部门的需求。但系统之间如果互不连通&…

康其农业:西藏“高原红”苹果,成就世界屋脊的乡村振兴典范

金秋,阳光打在青藏高原,贡嘎山坡上的苹果树更显挺拔葱茏。清风拂过,一个个鲜红欲滴的苹果挂在枝叶之间,轻盈摇曳,像是在朝人们的味蕾招手。 康其农业集团董事长朱秋林抚摩着累累果实,笑容在双颊上绽开。 …

【慢SQL性能优化】 一条SQL的生命周期 | 京东物流技术团队

一、 一条简单SQL在MySQL执行过程 一张简单的图说明下,MySQL架构有哪些组件和组建间关系,接下来给大家用SQL语句分析 例如如下SQL语句 SELECT department_id FROM employee WHERE name Lucy AND age > 18 GROUP BY department_id其中name为索引&a…

C/C++轻量级并发TCP服务器框架Zinx-游戏服务器开发002:框架学习-按照三层结构模式重构测试代码+Tcp数据适配+时间轮定时器

文章目录 1 Zinx框架总览2 三层模式的分析3 三层重构原有的功能 - 头文件3.1 通道层Stdin和Stdout类3.1.2 StdInChannel3.1.2 StdOutChannel 3.2 协议层CmdCheck和CmdMsg类3.2.1 CmdCheck单例模式3.2.1.1 单例模式3.2.1.2 * 命令识别类向业务层不同类别做分发 3.2.2 CmdMsg自定…