集智书童 | 用于时态动作检测的预测反馈 DETR !

news2025/1/10 1:01:30

本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。

原文链接:用于时态动作检测的预测反馈 DETR !

视频中的时间动作检测(TAD)是现实世界中的一个基本且具有挑战性的任务。得益于 Transformer 的独特优势,各种基于DETR的方法已在TAD中得到应用。

然而,最近的研究发现,DETR中自注意力层中的注意力衰减导致了其性能下降。本文在之前研究的基础上,针对DETR基础TAD方法中的交叉注意力层注意力衰减问题进行新的探讨。

此外,作者的研究结果发现,交叉注意力与预测之间存在与预测不同的模式,这表明了一个短路现象。为了解决这个问题,作者提出了一种新的框架,即预测反馈DETR(Pred-DETR),该框架利用预测来恢复注意力衰减并使交叉注意力与预测对齐。

具体而言,作者从预测的相互关系中设计出了新的预测反馈目标。

因此,Pred-DETR在缓解衰减并实现各种具有挑战性的基准测试结果(包括THUMOS14、ActivityNet-v1.3、HACS和FineAction等基于DETR的方法的最新性能)方面取得了良好的效果。

1 Introduction

随着社会的进步,视频媒体的使用越来越广泛,因此,寻找未剪辑视频中所需特定片段的效率方法的需求也在迅速增长。Temporal Action Detection(TAD)是一个基本任务,旨在识别视频中的特定动作并确定它们的时间边界。TAD主要通过两阶段的方法得到了提高。然而,最近的研究越来越多地关注基于DETR的端到端方法。

DETR [10]是一种最初在目标检测领域提出的框架,也是第一个使用集合预测的端到端检测框架。DETR方法还扩展到了视频领域,并应用于TAD 。在TAD中,每个 Query 用于预测视频中的一个动作及其对应的时间间隔。为了实现这一点,采用二分匹配来将每个 Query 与GT动作及其在未剪辑视频中的时间间隔对齐。这种方法的一个显著优点是排除了传统的启发式方法,如非极大值抑制(NMS)。

尽管标准注意力(简称为原始-DETR)的DETR在与变形DETR[16]在目标检测方面可以兼容,但在TAD的原始-DETR(即使最近采用了DAB-DETR[16]这样的结构)甚至表现更差。最近,问题的根源被Self-DETR[16]确定为自注意力(SA)中的注意力衰竭问题,如图1(e)所示,其中所有解码器 Query 都聚焦在几个 Query 上。注意力衰竭是注意力模块跳过的现象,目的是防止模型退化为秩1矩阵。Self-DETR利用交叉注意力(CA)图来恢复塌陷的SA。

然而,他们的解决方案依赖于CA的健壮性,否则它可能是不最佳的。作者发现CA不是健壮的,而更为糟糕,如图1所示。该图显示了CA解码器 Query 关注于少数编码器特征((图1中的(a))),并在几乎所有的 Query 中显示相同的模式。这是一个特别关键的问题,因为CA对于该任务至关重要,因为它在 Query 和视频特征之间架起了桥梁。这使作者得出解决CA塌陷并开发另一种自我反馈方法的结论。

图1还插入了(b)中的局部化预测和(f)中相应的交互与统一(IoU)映射作为 Query 的自我关系。在图中,注意力图清楚地显示出不同的模式,与它们的预测和自我关系无关。通常,作者理解为注意力图表示了模型关注的重点,因此暗示了为什么会产生这些结果。

因此,这种现象类似于一个捷径,模型依赖简单的线索,而不是有意义的表现。尽管存在塌陷的注意力,但模型仍可以生成多样且合理的结果,尽管所有的 Query 都关注相同的背景区域,如图1中的CA中所示。这是因为目标检测任务中的二元匹配通过惩罚重复结果来施加不同的预测。基于这个观察,作者建议将注意力图与相应的预测对齐。通过使用预测而不是塌陷的CA作为注意力指南,作者的目标是扩展模型,解决关注塌陷问题。

为此,作者提出一个新的框架,即预测反馈DETR(Pred-DETR),来解决DETR中整个注意力机制的塌陷问题。作者的方法首先将解码器 Query 之间的关系表示为DETR预测与时间间隔之间的IoU相似性映射。作者还把CA映射转化为解码器 Query 的自我关系。接下来,作者引入一个辅助目标,将CA和SA映射的自我关系与基于预测的IoU相似性映射对齐。此外,作者利用最近DETR机制的编码器预测来引导编码器SA和解码器CA。在包括THUMOS14,ActivityNet-v1.3,HACS和FineAction在内的各种具有挑战性的基准测试中,作者证明了所提出的方法显著减少了关注塌陷问题的程度。此外,激活的注意力导致了显著的性能改进,使其成为基于DETR方法的新颖最先进水平。

总之,作者的主要贡献如下:

  • 作者在TAD(Transformer-only Action Detection)的cross-attention中发现了注意力衰减问题。特别是,作者发现cross-attention的明显模式与预测不同,这意味着衰减现象是由于衰减引起的。

  • 作者提出了一种新的框架,叫做预测反馈DETR(Pred-DETR),它利用预测来减轻注意力衰减。作者为衰减的注意力模块设置一个辅助目标,使其与预测的IoU关系对齐。

  • 作者的广泛实验表明,Pred-DETR通过保持高关注度的多样性显著降低了注意力衰减的程度。此外,作者还验证了作者的模型在与DETR模型相比实现了新的最先进性能,这些模型是基于THUMOS14、ActivityNet-v1.3、HACS和FineAction的。

2 Related Work

2.1 Temporal Action Detection

动作检测(TAD)任务的目标是识别无剪辑视频中的动作时间段并将其分类为一类实例。在过去十年中,通过基础方法的研究和应用,TAD领域取得了显著的进展。受到目标检测中两阶段机制的成功启发,许多TAD方法采用了多阶段框架。

后续工作,点播学习被广泛应用于生成更灵活的 Proposal ,无需预先定义时间窗口。SSN[17]和TCN[19]引入了生成 Proposal 周围的扩展时间上下文,以提高排名性能。BSN[18]和BMN[19]将开始-结束对分组到不同的动作 Proposal 中,并对其进行最终局部化预测。BSN++[19]在BN的基础上指出,基于BSN的动作尺度存在不平衡问题。近日,ActionFormer[20]和TriDet[21]利用 Transformer 编码器作为多尺度 Backbone 网络,并BRN[18]解决了TAD的多尺度特征问题。

2.2 DETR

DETR [19] 是将目标检测视为直接的二元匹配预测问题,允许端到端检测无需任何人类启发式,例如置信度限制(NMS)。然而,DETR的需求是传统方法的10倍,因为二分匹配难以优化。为此问题,变形DETR [19]引入了稀疏注意力,通过学习指定关注的位置只关注一部分元素。基于DETR的后续模型 [19, 18]进一步通过显式编码边界信息提升了 Query 表示,这有效地帮助了训练的稳定性。

在TAD中,基于DETR的方法也被部署为DETR已达到了新的目标检测最先进性能。RTD-Net [18]识别了DETR中的密集注意力的问题,该问题表现出近似均匀分布,使得自注意力层像过度平滑一样发挥作用。TadTR [18]设计的根据变形DETR [19]的启发式设计的时序变形注意力。RecAct [19]提出了一个新的关系匹配来强制低重叠和高特征相似度的 Query 之间的高相关性。此外,LTP [18]提出了一种专为DETR设计的前向训练策略。

最近,自适应DETR [18]揭示了TAD中DETR性能下降的问题,即自注意力中的注意力衰竭,并提出了自反馈利用交叉注意力映射的引导来利用。虽然它明显降低了注意力衰竭的程度,但最佳性能取决于交叉注意力的假设。然而,作者发现交叉注意力已经崩溃,因此引入预测引导反馈,根据预测关系激活交叉注意力和自注意力。

3 Our Approach

本节介绍了作者提出的Pred-DETR方法中的预测反馈机制。具体来说,作者首先详细阐述了预备知识,讨论了注意力消融和预测。然后,作者介绍了预测反馈机制的解释,并描绘了整个框架,如图2所示。此外,作者还通过最近提出的DETR架构,将预测反馈机制扩展到编码器,仅用于训练。最后,作者总结了Pred-DETR的整体目标。

3.1 Preliminary

DETR采用了 Transformer (transformer)架构,主要由编码器(encoder)和解码器(decoder)两个部分组成。首先,编码器通过相似度计算(SA)捕捉输入特征之间的全局关系。

另一方面,解码器在目标 Query (object queries)和编码器特征(encoder features)之间执行交叉注意力(cross-attention)操作。这里目标 Query 是可学习嵌入向量(learnable embedding vectors) ,类似于 Anchor 点(anchors)的位置信息。这种机制确保每个 Query 都关注到编码器处理的最相关输入特征部分。

注意崩溃(Attention Collapse)。 注意崩溃是一种现象,其中注意力矩阵成为秩-1矩阵,以跳过注意力模块,从而防止学习[13]的退化。崩溃的注意力输出所有 Query 的均匀值,导致输入通过残差连接不需要额外的表示来传递。在本论文中,作者首次发现了 CA 的崩溃现象。这个问题使人们对 CA是可靠性的假设产生疑问。因此,需要整个注意力模块来完成崩溃的完全补救措施。

来自预测的反馈。 DETR 是最先实现端到端检测机制的作品,其中没有 Anchor 框或非极大值抑制(NMS)。由于不存在预定义的预测和真实值之间的匹配,因此它使用可学习的 Query 和二分匹配来为 Query 分配检测目标。由于匹配是一一映射,因此 DETR 预测结果将是多样的,因为当两个 Query 产生类似的局部定位结果时,一个 Query 将得到负损失。从这种特性的观点出发,预测的反馈可以激活崩溃注意力模块。

讨论: 在初始训练阶段,模型生成欠训练的预测。人们可能担心早期的反馈会影响模型的学习。然而,在前几轮迭代中,TAD的目标主要是优化反馈,确保欠训练的反馈不会破坏训练。此外,需要注意的是,由预测得出的指导并不构成注意力最佳关系。反馈充当规范器,帮助注意力图保持在预测附近,并维持与主要目标之间的平衡。同时,当预测反馈缓解崩溃时,CA的健全性得到恢复。这使得先前的 Self-DETR 工作的完整功能得到恢复。实验结果表明,恢复的 CA 显著提升了其性能。

3.2 Objectives

4 Experiments

4.1 Datasets

在本文中,作者使用了四个时间动作检测的挑战性基准:THUMOS14 江 et al. (2014),ActivityNet-v1.3 Fabian Caba Heilbron 和 Niebles (2015),HACS Zhao et al. (2019) 和 FineAction Liu et al. (2022)。

THUMOS14 分别有200 和 213 个视频用于训练集和验证集。该数据集包含与体育相关的20种动作类别。

ActivityNet-v1.3 包含 19,994 个视频,共200种动作类别。其中,10024、4926 和 5044 个视频分别用于训练、验证和测试。

HACS 中包含37613 和5981个视频,分别用于训练和验证,共200个动作类别,与ActivityNet-v1.3共享。

FineAction 包含每日事件,共计106个类别和16732个视频。THUMOS14 和FineAction 包含许多短暂的动作,而ActivityNet-v1.3 和HACS中的大多数视频则具有较长的动作。

4.2 Implementation Details

架构 作者使用了在Kinetics上的I3D Carreira和Zisserman于2017年预训练并于THUMOS14和ActivityNet-v1.3上使用。此外,作者分别采用SlowFast Feichtenhofer等人(2019)和Wang等人(2023)的VideoMAEv2-g以及在Deformable-DETR上的DAB-DETR的时序版本(如Self-DETR)。

用于TAD的增强DAB-DETR 此外,作者在DAB-DETR上引入了先进的技巧,包括保持匹配Liu等人(2023)、混合匹配Jia等人(2023)以及来自Deformable-DETR的两阶段机制。保持匹配利用预测与实际之间的IoU值作为类概率的目标值。

这与TadTR中的动作性回归密切相关。请注意,作者并未使用编码器的预测作为初始解码器 Query 。作者发现保持匹配显著提高了性能,这与TadTR的结果相符。然而,两阶段机制略微改进了它,因为它是因预测反馈而引入的。作者还报告了在补充材料中每个组成部分带来的好处的研究。

4.3 Main Results

与中国最先进的算法相比较。表格. 1显示了在THUMOS14和ActivityNet-v1.3上的比较结果。此外,表格. 2和表格. 3显示了在HACS和FineAction上的比较结果。Pred-DETR在多个基准测试中均优于基于DETR的方法。

第一部分由“标准方法”标识,包含非DETR方法,第二部分包括基于DETR的模型。此外,在基于DETR的模型中,RTD-Net,Self-DETR和作者的方法基于标准注意力,而TadTR和ReAct基于变形注意力。作者也指出了基础特征,称为“Feats”。大多数方法利用了TSN Wang等人(2016)或I3D特征,而一些方法也采纳了TSP Alwassel等人(2021)的特征。

在表格中,作者的模型在所有基准测试上均优于所有DETR基组模型。这表明,在注意力坍塌问题得到缓解时,原DETR架构可以在TAD中与变形DETR架构具有可比性或优越性,这与目标检测Lin等人(2023)的观察相吻合。更值得注意的是,Pred-DETR在包含非DETR的方法的ActivityNet-v1.3上表现最好。DETR基组方法在ActivityNet和HACS上的表现优于THUMOS14和FineAction上的表现。这可能是因为ActivityNet和HACS主要包含长时间动作,而THUMOS14和FineAction包含许多短实例。精确预测短动作需要高时间分辨率,而DETR尚未能够处理such a long sequence,因为其 Query 架构。尽管如此,最近的一些DETR模型包括作者的模型在处理短长度序列时超过了处理短长度序列的除了ActionFormer和TriDet的非DETR模型显示出优越的性能。

多样性是在ActivityNet-v1.3上的测试集上测量的,包括所有测试样本。当模型深度加深时, Baseline 的多样性接近0。然而,Pred-DETR的多样性并未下降,甚至有所增加。从这些结果来看,预测反馈有效地缓解了塌陷问题。

图5显示了编码器和解码器中的自注意力和交叉注意力的可视化。如图所示,基准DETR在所有注意模块上都出现了注意崩塌的现象。然而,作者的模型没有出现崩塌,展示出表达能力。

预测反馈目标。 在反馈中的自注意力目标方面,作者可以采用自注意力中与预测相交汇的建议。上表5显示了使用自注意力的结果。如果不使用交叉注意力预测反馈,作者可以看到反馈(用表中的'Pred Relation'表示)的性能优越于与交叉注意力(从CA)反馈。此外,当引入作者的交叉注意力预测反馈时,性能提升变得更大,因为交叉注意力的注意崩塌现象显著缓解了。

在作者的交叉注意力(cross-attention)预测反馈系统中,作者提出了利用交叉注意力的间接关系。也许你会认为一个直接的方法就是将真实值或预测区间与交叉注意力图进行匹配。但是,作者声称这种方式显著损害了用于交叉注意力的表示的多样性,主要是因為作者并不确切知道交叉注意力的应该关注的点。表5的底部展示了在ActivityNet-v1.3上的三种目标的结果。真实值或预测区间的目标(真实值称为'Ground-Truth',预测区间称为'Prediction Intervals')性能应符合预期地下降。然而,利用预测关系(Prediction Relation)的间接方法显著地提高了性能。

5 Conclusion

在本文中,作者发现在TAD的交叉注意力存在注意力消失。作者发现模型在预测上呈现出明显不同于预测的模式,这是一种由注意力消失引发的自捷径现象。为此,作者提出了预测反馈DETR(Pred-DETR)来将注意力与预测对齐。通过提供具有预测引导的辅助目标,预测反馈显著缓解了注意力消失的程度。作者的广泛实验证实Pred-DETR在THUMOS14,ActivityNet-v1.3,HACS和FineAction上的DETR模型超越了最先进的表现。

6 参考论文

[1].Prediction-Feedback DETR for Temporal Action Detection.

下载地址:2408.16729v2 (arxiv.org)

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2195375.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

提升 CI/CD 稳定性:Jenkins 开机自检与推送通知

简介:Jenkins 是一个广泛使用的开源自动化服务器,常用于持续集成和持续交付。在某些情况下,服务器重启可能导致 Jenkins 构建任务中断或失败。为了解决这个问题,可以使用一个自检服务,定期检查系统的启动时间&#xff…

3559 pcie配置流程

目录 EP配置 uboot配置 uboot代码修改 内核代码修改 带宽配置 带宽查看 硬件管脚配置 EP配置 uboot配置 1)make CROSS_COMPILE=aarch64-himix100-linux- hi3559av100_emmc_defconfig 2) make menuconfig CROSS_COMPILE=aarch64-himix100-linux- 修改配置: 3) 合入…

一种将RAG、KG、VS、TF结合增强领域LLM性能的框架

SMART-SLIC框架:旨在将RAG结合向量存储(Vector Stores)、知识图谱(Knowledge Graphs)和张量分解(Tensor Factorization)来增强特定领域的大型语言模型(LLMs)的性能。 SM…

codetop标签动态规划大全C++讲解(二)!!动态规划刷穿地心!!学吐了家人们o(╥﹏╥)o

一篇只有十题左右,写少一点好复习 1.目标和2.分割等和子集3.完全平方数4.比特位计数5.石子游戏6.预测赢家7.不同的二叉搜索树8.解码方法9.鸡蛋掉落10.正则表达式匹配11.通配符匹配12.交错字符串 1.目标和 给你一个非负整数数组 nums 和一个整数 target 。 向数组中…

01-python+selenium自动化测试-基础学习

前言 基于python3和selenium3做自动化测试,俗话说:工欲善其事必先利其器;没有金刚钻就不揽那瓷器活,磨刀不误砍柴工,因此你必须会搭建基本的开发环境,掌握python基本的语法和一个IDE来进行开发&#xff0c…

短剧系统源码短剧平台开发(H5+抖小+微小)部署介绍流程

有想法加入国内短剧赛道的请停下脚步,耐心看完此篇文章,相信一定会对您有所帮助的,下面将排序划分每一个步骤,短剧源码、申请资料、服务器选择、部署上架到正常运行等几个方面,整理了一些资料,来为大家举例…

中广核CGN25届校招网申SHL测评题库、面试流程、招聘对象,内附人才测评认知能力真题

​中国广核集团校园招聘在线测评攻略🚀 🎓 校园招聘对象 2024届、2025届海内外全日制应届毕业生,大专、本科、硕士、博士,广核集团等你来! 📈 招聘流程 投递简历 简历筛选 在线测评(重点来啦…

C++ 算法学习——1.6 前缀和与二维前缀和算法

前缀和算法(Prefix Sum Algorithm): 概念:前缀和算法通过在遍历数组时计算前缀和(从数组的第一个元素开始累加到当前元素的和),可以在O(1)时间内得到任意区间的子数组和,而不需要重复…

告别音乐小白!字节跳动AI音乐创作工具,让你一键变作曲家!

还在羡慕别人能创作动听的音乐?五音不全的你,也梦想着谱写属于自己的乐章?现在,机会来了!字节跳动推出了一款AI音乐创作工具——抖音推出的海绵音乐,它能让你轻松一键创作音乐,即使是“音乐小白…

海外科技新闻媒体与商业媒体:垂直网站的魅力与软文分发

海外科技新闻媒体与商业媒体:垂直网站的魅力与软文分发 在信息爆炸的时代,如何有效地传递品牌信息并提高知名度成为了许多企业的重要课题。在这个过程中,海外科技新闻媒体与商业媒体的垂直网站扮演了重要角色,而软文分发则因其独特…

笔试题总结

1.对于线性表的描述:存储空间不一定是连续,且各元素的存储顺序是任意的 2.虚函数的定义:函数的返回值参数不定, 声明: 类型,返回这类型 名字(); 例如声明一个虚函数&a…

计算机毕业设计 基于Python的豆果美食推荐系统的设计与实现 Python+Django+Vue 前后端分离 附源码 讲解 文档

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…

JavaScript(JS)基础(一)

1、JavaScript(JS)简介 JavaScript 是一门跨平台、面向对象的脚本语言,它能使网页可交互(例如拥有复杂的动画,可点击的按钮,通俗的菜单等)。另外还有高级的服务端 Javascript 版本,例…

1.Python 引入(字面量、注释、变量、数据类型、数据类型转换、标识符、运算符、字符串扩展)

一、字面量 1、基本介绍 在代码中,被写直接下来的、不需要通过变量存储的值,称之为字面量 2、常用值类型 类型说明数字(Number)整数(int),例如:10、-10浮点数(float&…

Linux 检查一个文件是静态链接还是动态链接的方法

一、file 指令示例 在 Linux 系统中&#xff0c;可以使用 file 命令 来查看一个可执行文件是静态链接的还是动态链接的。 使用方式 file executable_file创建 hello_test.c 文件&#xff0c;测试代码如下&#xff1a; #include <stdio.h> int main(void){ printf(&q…

xss-labs靶场第一关测试报告

目录 一、测试环境 1、系统环境 2、使用工具/软件 二、测试目的 三、操作过程 1、注入点寻找 2、使用hackbar进行payload测试 3、绕过结果 四、源代码分析 五、结论 一、测试环境 1、系统环境 渗透机&#xff1a;本机(127.0.0.1) 靶 机&#xff1a;本机(127.0.0.…

2-115 基于matlab的瞬态提取变换(TET)时频分析

基于matlab的瞬态提取变换&#xff08;TET&#xff09;时频分析&#xff0c;瞬态提取变换是一种比较新的TFA方法。该方法的分辨率较高&#xff0c;能够较好地提取出故障的瞬态特征&#xff0c;用于故障诊断领域。通过对原始振动信号设置不同信噪比噪声&#xff0c;对该方法的抗…

国庆作业

day1 1.开发环境 Linux系统GCCFDBmakefilesqlite3 2.功能描述 项目功能: 服务器&#xff1a;处理客户端的请求&#xff0c;并将数据存入数据库中&#xff0c;客户端请求的数据从数据库进行获取&#xff0c;服务器转发给客户端。 用户客户端&#xff1a;实现账号的注册、登…

draw.io 设置默认字体及添加常用字体

需求描述 draw.io 是一个比较好的开源免费画图软件。但是其添加容器或者文本框时默认的字体是 Helvetica&#xff0c;一般的期刊、会议论文或者学位论文要求的英文字体是 Times New Roman&#xff0c;中文字体是 宋体&#xff0c;所以一般需要在文本字体选项里的下拉列表选择 …

2024 全新洞察:性格色彩报告 API 接口登场

近年来&#xff0c;人工智能技术的快速发展与应用&#xff0c;为我们的生活带来了诸多便利。其中&#xff0c;性格色彩报告 API 接口的登场&#xff0c;无疑是为我们了解自身性格特点提供了一种全新的方式。 性格色彩报告 API 接口&#xff0c;是一项基于性格色彩题库答案的技…