ICCV2023 | 基于动作敏感性学习的时序动作定位

news2025/3/1 1:58:51

b7b8d4d0b5b3741ce34faaba95b7862d.gif

淘天集团-内容理解算法团队与浙江大学杨易教授团队合作的关于视频时序定位的论文被ICCV2023录取。

0dd958933037b25232284200fac82008.png

本文在业界首次将视频帧级别的细粒度信息引入至时序动作定位领域(Temporal Action Localization,TAL),对于时序动作定位任务,在单一标注(single-labeled)、密集标注(dense-labeled)和第一人称视角(egocentric)等类型数据集上,性能普遍超过SOTA。

24b963bfada61db555e81ea1b49ff856.png

动机

视频时序动作定位(Temporal Action Localization,TAL)是视频理解领域一个重要的任务。这个任务需要对于给定的视频,识别出其中所有发生的动作,同时定位出每个动作发生的起始时间。视频时序动作定位的方法可以广泛应用于高光检测、行为监控以及短视频分析等领域。

在过去对这个任务的处理中,大多数方法或是建立整体的时序提议,再对其做分类和定位;或是直接对不同帧同等地进行预测。但事实上,我们发现视频中动作内部的帧是有不同重要性的。以图1为例,对于晾衣服动作,描绘“把衣服晾到衣架上”的帧对于识别出这个动作最重要,描绘“拿出衣服”的帧对于定位出这个动作的开始最重要。而一些例如转场或模糊的帧则不具有很高的重要度。

因此我们提出用动作敏感度来表征帧的重要度,提出动作敏感性学习(action sensitivity learning),对于每一帧的动作敏感度进行建模,并将学习到的敏感度应用于损失函数中,以促进模型更关注重要的帧,从而更好的训练。

bacdc0c8953ca7fb4fbdeac8a043fbe5.png

图1: 晾衣服为案例的动机说明

21a6a75479cc61654629d1db862bf4d1.png

观察和动机

263dd4b2baa18ce4d4095ea1885d2773.png

图2:动作敏感性学习框架图

考虑到每种动作都有其本质的行为模式,但这种模式又在不同的场景或行为主体下有不同的偏移,因此我们提出从类别级别和实例级别对动作敏感性进行建模。同时,对于动作定位子任务,由于边界的不确定性和边界附近帧的不同语义信息,最敏感的帧也不一定在边界处,因此我们分别对动作分类和动作定位两个子任务都进行动作敏感性学习。整体的框架图如图2所示。

在类别级别的建模中,由于视频本身信息具有连续性,且存在一些关键帧,因此我们提出为每种动作使用一个可学习的高斯分布来建模其类别级别的动作敏感性。具体而言,针对分类子任务的类别级别动作敏感性pcls建模为:

437f044b1c4a1fe181c2a3812aa89ccd.png

针对定位子任务的类别级别动作敏感性ploc建模为:

6e0c15c57b115947e4ac5a5580ee83a9.png

其中μc,σc为可学习的参数。

在实例级别的建模中,考虑到重要的帧往往做出的预测质量比较高,模糊帧则相反,因此我们提出建立每一帧的预测质量,用质量来指导实例级别的学习。具体而言,以针对分类子任务的实例级别动作敏感性为例,我们首先通过实例建模网络预测实例级别的动作敏感性结果qcls,之后通过分类分数和时序维度上与真值的重叠度得到质量分数Q:

4e71575864772e35462fe33da2357466.png

然后基于MSE损失,学习实例建模网络:

7b72f51e414607350de9a4f8edea762f.png

最后我们将类别级别和实例级别的动作敏感度做和,并嵌入到损失函数中:

62b3055e567e0277fb26e4b9465ecc18.png

具体而言,我们对每一帧都通过Focal损失进行分类的学习,对每一个在动作内部的帧都基于DIoU损失进行回归的学习,在此基础上每一帧的损失函数前再乘以学习到的动作敏感度:

121e799f63e71d71c21a033602475c17.png

bae211a7f9cd5568541b2615b651ea34.png

此外,我们还引入了动作敏感度对比学习损失来进一步增强特征,具体而言,我们通过上文的动作敏感性学习,得到针对两个子任务的敏感特征,将这两部分作为正样本,同时将其他不同动作类别以及背景帧作为负样本,基于InfoNCE的形式进行学习:

77ba6c32713f069ea2071328d8828354.png

因而最终的损失函数表示为:

996f96b595b2d388565a660dac4616a3.png

74c936de6d6abd00b4a5907d2050dfa5.png

实验

我们在3大类共6个数据集上验证了我们的方法,包括:密集标注的MultiThumos和Charades,见表1,我们提出的方法在average mAP指标上大幅超越以往方法。

58dd00542935298bdcdd031efd558cde.png

表1: 在MultiThumos和Charades上的结果

密集标注且第一人称视角的Ego4D-Moment Query,见表2,在使用相同特征且公平对比下,我们的方法同样在验证集和测试集上都优于过去方法。

bdca63e59bec82af7fa06965ddfae299.png

表2:在Ego4D Moment Queries上的结果

单一标注的Thumos14和ActivityNet,见表3,由于在单一标注数据集上动作实例较少,我们提出方法中的对比学习部分收益较少,但整体仍然优于之前的SOTA方法。

e8b713b5727fa11327beca7317dbb43c.png

表3:在Thumos和ActivityNet上的结果

表4展示了部分消融实验结果,ASL结构中类别级别建模、实例级别建模都挖掘了帧之间不同的重要性,进而提升了average mAP指标。而融合了动作敏感性对比学习损失后,进一步增强了特征,获得了最佳性能。

3e4cddfad3eed7f5c89b4424aea5f13e.png

表4:在MultiThumos上的消融实验

图3展示了ASL的可视化结果,表明了我们提出的方法能够找到动作内部一些重要的帧(如描绘“把衣服晾到衣架上”,“水流流经手”的这些帧对于分类子任务具有了较高的重要度),而一些转场、模糊的帧则被赋予了较低的重要度。

6961a61b2ac5f496304940206f5517d3.png

图3: 部分可视化结果

c5e1bc65683d919ec3653fa85da63cf3.jpeg

总结

本文从挖掘动作内部不同帧的不同重要性入手,提出了动作敏感性学习(ASL)。通过从类别级别和实例级别建模的方式,学习到每一帧的敏感度,并融入进损失函数中,以促进模型更好的训练。同时还提出敏感度对比学习损失,进一步加强特征。本文提出的方法刷新了多个数据集时序动作定位任务的SOTA指标。相关算法将会有助于进一步提高淘宝短视频内容理解的精准性。

ba6c69a02280c39363ee9555ce2adb52.jpeg

Reference

  1. Zhang C L, Wu J, Li Y. Actionformer: Localizing moments of actions with transformers[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 492-510.

  2. Yeung S, Russakovsky O, Jin N, et al. Every moment counts: Dense detailed labeling of actions in complex videos[J]. International Journal of Computer Vision, 2018, 126: 375-389.

  3. Caba Heilbron F, Escorcia V, Ghanem B, et al. Activitynet: A large-scale video benchmark for human activity understanding[C]//Proceedings of the ieee conference on computer vision and pattern recognition. 2015: 961-970.

  4. Grauman K, Westbury A, Byrne E, et al. Ego4d: Around the world in 3,000 hours of egocentric video[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 18995-19012.

  5. Sigurdsson G A, Gupta A, Schmid C, et al. Charades-ego: A large-scale dataset of paired third and first person videos[J]. arXiv preprint arXiv:1804.09626, 2018.

  6. Damen D, Doughty H, Farinella G M, et al. Scaling egocentric vision: The epic-kitchens dataset[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 720-736.

  7. Yu-Gang Jiang, Jingen Liu, A Roshan Zamir, George Toderici, Ivan Laptev, Mubarak Shah, Rahul Sukthankar. Thumos challenge: Action recognition with a large number of classes. 2014

700914df98364c8095a2f581465a9f42.jpeg

团队介绍

淘天集团-算法技术-内容理解团队,依托淘天亿级的视频数据,构建完善的内容理解体系,支撑淘宝信息流、逛逛、淘宝直播、点淘等淘系核心业务。团队成员曾多次获得CVPR、ICCV等顶会竞赛冠军,积累的多项多模态理解能力,发布在如NIPS、CVPR、ICCV、ECCV、TPAMI、TIP、MM等顶级和期刊上。

ee3f3c3927ead08f18639a3f092af862.jpeg

团队介绍

淘天集团-算法技术-内容理解团队,依托淘天亿级的视频数据,构建完善的内容理解体系,支撑淘宝信息流、逛逛、淘宝直播、点淘等淘系核心业务。团队成员曾多次获得CVPR、ICCV等顶会竞赛冠军,积累的多项多模态理解能力,发布在如NIPS、CVPR、ICCV、ECCV、TPAMI、TIP、MM等顶级和期刊上。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/915144.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

iFlyCode 智能编程助手:提升编码效率的人工智能工具

一,介绍 iFlyCode 智能编程助是一款基于人工智能的编程辅助工具,旨在提高开发者的编码效率和准确性。它能够与多种编程语言和集成开发环境(IDE)配合使用,为开发者提供代码建议、自动完成和重构等功能。 以下是 iFlyC…

ethers.js1:ethers的安装和使用

ethers官方文档:Documentation 1、ethers简介: ethers.js是一个完整而紧凑的开源库,用于与以太坊区块链及其生态系统进行交互。如果你要写Dapp的前端,你就需要用到ethers.js。 与更早出现的web3.js相比,它有以下优点…

2023-8-23 滑动窗口

题目链接&#xff1a;滑动窗口 #include <iostream>using namespace std;const int N 1000010;int n, k; int a[N], q[N];int main() {scanf("%d%d", &n, &k);for(int i 0; i < n; i) scanf("%d", &a[i]);int hh 0, tt -1;for(…

Java注解和自定义注解以及应用。

&#x1f61c;作 者&#xff1a;是江迪呀✒️本文关键词&#xff1a;微信小程序、页面跳转、移动端、前端☀️每日 一言&#xff1a;追求潮流&#xff0c;其本身一点都不潮流&#xff01; 一、前言 使用 Java 注解&#xff08;Annotations&#xff09;可以在代码中…

读书笔记-10张不同的思维导图

用思维导图做的读书笔记 当我们阅读一本书时&#xff0c;需要整理和记录书中的关键信息和观点&#xff0c;如果用传统的笔记方法&#xff0c;不仅会信息凌乱&#xff0c;而且效率低下。思维导图可以帮助我们更好地理解和组织一本书中所读内容。 一、我们先来了解一下什么是思…

Stable Diffusion 系列教程 | 文生图 - 提示词

目录 1.提示词 基本的规则 2.提示词分类 2.1内容性提示词 2.2 画风艺术派提示词 2.3 画幅视角 2.4画质提示词 3 反向提示词 3.1 内容性反向提示词 3.2 画质性反向提示词 4 实例分析 5 权重 5.1 方法一 5.2 方法二 6.参数 7. 学习and 技巧 7.1 辅助写提示词的网…

c++ 虚函数类对象模型

一、复杂的菱形继承及菱形虚拟继承 单继承&#xff1a;一个子类只有一个直接父类时称这个继承关系为单继承。 多继承&#xff1a;一个子类有两个或以上直接父类时称这个继承关系为多继承。 菱形继承&#xff1a;菱形继承是多继承的一种特殊情况。 菱形继承的问题&#xff1a;从…

从零开始学习YOLOv5 保姆级教程

一、前言 YOLO系列是one-stage且是基于深度学习的回归方法&#xff0c;而R-CNN、Fast-RCNN、Faster-RCNN等是two-stage且是基于深度学习的分类方法。 YOLOv5是一种单阶段目标检测算法&#xff0c;该算法在YOLOv4的基础上添加了一些新的改进思路&#xff0c;使其速度与精度都得…

【C++】vector类的模拟实现(SGI版本)

&#x1f3d6;️作者&#xff1a;malloc不出对象 ⛺专栏&#xff1a;C的学习之路 &#x1f466;个人简介&#xff1a;一名双非本科院校大二在读的科班编程菜鸟&#xff0c;努力编程只为赶上各位大佬的步伐&#x1f648;&#x1f648; 目录 前言一、vector类的模拟实现1.1 vect…

SpringCloud Alibaba实战和源码(7)Skywalking

什么是SkyWalking Skywalking是由国内开源爱好者吴晟开源并提交到Apache孵化器的产品&#xff0c;它同时吸收了Zipkin /Pinpoint /CAT 的设计思路。特点是&#xff1a;支持多种插件&#xff0c;UI功能较强&#xff0c;支持非侵入式埋点。目前使用厂商最多&#xff0c;版本更新较…

水溶性焊锡丝非水溶焊锡丝

Sn63Pb37&#xff0c;无FLUX&#xff0c;水清洗&#xff1b;A可理解为余量或者国标A类标准1% Sn63Pb37&#xff0c;FLUX 1.8% 焊锡膏 焊锡丝 焊锡丝&#xff0c;英文名称&#xff1a;solder wire&#xff0c;由锡合金和助剂两部分组成&#xff0c;合金成份分为锡铅、无铅助剂均…

PX4使用esp8266

文章目录 前言一、给esp8266下载固件接线下固件 二、配置esp8266 前言 硬件&#xff1a; esp01s(esp01好像有些问题&#xff0c;不建议用) usb转串口模块 pix飞控 软件&#xff1a; qgc PX4 参考&#xff1a; https://docs.px4.io/main/en/telemetry/esp8266_wifi_module.html…

1.4亿X区城市运行“一网统管”体系建设项目项目招标WORD

导读&#xff1a;原文《1.4亿X区城市运行“一网统管”体系建设项目项目招标WORD》&#xff08;获取来源见文尾&#xff09;&#xff0c;本文精选其中精华及架构部分&#xff0c;逻辑清晰、内容完整&#xff0c;为快速形成售前方案提供参考。 部分内容&#xff1a; 各部分需求…

VS code 设置 资源管理器 对齐线

点击左上角的File --> Preformences --> Settings 然后搜索 workbench&#xff0c;把workbench.tree.renderIndentGuides选成always&#xff0c;这样会一直显示对齐的竖线。 找到workbench.tree.indent&#xff0c;这个值就是缩进的像素数量&#xff0c;值越大&#xff0…

electron+vue3全家桶+vite项目搭建【16.1】electron多窗口,pinia状态同步,扩展store方法,主动同步pinia的状态【推荐】

文章目录 引入实现效果如下实现步骤1.自定义pinia插件2.主进程补充同步处理 引入 demo项目地址 我们之前写了一个自动同步pinia状态的插件&#xff0c;可以参考如下文章 electronvue3全家桶vite项目搭建【16】electron多窗口&#xff0c;pinia状态无法同步更新问题解决 这里…

WinPlan经营大脑:专注企业经营分析预测的垂直大模型

目录 一、WinPlan的核心功能与优势 二、WinPlan的应用场景与案例 三、数利得的团队与未来发展 四、投资方观点 随着科技的不断进步和市场竞争的日益激烈,企业数字化转型已成为提高经营效率和管理水平的关键。然而,许多企业在经营决策过程中仍面临许多问题,尤其在管理层的…

2023年国赛 高教社杯数学建模思路 - 案例:随机森林

文章目录 1 什么是随机森林&#xff1f;2 随机深林构造流程3 随机森林的优缺点3.1 优点3.2 缺点 4 随机深林算法实现 建模资料 ## 0 赛题思路 &#xff08;赛题出来以后第一时间在CSDN分享&#xff09; https://blog.csdn.net/dc_sinor?typeblog 1 什么是随机森林&#xff…

免费开源大型商城系统_支持商用_无需授权_OctShop

一、OctShop免费开源大型商城系统&#xff0c;支持商用 OctShop是一个免费开源的大型商城系统&#xff0c;无需官方授权就可以直接商用&#xff0c;商城系统集B2B2C和O2O模式于一体。采用前后端分离 八大数据库 分布式系统 微服务架构&#xff0c;支持高并发&#xff0c;非…

Kernel panic - not syncing: VFS: Unable to mount root fs on unknown-block(31,2)

[ 3.405676] No filesystem could mount root, tried: squashfs [ 3.411546] Kernel panic - not syncing: VFS: Unable to mount root fs on unknown-block(31,2)可能的原因之一&#xff1a; uboot中rootfs分配的大小不够 解决&#xff1a; 修改root到一个合适的大小…

基于启扬RK3399核心板消防控制图形显示装置的解决方案

在我们日常生活中&#xff0c;火灾的发生是不可避免的风险之一&#xff0c;为了能及时发现火灾&#xff0c;并能够迅速采取措施进行灭火和救援&#xff0c;消防系统起着至关重要的作用。而在消防系统中&#xff0c;消防控制室图形显示装置是其中的重要组成部分之一。 消防控制图…