ASFormer:Transformer for Action Segmentation论文阅读笔记

news2024/11/24 13:53:24

摘要

为了解决动作分割类问题,作者设计了一个高效的基于transformer的动作分割任务模型,ASFormer,该模型具有以下三个特征:
(i)由于特征的高局部性,作者明确地引入了局部连通性归纳先验。它将假设空间限制在一个可靠的范围内,有利于动作分割任务用较小的训练集学习适当的目标函数。
(ii)作者应用了一个预定义的层次表示模式,可以有效地处理长输入序列。
(iii)作者仔细设计了解码器,以细化来自编码器的初始预测。在三个公共数据集上进行的大量实验证明了该方法的有效性。

简介

在解决使用Transformer的动作分割任务时,有三个主要的问题:
1.由于训练集的体积较小,缺乏Transformer的归纳偏差。归纳偏差的缺乏扩大了它们可以表示的特征,然而,这需要大量的训练数据。与NLP任务和其他视觉任务相比,动作分割任务的训练集相对较小,很难从较大的假设空间中学习目标函数。
2.由于长输入视频缺乏自我注意,Transformer很难形成有效的表示。在初始化时,自注意层对序列中的所有元素施加了几乎一致的注意权重。然而,动作分割任务的输入视频通常会持续数千帧,比其他视觉任务中的图像补丁序列要长得多。由于视频的长度,自我注意层学习适当的有意义的权重是一个挑战。每个自我注意层的缺陷进一步证实了一个严重的问题:一个Transformer模型中的这些自我注意层很难相互合作,形成输入的有效表示。
3.Transformer原来的编解码器结构不能满足动作分割任务的细化要求。多个动作片段之间的时间关系在动作分割任务中起着重要的作用,例如取瓶装水后的动作通常是饮水。给定一个初始预测,以前的工作通常在初始预测上应用TCNs或GCNs来执行一个细化过程,以提高性能。然而,在普通的编码器-解码器体系结构中的解码器并不是为这种用途而设计的。

在本文中,作者将解决上述三个问题,如下图所示。对于第一个问题,作者观察到动作分割任务的一个特性是特征的高局部性,因为每个动作都占据了持续的时间戳。因此,局部连通性归纳偏差对动作分割任务非常重要。它将假设空间限制在一个可靠的范围内,有利于用小的训练集学习一个适当的目标函数。作者通过在每一层中应用额外的时间卷积来引入这种强归纳先验。
在这里插入图片描述
对于第二个问题,Transformer很难对长输入序列形成一个有效的表示,我们用预先定义的层次表示模式约束每个自注意层,迫使低层次的自注意层首先关注局部关系,然后逐渐扩大它们的足迹,以捕获高层中更长的依赖关系。局部到全局的过程为每个自我注意层分配了特定的任务,以便它们能够更好地合作,实现更快的收敛速度和更高的性能。这种分层表示模式还降低了总空间和时间的复杂度。最后,我们提出了一种新的解码器设计来获得精确的预测。解码器中的交叉注意力机制允许编码器中的每个位置参与细化过程中的所有位置,同时避免编码器对学习特征空间的干扰。
实验是在三个常见的公共数据集上进行的,包括50salads,breakfast和GTEA。实验结果表明,该方法能够处理小的训练数据集和数千帧的长视频。
解码器的设计还利用了多个动作片段之间的时间关系,以帮助获得更平稳和准确的预测。综上所述,本工作的主要贡献包括: 1)对具有三个显著特征的动作分割任务的探索:明确引入了局部连通性归纳偏差、预定义的层次表示模式和解码器的新设计;2)三个公共数据集上最先进的动作分割结果。

方法

在本工作中,作者提出ASfromer来处理动作分割任务,如上图所示。ASFormer采用了一个编解码器结构的Transformer。给定预先提取的帧视频特征序列,编码器首先预测每一帧的初始动作概率。然后初始预测将被传递给多个连续解码器以执行增量细化。第一小节中,我们首先说明编码器的结构,展示我们如何处理小的训练数据集和有数千帧的长视频。在第二小节中,我们介绍了解码器的设计和我们利用多个动作段之间的时间关系进行细化的方法。最后在第三节中,我们介绍了我们实现和训练的细节。

Encoder

编码器的输入是预先提取的大小为T×D的特征序列,其中T为视频长度,D为特征维度。编码器的第一层是一个全连接层,用来调整输入特征的尺寸。然后,这一层后面是一系列的编码器块。在此之后,一个全连接层将从最后一个编码器块中输出预测y∈RT×C,其中C表示动作类的数量。
每个编码器模块包含两个子层。第一个是前馈层,第二个是单头自注意层。我们在两个子层周围使用残差连接,然后进行实例归一化和ReLU激活,如上图(a)所示。与普通transformer不同的是,我们使用一个扩展的时间卷积作为前馈层,而不是点级全连接层。
该设计的灵感来自于动作分割任务的特性,即a)缺乏大型训练集,b)特征的高局部性,因为每个动作都占据了输入视频中持续的时间段。与全连接层相比,时间卷积层可以给我们的模型带来有益的局部归纳偏差。
自注意层很难学会在数千帧中专注于有意义的位置。对于输入视频,这些自我注意层很难相互合作形成有效的表示。为了减轻这个问题,我们预先定义了一个分层表示模式。这种层次模式的灵感来自于现代神经网络设计:首先关注局部特征,然后逐渐扩大接受域来获取全局信息。例如,cnn通过连续的池化层来实现这种模式,以扩大更高层的接受域;或者使用随着扩张率逐渐增加的扩张卷积。由于这种层次模式的成功,我们将每个自我注意层的接受域约束在一个大小为w的局部窗口内(例如,对于帧t,我们只计算其局部窗口内的框架计算注意权重)。然后,局部窗口的大小在第i层(即,w=2i,i=1,2……)上加倍。同时,随着编码器深度的增加,我们还将时间卷积层的膨胀率提高了一倍,并与自注意层保持一致。
对于一个带有J个blocks的编码器,一个普通变压器的整个近似内存使用量为(J·T·T),其中T是视频长度。通过分层表示模式,我们将总空间复杂度降低到((2−ε)·2J·T),其中ε是一个很小的数字。在我们的设置中,我们使用J = 9,其中2J = 512几乎比t小10倍。与普通变压器相比,我们的ASfrore适用于接收长输入序列。

Decoders

多个动作片段之间的时间关系在动作分割任务中起着重要的作用。在动作部分之间有一些先后的关系,例如拿瓶子后的动作,通常是喝水。在之前的工作中,在初始预测上应用额外的TCNs或GCNs来执行细化过程可以提高性能。在本节中,我们将说明新设计的解码器如何对编码器一次输出的初始预测执行细化任务。为了更好地解释,我们首先引入一个单一的解码器,并自然地将其扩展到多个版本,以执行迭代细化。

A Single Decoder

解码器的输入是编码器输出的初始预测。解码器的第一层是用于调整维度的全连接层,然后是一系列解码器块。每个解码器块的体系结构如上图©所示与编码器类似,我们使用时间卷积作为前馈层,而层次模式也应用于交叉注意层。
与自注意层相比,交叉注意有以下区别:查询Q和键K是从编码器和前一层的输出连接得到的,而值V仅从前一层的输出得到。交叉注意机制允许编码器中的每个位置都能够参与细化过程中的所有位置。特征空间V完全由输入预测转换而成,不会被编码器的参与者干扰,因为生成的注意权值只用于在V内执行线性组合。

Multiple Decoders

人们自然会将单个解码器扩展到多个版本来执行迭代细化。在多解码器中,每个解码器的输入来自前一个,如上图(b)所示。
交叉注意机制允许引入外部信息来指导重新细化过程。我们希望逐渐减少外部信息的权重,以避免误差积累的问题。对于每个解码器块中的输入x,我们使用一个加权残差连接作为前馈层和交叉注意层的输出:
在这里插入图片描述
我们为第一个解码器设置α = 1,然后为之后的解码器指数降低α。

Loss Function

损失函数是每一帧的分类损失Lcls和平滑损失Lsmo的组合。分类损失是一个交叉熵损失,而平滑损失计算超过帧级概率的均方误差。最终的损失函数L为,
在这里插入图片描述
其中,ytˆc是时间t时gt标签ˆc的预测概率。λ是在我们的实验中设置为0.25的平衡权重。最后,为了训练完整的模型,将编码器和所有解码器上的损耗之和最小化。

实验

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/86953.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

经典文献阅读之--Swin Transformer

0. 简介 Transfomer最近几年已经霸榜了各个领域,之前我们在《经典文献阅读之–Deformable DETR》这篇博客中对DETR这个系列进行了梳理,但是想着既然写了图像处理领域的方法介绍,正好也按照这个顺序来对另一个非常著名的Swin Transformer框架…

Qt-Web混合开发-QWebEnginePage权限管理(3)

Qt-Web混合开发-使用QWebEnginePage打开摄像头演示权限管理🏳️‍🌈 文章目录Qt-Web混合开发-使用QWebEnginePage打开摄像头演示权限管理🏳️‍🌈1、概述🚩2、实现效果🥽3、实现功能🔊4、关键代…

PodSummPreSumm

PodSumm:播客音频摘要 论文地址 简介 最近播客的流行给现有的内容发现和推荐系统带来了巨⼤的机遇和⼀系列独特的挑战。与听音乐不同,播客通常需要听众长时间积极关注。演讲者的演讲风格、幽默类型或制作质量等主观属性可能会影响听众的偏好&#xff…

CVPR2022 | 动作识别框架新范式 STRM,用最小的样本获得最高的精度

论文题目:Spatio-temporal Relation Modeling for Few-shot Action Recognition 论文连接:https://arxiv.org/abs/2112.05132v2 代码连接:https://github.com/Anirudh257/strm 综述 我们提出了一种few-shot动作识别框架STRM,它…

非线性非高斯模型的改进粒子滤波算法(Matlab代码实现)

👨‍🎓个人主页:研学社的博客 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜…

unordered_mapunordered_set的应用以及底层实现(哈希表)

文章目录1️⃣unordered系列关联容器unordered_setunordered_map2️⃣底层结构哈希概念哈希冲突哈希函数常见的哈希函数哈希冲突解决闭散列线性探测的实现开散列开散列的概念开散列的实现3️⃣模拟实现unordered_map&&unordered_set哈希表的改造unordered_setunordered…

Improving Convolutional Networks with Self-Calibrated Convolutions

Improving Convolutional Networks with Self-Calibrated Convolutions一、引言二、方法实现一、Self-Calibrated Convolutions二、Instantiations三、实验一、消融实验二、目标检测三、关键点检测论文: http://mftp.mmcheng.net/Papers/20cvprSCNet.pdf代码: http…

CUDA 编程简介(下)

文章目录Memoryshared memoryglobal memoryTransfer Data异步预取Threadsthread blockwarpGPU 性能查看性能测试性能CUDA 流Memory GPU 在 CUDA Mode 下,有多种存储类型: register: 位于 SM 上,共 819281928192 个。作用范围是 th…

01. Web漏洞靶场的搭建

01. Web漏洞靶场的搭建 Web漏洞靶场的搭建(上) 什么是Web安全? 什么是Web Web是互联网的总称,全称为World Wide Web,缩写WWW,即全球广域网,也称为万维网,它是一种基于超文本和HT…

前端入门教程:CSS标准盒模型和怪异盒模型区别

理解盒模型:CSS3 中的盒模型有以下两种:标准盒模型、IE盒子模型(怪异盒模型),盒模型是由4个部分组成,由内向外分别是content(下图蓝色部分)、padding、border、margin盒模型有5个属性: width 元素宽height 元素高borde…

计算机网络题库---第六章应用层

主要选取谢希仁第八版,复习资料,学校期末划重点 (一)课本答案 1.互联网的域名结构是怎样的?它与目前的电话网的号码结构有何异同之处? 答: 2.域名系统的主要功能及域名系统中的本地域名服务器、根域名服…

世界杯竞猜项目Dapp-第三章(ERC20)

ERC20 是标准的以太坊 Token 协议,它也是一个合约代码,只要在该合约内部实现了特定的 6 个方法,就会被系统判定为代币合约,具体总结为:6 个必要接口,2 个必要事件,3 个可选接口,详情…

信贷产品年终总结之客群特征画像

临近年末,围绕信贷产品业务的年终总结,是各家金融机构或科技公司的必要工作内容之一。根据实际业务的数据表现进行汇总分析,不仅为回顾过去业务经营的全貌特点,提供了客观的数据分布描述,而且对后期业务开展的策略制定…

H-03卷积神经网络中卷积的作用与原理

目录 1.前言 2.卷积的作用 3.卷积的参数 3.1 卷积核大小(kernel_size) 3.2 填充(padding) 3.2.1 same 3.2.2 valid 3.2.3 full 3.3 卷积核算子(operator) 3.3.1 Robert 算子 3.3.2 Prewitt算子 …

2023就要你换个方式过新年!富而喜悦一年一渡开启新方式!

过去的一年,你过得怎么样?是否有过艰难的逆流时刻,是否拥有过快乐和满足,又是否得到了成长和收获?富而喜悦2023一年一渡财富流新年主题活动就要给你一个礼物多多!美美的“礼物”活动! 为此&…

艾美捷ichorbio CD4体内抗体,无惧竞争对手

CD4(分化簇4)是一种在辅助T细胞、调节性T细胞、单核细胞、巨噬细胞和树突状细胞表面表达的糖蛋白。CD4与主要组织相容性复合体(MHC)的II类分子相互作用,增强T细胞活化的信号。 艾美捷ichorbio CD4体内抗体-低内毒素&am…

基于web得数字媒体资源库系统

摘 要 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生,各行各业相继进入信息管理时代&…

VCS2 VCS仿真的基础

1、基础知识 编译流程: -Mupdate :增量编译,作用是将需要修改的某个文件修改后重新编译,其.o文件再与其他文件相链接。 -R :编译后立马执行。 -gui :打开DVE的实时GUI。 -l :把编译过程中产生…

CDH6.3.2防止被攻击,打补丁(未授权漏洞)

参考:CDH6.3.2Hadoop默认配置下存在未授权漏洞,禁止匿名访问 - 民宿 - 博客园 这段时间公司的运维大佬扫描安全漏洞的时候,发现有漏洞会被攻击,原因是没有新增用户校验,允许匿名去访问。这样的话。可以操作HDFS和Yarn上…

【iOS】熟悉Objective-C

熟悉Objective-C Objective—C通过一套全新的语法,在C语言基础上添加了面向对象的特性 频繁使用方括号和极长的方法名,使得代码十分易读。 了解Objective-C的起源 Obejective-C与C,java等面向对象的语言类似,在语法上使用“消息结…