标题:基于多模态查询的非特定行为者多标签动作识别
源文链接:https://openaccess.thecvf.com/content/ICCV2023W/NIVT/papers/Mondal_Actor-Agnostic_Multi-Label_Action_Recognition_with_Multi-Modal_Query_ICCVW_2023_paper.pdfhttps://openaccess.thecvf.com/content/ICCV2023W/NIVT/papers/Mondal_Actor-Agnostic_Multi-Label_Action_Recognition_with_Multi-Modal_Query_ICCVW_2023_paper.pdf
源码链接:mondalanindya/MSQNet: Actor-agnostic Multi-label Action Recognition with Multi-modal Query [ICCVW '23] (github.com)https://github.com/mondalanindya/MSQNet发表:ICCV-2023
目录
摘要
1.引言
2.相关工作
3.多模态语义查询网络
3.1.时空视频编码器
3.2.多模态查询编码器
3.3.多模态解码器
3.4.学习目标
4.实验
4.1.监督学习评价
4.2.零样本学习评价
4.3.进一步分析
4.4.可视化
5.结论
读后总结
摘要
现有的动作识别方法通常具有特定的行为者针对性,这是因为行为者之间固有的拓扑结构和外观差异。这要求针对特定行为者进行姿态估计(例如,人类与动物),导致模型设计复杂且维护成本高。此外,这些方法往往仅关注视觉模态的学习和单标签分类,而忽视了其他可用的信息源(例如,类别名称文本)以及多个动作的同时发生。为了克服这些限制,我们提出了一种新的方法,称为“非行为者特定的多模态多标签动作识别”,它为包括人类和动物在内的各种类型的行为者提供了一个统一的解决方案。我们进一步在基于转换器的目标检测框架(例如,DETR)中构建了一个新颖的多模态语义查询网络(MSQNet)模型,该模型的特点是利用视觉和文本模态来更好地表示动作类别。消除行为者特定的模型设计是一个关键优势,因为它完全消除了对行为者姿态估计的需求。在五个公开可用的基准数据集上进行的大量实验表明,我们的MSQNet在针对人类和动物的单标签和多标签动作识别任务上,相较于先前特定行为者的替代方案,性能提升了高达50%。代码已公开在 https://github.com/mondalanindya/MSQNet。
1.引言
动作识别已经被广泛研究,主要关注人类作为行为者[30, 29, 16, 32, 53, 14, 25, 2, 6],为多种应用带来了益处,例如医疗保健[5, 75]、虚拟和增强现实[33]等[27]。虽然大多数研究都集中在人类身上,但动作识别同样有潜力应用于动物[39]。然而,识别动物的动作和行为是一项具有挑战性的任务。动物通常表现出不同的形状、大小和外观,如图1所示。因此,有必要开发更复杂和定制化的设计,以适应每个动物行为者的独特特征。
实现这一目标的一种方法是结合行为者的特定姿态信息[39]。因此,最终解决方案将针对每个特定的动物行为者进行定制。此外,大多数现有的动作识别方法都集中在单标签分类上,这意味着它们被设计用于为给定视频分配一个单一的动作标签。然而,在真实世界场景中,单个视频内可能发生多个动作,这使得任务更加复杂。这些方法仅依赖视频数据进行模型训练和推理。因此,尽管动作类别名称中包含的文本信息(通常以离散编码的数字表示)可以提供有价值的上下文和信息,但它们往往被忽视。
为了克服上述提到的限制,我们提出了一个新的问题定义——面向非行为者特定的多模态多标签学习动作识别。这种新颖的问题设定旨在利用包括视觉和文本数据在内的多种信息源,为每个视频预测多个动作标签。一个基本的前提是模型需要独立于行为者的身份,从而确保其在不依赖特定行为者特征的情况下具有更广泛的适用性和易于部署性。这鼓励了复杂动作识别模型的进步,这些模型在计算和成本效益方面提供了实际好处。
在这个方向上,我们介绍了一种新颖的多模态语义查询网络(MSQNet),它受到基于Transformer的检测框架(例如,DETR [35])的启发。通过将多标签动作分类视为一种特殊形式的目标检测,MSQNet消除了对显式定位和特定于行为者的信息(如行为者的姿态)的依赖,因此使其成为非行为者特定的。重要的是,我们设计了一个多模态语义查询学习方案,利用预训练的视觉-语言模型(例如,CLIP [18])来融合视觉和文本信息。这种方法允许我们以可训练的方式结合和利用视觉和文本数据。这导致了对动作类别的更全面和精确的表示,同时直接从训练数据中获取行为者的独特特征,而无需特定于行为者的元素。
我们的贡献总结如下:(1)我们为无约束视频中的非行为者特定动作识别引入了多模态多标签学习的新问题定义。使用单一的模型架构来处理各种动作任务,减少了对特定行为者设计的繁琐需求,提高了模型的泛化能力和维护效率。(2)为了解决这个问题,我们设计了一种新颖的多模态语义查询网络(MSQNet)模型,该模型将多标签动作分类问题转化为优雅的Transformer编码器-解码器框架中的多模态目标检测任务。它的特点是通过原理性的视觉-语言信息融合设计来创建更丰富的标签查询,以便最终能够识别出更准确的动作类别,而无需依赖特定行为者的姿态信息。(3)通过在五个公开可用的基准数据集上进行严格的实验,我们展示了我们的MSQNet在人和动物多标签动作识别任务上始终优于之前更复杂、特定于行为者的替代方案。
2.相关工作
动作识别:在不受约束的视频中准确编码空间和运动信息对于识别动作至关重要。早期对视频理解的尝试采用了2D或3D卷积与序列模型的组合来捕获空间和时间信息[10, 17, 61]。最近,研究人员提出了基于视觉变换器的模型[2, 37, 66],这些模型有效地考虑了长距离的时空关系,并且轻松超越了其卷积模型对应物。虽然早期模型主要考虑了单模态解决方案,但最近的工作,如ActionCLIP[57]和XCLIP[40],通过利用CLIP并将其应用于视频理解,采用了多模态方法。然而,所有现有的工作都是特定于行为者的,即它们考虑的是人类[2, 45]或动物[39]的动作。我们的目标是通过解决非特定行为者的动作识别问题来克服这一限制,据我们所知,这是首次提出此类问题。
视觉变换器(ViTs):受到基于注意力的Transformer[55]模型在自然语言处理(NLP)中成功的启发,Dosovitskiy等人将这一框架应用于图像分类,并将其命名为视觉变换器(ViT)[13]。随着ViT的成功,许多其他研究者也提出了他们的框架,这些框架专注于高效训练[51]、基于移位窗口的自注意力[36]、更深的架构[52]、自监督预训练[9]等。接着,Carion等人[8]在经典的Transformer编码器-解码器架构中考虑了CNN特征图,设计了一个名为DETR[8]的端到端目标检测框架。这一框架被进一步改进,出现了几种类似于DETR的目标检测器,它们专注于训练[76, 35]和数据效率[59]。自注意力机制也被探索用于诸如图像分割等密集预测任务中,其中涉及到了层次金字塔ViT[58]、渐进式上采样、多级特征聚合[71]和基于掩码的预测[48]。除了这些在图像域的工作外,变换器也被用于卷积特征图之上,以实现动作定位和识别[20]、视频分类[60]和群体活动识别[19],这些研究在纯基于变换器的模型中得到了扩展,考虑了时空注意力[6, 50]。在本文中,我们将变换器作为我们视频编码器的一部分,以考虑细粒度特征及其空间和时间关系,来建模非特定行为者的动作分类任务。此外,我们还利用了DETR框架进行多标签动作识别,这在之前的动作模型中从未尝试过。
视觉语言模型:众多应用已经证明了大规模预训练图像-文本表示的高效率,这些应用包括但不限于文本到图像的检索[62]、图像描述生成[65]、视觉问题回答[1]、少样本和零样本识别[68, 73]、目标检测[21, 4, 74]和图像分割[12, 31, 72]。由于这些应用的成功,像CLIP[44]和ALIGN[23]这样的基础视觉语言模型在计算机视觉社区中变得非常流行。然而,在尝试将视觉语言模型的知识转移到视频上时,由于图像级别上时间信息的有限可用性,会面临挑战。为了解决这个问题,最近的研究如[57, 40, 42]等试图通过加入额外的可学习组件(包括自注意力层、文本或视觉提示等)来将流行的CLIP模型适应到视频上。与这些现有模型不同,我们的方法涉及使用预训练的视觉语言模型来创建多模态语义查询,这些查询可以插入到Transformer解码器网络中,以从视频编码器中提取关键特征,用于非行为者特定的多标签分类。
3.多模态语义查询网络
我们介绍了MSQNet,一个基于Transformer架构的视觉语言模型(VLM),用于以非特定行为者的方式进行多标签多模态动作分类。如图2所示,我们的模型由三个组件组成:(1)一个考虑细粒度空间和运动线索的时空视频编码器,(2)一个结合视频和特定动作类别信息来源的多模态查询编码器,以及(3)一个采用多头自注意力和编码器-解码器注意力机制的多模态解码器,以转换视频编码。首先,我们在第3.1节中概述了视频编码器,接着在第3.2节中描述了多模态查询编码器,并在第3.3节中简要介绍了我们的多模态解码器。最后,我们在第3.4节中概述了我们的学习目标。
图2. 我们的MSQNet模型用于多模态查询的多标签动作识别的概述。该模型包含三个关键组件:一个时空视频编码器、一个视觉-语言查询编码器和一个多模态解码器。视频编码器从输入视频中提取时空特征,查询编码器融合视觉和文本信息,而多模态解码器则转换视频编码,通过前馈网络(FFN)进行多标签分类。请注意,这里使用了两个独立的视觉编码器,它们各自有不同的用途。视频编码器从视频中提取时空特征,而CLIP图像编码器则捕获与文本内容对齐的补充特征。
3.1.时空视频编码器
考虑一个视频 V ∈ RT×3×H×W,其中空间维度为 H × W,包含 T 个采样帧。遵循现有的视频 Transformer 模型[6, 2],每个帧被分割成 N 个非重叠的 P × P 大小的正方形块,总块数 N = HW/P^2。我们将这些块展平为向量,并将这些向量表示为 x(p,t) ∈ R^3P^2,其中 p = 1,...,N 表示空间位置,t = 1,...,T 表示帧的索引。然后,我们通过一个投影层 Wemb ∈ R3P2×D 将每个块 x(p,t) 映射到一个嵌入向量∈ RD 中,其中 Wemb 是投影矩阵,D 是嵌入维度:
其中 epos(p,t) ∈ RD 是一个可学习的位置嵌入,用于编码每个块的时空位置。得到的嵌入向量序列(p = 1,...,N, t = 1,...,T)作为 Transformer 编码器的输入[13]。
与大多数 Transformer 一样,我们在序列的第一个位置添加了一个特殊的可学习向量 z(0)(0,0) ∈ RD,表示全局令牌的嵌入。从具有 Lv 层数的视频编码器中,我们得到每个层 l 的块级表示为:
其中 f(l) θv 是视频编码器的第 l 层。最后,为了获得全局帧级表示,我们将每个帧的所有块令牌平均化,然后使用线性投影层(也称为全局编码器)Wout ∈ RD×D 投影到维度 D:
其中 ,vt 是帧 t 的输出表示, 是视频编码器最后一层输出序列中的全局令牌。表示视频 V 的序列包含全局令牌和帧级表示 [v1,..., vN],其形式为 ,我们泛用符号将其写为 F = [v0, v1,..., vN]。
3.2.多模态查询编码器
给定一个带有多类动作标签Y的训练视频V ∈ RT×3×H×W,我们为我们的Transformer解码器网络构造了多模态查询。这个多模态查询是通过融合可学习的标签嵌入和视频特定嵌入来形成的。在我们的案例中,一个类别的可学习标签嵌入是一个D维的可学习向量,表示为Ql ∈ RK×D,其中K是该数据集中类别的总数。在训练中,我们使用相应类别的文本嵌入来初始化Ql。为了获得这些D维的文本嵌入,我们使用了一个预训练的文本编码器,例如具有D=512嵌入大小的12层CLIP[44]模型(对于CLIP B/16变体)。为了获得视频嵌入,我们独立地将T帧作为一批图像应用于CLIP[18]图像编码器(CLIP B/16变体),并生成D维的帧级嵌入。这些帧级嵌入通过平均池化获得视频嵌入Qv ∈ RD''。请注意,我们使用CLIP图像编码器来提取与文本内容对齐的补充视频特征,这与第3.1节中描述的时空视频编码器具有不同的目的。为了形成多模态查询,我们将Ql和Qv连接起来,并使用权重为的线性投影,得到多模态查询,其中[·, ·]表示连接操作。
讨论:最初,提出的模型设计不依赖于姿态,确保我们的解决方案不限于特定的行为者。随后,文本数据和视觉嵌入的结合产生了动作的全面表示,增强了模型的表达能力。最后,通过整合常规的文本嵌入,模型能够展现出零样本学习(zero-shot)能力。
3.3.多模态解码器
从视频编码器获取输入视频的时空特征 F 后,我们考虑来自多模态查询编码器的多模态语义查询 。然后,我们使用多层 Transformer 解码器通过自注意力和交叉注意力从时空视频表示中聚合特定于动作的特征。我们采用标准的 Transformer 架构,包括多头自注意力(MultiHeadSA)模块、交叉注意力(MultiHeadCA)模块和位置前馈网络(FFN)。每个解码器层 l 通过以下方式更新来自其前一层输出的查询 Ql−1:
其中,波浪线表示通过添加位置编码修改后的原始向量,和 是两个中间变量。为了简化,我们省略了 MultiHead 注意力和 FFN 函数的参数,这些参数与标准 Transformer 解码器中的参数相同 [55]。每个标签嵌入 , k ∈ {1,...,K},评估时空帧特征 ˜F 以确定关注的位置,并与感兴趣的特征相结合。这导致了一个与标签嵌入更相关的类别特征。然后,标签嵌入使用这个新特征进行更新。这个过程在解码器网络的每一层中重复。因此,标签嵌入 Qk 通过自注意力和交叉注意力逐层更新,并逐步注入来自输入视频的上下文信息。通过这种方式,嵌入可以从数据和模型标签的相关性中隐式地学习。
特征投影:为了执行单标签分类,我们需要模型对正确的动作标签有信心。对于多标签分类,我们将每个预测的标签视为一个二分类问题。为了实现这一点,我们将Transformer解码器第L层的每个类别的特征表示投影到一个线性投影层上。接着,应用一个激活函数σ,对于单标签任务,我们使用Softmax函数;对于多标签动作分类任务,我们使用Sigmoid函数:
其中,,以及bk ∈ R,b = [b1, ..., bK]^T ∈ RK 是线性层的参数,而是每个类别的概率。我们将p视为一个函数,它将输入视频映射到类别概率上。
3.4.学习目标
给定一个视频V,我们的目标是以一种方式训练我们的模型,使得每个动作类别的预测概率与真实标签相匹配。因此,我们使用分类交叉熵损失作为最终的学习目标来训练我们的模型。
其中n是样本或观察的数量,K是类别的数量。具体地说,在单标签数据集(如Thumos14)上,我们使用适用于多类别单标签设置的“经典”交叉熵损失;而对于其他多标签数据集,我们使用二元交叉熵损失。
4.实验
数据集:我们评估了单标签和多标签动作识别数据集:(1)Thumos14 [22],这是一个单标签数据集,包含来自20个类别的13,000个视频,其中有1,010个验证视频和1500个未修剪的测试视频。(2)Hockey [47],这是一个多标签数据集,包含36个视频中的12种活动。(3)Charades [46] 包含157个动作的66,500个标注,并分为7,986个训练视频和1,863个验证多标签视频。(4)Animal Kingdom [39] 是一个大型多标签数据集,包含超过50小时的镜头,展示了来自不同种类和环境的野生动物。它包含30,000个视频序列,包括来自哺乳动物、鸟类、爬行动物、两栖动物、鱼类和昆虫的850多个物种。(5)HMDB51 [28] 是一个综合的原始视频编集,来自各种来源,包括电影和在线视频。它包含6,766个视频片段,跨越51个不同的动作类别,如“跳跃”、“亲吻”、“笑”等。每个类别至少包含101个片段。
训练细节:我们使用Adam优化器[26]将模型训练100个周期,使用余弦衰减调度器(cosine decay scheduler)和初始学习率0.00001。除非另有说明,我们将训练帧数设置为16。对于Animal Kingdom、Charades、Hockey、Volleyball数据集,我们使用BCEWithLogitsLoss(二元交叉熵损失带logits),而对于Thumos14和HMDB51,我们使用CrossEntropyLoss(交叉熵损失)。
评估指标:遵循现有协议,我们使用准确率(accuracy)[41]作为Hockey、Volleyball、Thumos14和HMDB51的评估指标。对于Animal Kingdom和Charades数据集,我们使用平均平均精度(mean average precision, mAP)[49]来测量性能。
4.1.监督学习评价
设置:这是最常见的设置,其中有一个带有标签的标记数据集DS可用于模型训练。
结果:我们在表1中展示了比较结果。对于Charades数据集,我们将我们的模型与AFAC[69]、MViT[15]和ActionCLIP[57]进行了比较。在Thumos14数据集的情况下,我们考虑了BMN[34]、R-C3D[64]和SSN[70]。对于Animal Kingdom数据集,我们只考虑了CARe[39]方法,它使用了两个主干网络(X3D和I3D),因为没有其他方法在该数据集上展示了结果。对于Hockey数据集,我们考虑了EO-SVM[7]和AFAC[69]。最后,在表2中的HMDB51数据集上,我们考虑了BIKE[63]、R2+1D-BERT[24]和VideoMAE V2-g[56]进行比较。我们使用了两种设置来评估MSQNet,一种仅使用可学习的查询(即仅文本提示,没有视频提示),另一种使用多模态查询,同时考虑可学习的查询和视频提示。我们使用了在Kinetics-400[25]上训练的ViT-B、C3D和TimeSformer主干网络,以及I3D,以进行公平比较。如表1和表2所示,我们的多模态设置超过了所有先前的方法。值得注意的是,Animal Kingdom[39]数据集的改进特别显著,这表明将视觉-语言信息相结合对于处理不同物种和属之间的多样化动作是有益的。此外,MSQNet在三个人类动作数据集上的出色表现也证实了我们的模型的泛化能力,因为它不依赖于特定的行为者。
4.2.零样本学习评价
设置:在此设置中,模型在一个源数据集Dtrain上进行训练,并直接在目标数据集Dtest上进行测试。源数据集Dtrain包含属于源类别的样本。模型在目标数据集Dtest上进行评估,其类别为Ytest,其中Ytrain ∩ Ytest = φ,即训练和测试的动作类别互不相交。对于本实验,我们考虑了三个数据集:(1)Thumos14 [22],(2)Charades [46],和(3)HMDB51 [28]。对于Thumos14,我们考虑了由[38]提出的数据集分割。对于HMDB51,我们考虑了由[43]提出的零样本学习分割。在Charades [46]的情况下,由于没有这样的分割公开可用,我们为进行零样本学习实验定义了自己的随机分割,这些分割将在本文被接受后公开。特别地,对于这一实验设置,我们为Thumos14、Charades和HMDB51考虑了两种不同的数据集分割:(1)Ytrain和Ytest分别包含数据集中总类别数的75%和25%,(2)Ytrain和Ytest分别包含数据集中总类别数的50%和50%。为了确保统计显著性,我们遵循了[38]的方法,并考虑了具有上述设置的10个不同的随机动作类别分割。
结果:我们在表3中展示了零样本学习设置的实验结果。不幸的是,由于VideoCOCA [67]、CLIP-Hitchiker [3] 和 BIKE [63] 的开源代码不可用,我们无法在我们的数据集分割上运行这些模型。因此,我们遵循了第4.2节中提到的设置以确保公平评估,并且仍然报告了它们在所有数据集上的得分。在比较时,我们考虑了MSQNet模型的不同组件在表3中:(1)Vanilla MSQNet:没有文本初始化和视频嵌入的MSQNet;(2)Vanilla MSQNet + Text Init.:具有文本初始化的MSQNet,但没有视频嵌入;(3)MSQNet:我们的完整模型,具有文本初始化和视频嵌入。我们进一步将MSQNet与三个数据集上的各自最优模型(SoTA)进行了比较。表3中的结果表明,我们的MSQNet模型在基准模型上取得了显著的优势,突出了模型不同组件的有效性。此外,结果还强调了视频嵌入对于在两个数据集中实现零样本学习能力的重要性。
4.3.进一步分析
视频编码器:在表4中,我们展示了不同主干架构对MSQNet性能的影响。我们的分析主要集中在最新的主干架构上,如VideoMAE [50]和TimeSformer [6],我们使用这些架构来初始化我们的视频编码器。我们利用Animal Kingdom和Charades数据集来评估这些主干架构的有效性。结果显示,TimeSformer [6]主干架构在两个数据集上都优于VideoMAE [50]主干架构。TimeSformer的成功可以归因于其“分割注意力”机制,这使得网络能够在每个块内分别关注空间和时间特征,从而提高视频分类的准确性。
帧数:在我们的MSQNet模型中,我们默认考虑包含16帧(即T=16)的视频作为默认设置。然而,我们也实验了长度为8和10帧的片段。如表5所示,使用16帧可以获得最佳性能。这一发现归因于采样更多帧能够更全面地理解可能在较长时间内发生的复杂动作和事件。我们的发现在人类和动物动作数据集上都是一致的。
多模态查询的重要性:表1中每个数据集最后两行的结果展示了将可学习查询(即文本特征)和视觉特征相结合以增强模型性能的优势。通过视觉和文本线索,我们的模型可以更全面地理解特定场景或动作周围的上下文。这在动物数据集上特别有益,因为CLIP图像编码器可以充分发挥其潜力。这是因为CLIP已经在数百万的图像-文本对上进行了预训练[44],从而获得了出色的零样本学习能力。因此,我们的模型在多种场景下表现出色,能够适应广泛的角色。
文本编码的影响:我们在MSQNet模型的监督设置中评估了文本编码的效果。我们测试了两种常见的文本编码器:BERT[11]和CLIP[44]。在表6中,我们观察到基于CLIP的多模态(视觉和语言)学习优于纯语言模型BERT。这并不令人惊讶,因为前者凭借其数百万图像-文本对的广泛预训练而拥有更强大的特征嵌入能力。此外,值得注意的是,两者之间的差异并不显著,这表明我们的方法在文本编码组件上的鲁棒性。
4.4.可视化
定性分析:我们采用了特征注意力可视化来检查MSQNet的行为,如图3所示。在第二行中,我们观察到纯MSQNet(仅使用视频编码器)在分类“Horse”(马)图中的“Eating”(吃)和“Walking”(走)动作时,主要关注背景。但是,当我们向纯MSQNet引入文本信息时(第三行),注意力完全转移到了马的身体上。我们通过将CLIP图像编码器集成到单模态MSQNet中,提高了模型的性能。注意力热图显示,向MSQNet引入多模态提示使其能够通过强调关键特征(如马、嘴巴和草)来准确分类“Eating”(吃)。同时,在预测“Walking”(走)(第四行)时,注意力集中在马的腿上。类似地,在“Meerkat and Snake”(猫鼬和蛇)图中,MSQNet(第四行)在识别“Standing”(站立)、“Standing and Crawling”(站立和爬行)以及“Crawling”(爬行)动作时,能够正确地关注到预期的帧区域,比其单模态和纯视频主干对应物更有效地识别这些动作。这证实了我们利用预训练的视觉-语言知识来进行准确动作分类的方法的有效性。
图3. 来自《动物王国》[39]的样本视频上的注意力滚动显示,包括原始帧、仅具有基础框架的热图、具有单模态提示的热图,以及MSQNet的热图。
进一步地,受到[17]的启发,我们可视化了MSQNet预测的前五个类别的置信度分数,如图5和https://i.imgur.com/GPoqH8C.gif所示。值得注意的是,所有顶级类别的预测都显示出强烈的相关性,这表明我们模型的鲁棒泛化能力。
图5.我们的MSQNet预测的前5个类的置信度得分。正确分类的操作类用√标记。
特征可视化:图4中的图表展示了来自《动物王国》和Charades数据集的视频表示的t-SNE[54]图。这些可视化结果展示了经过多模态转换器解码器后,动作类别的嵌入变得更加可区分和有意义。这些发现表明,MSQNet能够准确地分类动作,无论所使用的数据集具有什么特性。
图4.在动物王国和字谜游戏上没有和有提出的多模态查询学习的视频嵌入。箭头显示了过渡。
5.结论
我们提出的MSQNet模型利用预训练的视觉-语言模型中的视觉和文本信息来准确定义动作类别,从而消除了对特定角色设计的需求。通过将问题框定为Transformer解码器内的多模态目标检测任务,我们提高了模型设计和维护的效率。在多个基准测试中进行的广泛实验表明,我们的方法在多标签动作识别任务上优于之前的特定角色替代方案,这些任务既涉及人类也涉及动物作为角色,包括全监督和零样本学习场景。
在未来,我们计划进一步探索多模态学习技术的进展,并探索整合其他模态(如音频)以增强我们模型的能力。此外,我们旨在扩展我们的模型以处理动作检测任务,从而实现更全面的视频动作理解。
读后总结
出发点:现有的动作识别大部分都是基于拓扑和外观差异判断,所以是针对特定的行为者(只针对人的,或者只针对动物的)。
创新点1:引入动作类别的文本特征,通过clip的视觉和文本信息来更加准确的定义动作类别。通过clip的图片编码器(clip image encoder)获得视频中趋向于与文本特征对应的视频特征,通过clip的文本编码器获得对应类别的文本特征,并将这两种特征进行融合形成更加丰富的多模态标签查询。(可以将clip得到的视频特征和文本特征融合得到动作表现更好的特征)
创新点2:提出多模态transformer解码器,将视频编码器(video encoder)得到的视频特征和多模态标签查询作为输入,在多层transformer中进行自注意力和交叉注意力,从而从时空视频表示中聚合特定于动作的特征。