论文笔记:LAFF 文本到视频检索的新基准

news2025/1/11 6:51:12

整理了ECCV2022 Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval 论文的阅读笔记

  • 背景
  • 模型
    • 问题定义
    • LAFF(Lightweight Attention Feature Fusion)
    • LAFF Block
  • 实验
    • 消融实验
    • 可视化
    • 对比试验

  这篇文章提出了一种新颖灵活的特征融合方式,尽管很简单,但似乎是这一领域的经典基准之一,读了很多遍,感觉还是很有可取之处,所以写了这篇笔记。不过论文中提到的融合方法在其他领域不一定有效,需要根据实际情况调整。

背景

  文本到视频检索是指从大量未标记的视频中直接检索到文本查询的视频。视频和文本都必须嵌入到一个或多个跨模态公共空间,以进行文本到视频的匹配。本文讨论如何融合来自不同模型提取的视频/文本表示,来获取最佳的匹配表示,这是文本到视频检索的一个重要但尚未充分探索的主题。
  给定由不同特征表示的视频/文本样本,特征融合旨在回答一个基本的研究问题,即什么是组合这些特征的最佳方式?所谓最优,是指融合后的检索性能达到最大。同时,融合过程应该是可解释的,以解释单个特征的重要性。

模型

问题定义

  本文提出了视频端和文本端的可训练特征融合。具体来说,对于一个特定的视频 x x x,可能获得一组 k 1 k_1 k1个视频级特征表示 f v , 1 ( x ) , … , f v , k 1 ( x ) {f_{v,1}(x),…,f_{v,k_1} (x)} fv,1(x),,fv,k1(x),这些表示是使用不同的网络提取的。相似的,对于一个特定的文本查询 q q q,由一组 k 2 k_2 k2个句子级特征 f t , 1 ( q ) , … , f t , k 2 ( q ) {f_{t,1}(q),…,f_{t,k_2} (q)} ft,1(q),,ft,k2(q)。作者的目标是构建两个特征融合块,融合这些特征形成视频和查询文本的 d d d维跨模态嵌入 e ( x ) e(x) e(x) e ( q ) e(q) e(q),这样,我们可以通过计算 e ( x ) e(x) e(x) e ( q ) e(q) e(q)之间的语义相似度进行文本-视频匹配,即:
e ( x ) : = f u s i o n v ( f v , 1 ( x ) , … , f v , k 1 ( x ) ) e(x):=fusion_v({f_{v,1}(x),…,f_{v,k_1} (x)}) e(x):=fusionv(fv,1(x),,fv,k1(x)) e ( q ) : = f u s i o n t ( f t , 1 ( q ) , … , f t , k 2 ( q ) ) e(q):=fusion_t({f_{t,1}(q),…,f_{t,k_2} (q)}) e(q):=fusiont(ft,1(q),,ft,k2(q)) s ( x , q ) : = s i m i l a r i t y ( e ( x ) , e ( q ) ) s(x,q):=similarity(e(x),e(q)) s(x,q):=similarity(e(x),e(q))  对给定查询 q q q的文本到视频检索是通过根据 s ( x , q ) s(x, q) s(x,q)降序对测试集合中的所有视频进行排序来实现的。

LAFF(Lightweight Attention Feature Fusion)

  本文提出了一个非常简化的特征融合块,称为轻量级注意特征融合(LAFF)。其结构如图所示,LAFF是通用的,可用于视频和文本端。
在这里插入图片描述
  在特定的LAFF块中,使用学习到的组合权重来优化跨模态文本到视频的匹配。在特征级别进行融合,可以被视为一种早期的融合方法。同时,使用多头注意的技巧,可以在单个网络中部署多个LAFFs,并以后期融合方式将其产生的相似性组合在一起,进一步提升网络性能。

LAFF Block

  对于要进行融合操作的 k k k个不同特征 f 1 , … , f k {f_1,…, f_k} f1,,fk,由于不同的提取器可能具有不同的维度,首先要使用特征转换层将不同的特征校正为相同的长度。要将 i i i维特征转换为新的 d d d维特征,使用: f i ′ = σ ( L i n e a r d i × d ( f i ) ) f'_i=\sigma(Linear_{d_i×d}(f_i)) fi=σ(Lineardi×d(fi))  虽然转换后的特征{f ’ i}现在是可比较的,但它们对于表示视频/文本内容并不同等重要。因此我们考虑加权融合,即: f ^ = ∑ i k α i f i ′ \hat f=\sum^k_i\alpha_if'_i f^=ikαifi,这些权重是通过一个线性变换和softmax函数得到的: { α 1 , . . . , α k } = s o f t m a x ( L i n e a r d × 1 ( { f 1 ′ , . . . , f k ′ } ) ) \{\alpha_1,...,\alpha_k\}=softmax(Linear_{d×1}(\{f'_1,...,f'_k\})) {α1,...,αk}=softmax(Lineard×1({f1,...,fk}))  如图1所示,当将权重强制为均匀时,即 a i = 1 / k a_i = 1/k ai=1/k时,无注意力特征融合块是LAFF的一种特殊情况。相对于这种情况(Attention-free), LAFF需要学习的参数更多,见表2。
在这里插入图片描述  LAFF可以作为融合函数被直接应用在文本到视频检索中。然而,由于视频和文本内容的高度复杂性,作者假设单一配置对于跨模态表示和匹配是次优的。借用MHSA的多头思想,通过部署 h h h对LAFFs,其中每对LAFFs共同确定视频文本匹配的潜在公共空间,设计了多头LAFF。具体来说,一个特定的LAFFs对,表示为 < L A F F v , i , L A F F t , i > <LAFF_{v,i}, LAF F_{t,i}> <LAFFv,i,LAFFt,i>,将视频/文本特征聚合到一个d维跨模态嵌入向量 e i ( x ) / e i ( q ) e_i(x)/e_i(q) ei(x)/ei(q)中,即: e i ( x ) : = L A F F v , i ( x ) e_i(x):=LAFF_{v,i}(x) ei(x):=LAFFv,i(x) e i ( q ) : = L A F F t , i ( q ) e_i(q):=LAFF_{t,i}(q) ei(q):=LAFFt,i(q) s i ( x , q ) : = 1 h ∑ i = 1 h s i ( x , q ) s_i(x,q):=\frac1h\sum^h_{i=1}s_i(x,q) si(x,q):=h1i=1hsi(x,q)  最终使用的相似度就是这些多头相似度的平均。这一结构如图2:
在这里插入图片描述
  到目前为止,我们假设要融合的功能都在视频级。事实上,由于LAFF具有很高的灵活性,它可以很容易地扩展为多级变体,以处理不同帧级和视频级特征共存的情况。图3显示了这种变体,称之为 L A F F − m l LAFF-ml LAFFml L A F F − m l LAFF-ml LAFFml以自下而上的方式工作,其中一组特定的帧级特征通过特定的LAFF块聚合以产生视频级特征。假设有两个不同的帧级特征,例如clip和rx101。每个都有自己的LAFF块。(由此产生的)不同的视频特征然后通过视频级LAFF块融合。
在这里插入图片描述

实验

  为了评估LAFF的有效性,作者在MSR-VTT上进行消融研究,以从多个方面评估LAFF。然后,将基于laff的检索模型与最先进的MSR-VTT和其他三个流行的基准(包括MSVD, TGIF和VATEX)进行比较。为了在更大的集合上评估,在TRECVID AVS基准系列上进行了评估。
  消融实验使用了这些模型提取特征,如果是细粒度的,则进行平均池化。
在这里插入图片描述

消融实验

  作者首先进行了消融实验,对于视频和查询文本两端,控制一端不变,只改变另一端的特征,通过逐步添加预训练模型来获得性能曲线,如图4:
在这里插入图片描述  为了比较特征融合块。通过将图2中的LAFF分别替换为MHSA和Attention-free来比较三种特征融合块。结果如表4所示,LAFF取得了最佳效果:
在这里插入图片描述

可视化

  为了探索模型的可解释性作者对特征选择的LAFF权重进行可视化,图5显示了MV-test3k测试集中选择的视频及其相关字幕的LAFF权重。我们观察到,当视频内容包含更多的运动时,3D-CNN特征得到的权重更大,如图5(b)所示。对于每个特征,其权重在样本上的平均值反映了其对检索性能的贡献。作者用排名前三的视频/文本特征重新训练模型。与完整设置(mAP为0.358)相比,简化模型的mAP为0.353,这意味着性能损失相对较小,仅为1.4%。因此,LAFF权重有助于特征选择:

在这里插入图片描述

对比试验

  作者进一步纳入MSVD、TGIF和VATEX。对于MSVD和TGIF,遵循他们的官方数据分割。对于VATEX,遵循HGR中使用的数据分割。对于MSR-VTT,除了官方的MVtest3k分割外,作者还报告了另一种流行的数据分割的性能,其中9k视频用于训练,1k用于测试。称之为分裂MV-test1k。实验结果如表7所示:
在这里插入图片描述
  由于包含了更好的clip-ft特征,其性能比消融研究中报道的要好。基线(JE, w2vv++, SEA和MMT)比使用单个特征(clip-ft)得到的结果更差。结果表明,不能想当然地认为添加更好的特征就会产生更好的性能,需要对特征融合进行智能设计。所提出的LAFF在所有测试集上始终表现最好。LAFF-ml优于LAFF,说明在多个层次上灵活使用LAFF可以进一步提高性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2182625.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

初步认识产品经理

产品经理 思考问题的维度 1️⃣为什么要抓住核心用户&#xff1f; 所有和产品有关系的群体就是用户&#xff0c;存在共性和差异了解用户的付费点&#xff0c;更好的优化产品是否使用&#xff1a;&#xff08;目标用户-已使用产品&#xff1a;种子用户-尝鲜&#xff1b;核心用…

【Golang】深入解读Go语言中的错误(error)与异常(panic)

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

【Pyecharts】时间线柱状图x轴坐标重复出现并重叠

问题描述 如图右侧显示多的一列坐标 解决方案 降低pyecharts版本&#xff1a;pip install pyecharts2.0.5

ChatGPT与R语言融合技术在生态环境数据统计分析、绘图(回归和混合效应模型、多元统计分析)

自2022年GPT&#xff08;Generative Pre-trained Transformer&#xff09;大语言模型的发布以来&#xff0c;它以其卓越的自然语言处理能力和广泛的应用潜力&#xff0c;在学术界和工业界掀起了一场革命。在短短一年多的时间里&#xff0c;GPT已经在多个领域展现出其独特的价值…

vue2接入高德地图实现折线绘制、起始点标记和轨迹打点的完整功能(提供Gitee源码)

目录 一、申请密钥 二、安装element-ui 三、安装高德地图依赖 四、完整代码 五、运行截图 六、官方文档 七、Gitee源码 一、申请密钥 登录高德开放平台&#xff0c;点击我的应用&#xff0c;先添加新应用&#xff0c;然后再添加Key。 ​ 如图所示填写对应的信息&…

第十九章(自定义类型:结构体)

1. 结构体类型的声明 2. 结构体变量的创建和初始化 3. 结构成员访问操作符 4. 结构体内存对⻬ 5. 结构体传参 一、结构体类型的声明 1.1结构体的声明 struct student {int age;int id[10];char name[10]; };1.2 结构体变量的初始化 struct student {int age;char id[10…

YOLOv1代码复现(论文复现)

YOLOv1代码复现&#xff08;论文复现&#xff09; 本文所涉及所有资源均在传知代码平台可获取 文章目录 YOLOv1代码复现&#xff08;论文复现&#xff09;论文介绍主要内容实验部分卷积网络结构计算损失核心代码 缺点 论文介绍 该论文就是YOLOv1&#xff0c;YOLOv1是YOLO系列目…

大模型部署——NVIDIA NIM 和 LangChain 如何彻底改变 AI 集成和性能

DigiOps与人工智能 人工智能已经从一个未来主义的想法变成了改变全球行业的强大力量。人工智能驱动的解决方案正在改变医疗保健、金融、制造和零售等行业的企业运营方式。它们不仅提高了效率和准确性&#xff0c;还增强了决策能力。人工智能的价值不断增长&#xff0c;这从它处…

Ubuntu网卡配置

一、低阶版本配置网卡步骤:(如Ubuntu 16.04.2 LTS) 编辑配置文件interfaces,添加网卡配置信息 我这边以root用户登录进服务器,就不需要普通用户每次在命令前添加sudo vim /etc/network/interfaces 1.动态获取ip设置: auto ens3 # 网卡设备名称ens3 iface ens3 ine…

Tdesign TreeSelect 树形选择 多选

这里写自定义目录标题 小程序原生开发 Tdesign TreeSelect 树形选择 多选可以选择不同一级分类下的数据 小程序原生开发 Tdesign TreeSelect 树形选择 多选可以选择不同一级分类下的数据 TreeSelect 树形选择 在原demo基础上修改 const chineseNumber 一二三四五六七八九十.…

音视频入门基础:FLV专题(9)——Script Tag简介

一、SCRIPTDATA 根据《video_file_format_spec_v10_1.pdf》第75页到76页&#xff0c;如果某个Tag的Tag header中的TagType值为18&#xff0c;表示该Tag为Script Tag&#xff08;脚本Tag&#xff0c;又称Data Tag、SCRIPTDATA tag&#xff09;。这时如果Filter的值不为1表示未加…

昇思MindSpore进阶教程--使能图算融合

大家好&#xff0c;我是刘明&#xff0c;明志科技创始人&#xff0c;华为昇思MindSpore布道师。 技术上主攻前端开发、鸿蒙开发和AI算法研究。 努力为大家带来持续的技术分享&#xff0c;如果你也喜欢我的文章&#xff0c;就点个关注吧 正文开始 图算融合是MindSpore特有的网络…

十二生肖国庆姓氏专属头像

关注▲洋洋科创星球▲领取十二生肖国庆姓氏专属头像定制&#xff01; 庆祝祖国75周年华诞&#xff0c;在这个举国欢庆的国庆节时刻&#xff0c;我们特别为您准备了一份独特的礼物——十二生肖国庆姓氏专属头像定制。 十二生肖&#xff0c;又称属相&#xff0c;是中国传统文化中…

Linux 安装redis主从模式+哨兵模式3台节点

下载 https://download.redis.io/releases/ 解压 tar -zxvf redis-7.2.4.tar.gz -C /opt chmod 777 -R /opt/redis-7.2.4/安装 # 编译 make # 安装&#xff0c; 一定是大写PREFIX make PREFIX/opt/redis-7.2.4/redis/ install配置为系统服务 cd /etc/systemd/system/主服务…

盒子是什么? -- 第四课

文章目录 前言一、盒子是什么&#xff1f;二、元素介绍1.边框 - border2.内边距 - padding3. 外边距属性 -- margin 三、拓展知识1.块元素垂直外边距的合并2. 嵌套块元素垂直外边距的合并 四、背景属性五、元素的浮动1.浮动2.清除浮动3.元素定位4. 特殊定位 -- 黏性定位5. z-in…

Python selenium库学习使用实操二

系列文章目录 Python selenium库学习使用实操 文章目录 系列文章目录前言一、模拟登录二、表单录入 前言 在上一篇文章中&#xff0c;我们完成Selenium环境的搭建&#xff0c;和简单的自动化。今天继续深入学习。今天的目标是完成模拟登录&#xff0c;和表单录入。 一、模拟登…

什么是网络准入控制系统?2024年有哪些好用的网络准入控制系统?

网络准入控制系统&#xff08;Network Access Control, NAC&#xff09;是一种网络安全解决方案&#xff0c;旨在确保只有符合特定安全策略的设备和用户才能访问网络资源。NAC系统通过在设备连接到网络之前对其进行身份验证、授权和健康状态检查&#xff0c;从而防止未经授权的…

YOLOv11改进 | 注意力篇 | YOLOv11引入GAM注意力机制

1.GAM介绍 摘要&#xff1a;为了提高各种计算机视觉任务的性能&#xff0c;人们研究了各种注意机制。然而&#xff0c;现有的方法忽略了保留通道和空间信息以增强跨维交互的重要性。因此&#xff0c;我们提出了一种通过减少信息减少和放大全球交互表示来提高深度神经网络性能的…

vue3 实现拖拽排序效果 sortablejs

效果图 依赖安装 npm i sortablejs -S <template><div class"warp"><div class"parent-box" v-for"pItem in sortData" :key"pItem.name"><h2 class"parent-name">{{ pItem.name }}</h2>&l…

程序计数器(学习笔记)

程序计数器是一块较小的内存空间&#xff0c;它的作用可以看做是当前线程所执行的字节码的信号指示器&#xff08;偏移地址&#xff09;&#xff0c;Java编译过程中产生的字节码有点类似编译原理的指令&#xff0c;程序计数器的内存空间存储的是当前执行的字节码的偏移地址 因为…