Attentive Moment Retrieval in Videos论文笔记

news2024/11/24 14:41:45

Attentive Moment Retrieval in Videos论文笔记

  • 0.论文地址
  • 1.摘要
  • 2.引言
  • 3.模型结构
    • 3.1Memory Attention Network
    • 3.2Cross-Modal Fusion Network
  • 4.训练
    • 4.1对齐损失
    • 4.2定位回归损失
    • 4.3合并
  • 5.实验
    • 5.1数据集
    • 5.2效果
    • 5.3ACRN的研究
  • 6未来工作

0.论文地址

2018 Attentive Moment Retrieval in Videos

1.摘要

设计了一种记忆注意机制来强调查询中提到的视觉特征,并同时合并它们的上下文,在DiDeMo and TACoS两个数据集表现的比较好。

2.引言

候选时刻的选择和相关性估计是任务的关键所在,目前常见的方法是在不同尺度上对滑动窗口进行密集采样。但是这种方法存在计算成本高和搜索空间大的问题。另外,相关性估计是一个典型的跨模态检索问题。一种可行的解决方案是,首先将时刻候选的视觉特征和查询的文本特征投影到一个共同的潜在空间中,然后根据它们的相似性计算相关性。然而,这种方法忽略了时刻和查询内部的时空信息。例如,对于查询“一个穿橙色衣服的女孩先经过摄像头”,“先”这个词是相对的,需要有时序上下文来进行正确理解。

作者提出了ACRN模型并指出文章的贡献有3个:

  • 我们提出了一种新颖的注意力交叉模态检索模型,它同时表征注意力上下文视觉特征和跨模态特征表示。据我们所知,现有的研究要么只考虑其中一种模型,要么没有将它们集成到一个统一的模型中。
  • 为了在自然语言视频检索任务中精确定位时刻,我们首次引入了一种临时记忆注意力网络,为每个时刻记住其上下文信息,将自然语言查询作为注意力网络的输入,自适应地为记忆表示分配权重。
  • 两个基准数据集上进行了广泛的实验,证明了性能的改进。作为副产品,我们发布了数据和代码。

3.模型结构

在这里插入图片描述

  1. 基于记忆的注意力网络,用于增强每个时刻的视觉嵌入表示,其中权重上下文信息用于进行注意力加权。

  2. 跨模态融合网络,用于探索时刻-查询的表示表示与视觉特征的内部和外部交互方式,生成每个时刻和查询之间的联合嵌入表示。

  3. 回归网络,用于预测每个时刻与查询的关联度得分以及黄金时刻的开始和结尾时间点之间的偏移量。

3.1Memory Attention Network

在这里插入图片描述

我们将视频片段的视觉特征和查询的文本特征都投影到一个共同的潜在空间中,并将它们输入到一个相似度函数中进行计算。计算得到的分数最高的视频片段会被作为最终的检索结果返回。具体来说,式子中的xc和q分别代表视频片段和查询的嵌入向量,fΘ(·)是一个映射函数,用于将xc和q映射到共同的潜在空间中,同时д表示相似度函数,用于计算视频片段和查询之间的相似度。
作者考虑通过赋予每个上下文中的不同片段一个注意力权重来明确捕捉其变化重要性。使用一种记忆注意力网络来实现这个想法,该网络由两个部分组成,可以为每个上下文片段的嵌入分配一个注意力权重。记忆注意力网络的细节如下图所示:
在这里插入图片描述
在这里插入图片描述
每个视频与查询问题之间的相关度得分(e(cj,q))。其中,cj表示视频帧的特征向量,q表示问题的嵌入向量,Wcq、Wqq、Wcx是模型的可训练参数,bcq、bq、bc是偏置项,σ代表sigmoid函数。然后,将所有相关度得分归一化为注意力权重αcj,用于后续计算。其中,nc表示视频帧的数量,e(ck,q)是所有视频帧与查询问题之间相关度得分的总和。
在得到注意力权重αcj之后,进行融合特征:
在这里插入图片描述
查询文本就是一个简单的
在这里插入图片描述

3.2Cross-Modal Fusion Network

在这里插入图片描述

  • 平均池化
    每个输入嵌入应用一个大小为n的线性Filter,输出中的每个条目都是相应大小的核窗口的值的平均值。
  • 张量融合
    在这里插入图片描述

4.训练

4.1对齐损失

在这里插入图片描述
其中P为正矩查询对的集合,即对齐的矩查询对;N为负矩查询对的集合,即不对齐的矩查询对;α1和α2是控制正、负矩查询对之间权值的超参数。

4.2定位回归损失

由于采用多尺度时间滑动窗口来分割视频,不同的候选时刻有不同的持续时间。因此,对于每个时刻-查询对,我们不仅需要判断该时刻是否与查询相关,还需要决定与黄金时刻相比的定位偏移量。在形式上,我们表示起始点和结束点的偏移值如下:
在这里插入图片描述
其中(ts,te)为给定查询的起始点和结束点,(τs,τe)为p中候选时刻的起始点和结束点。同时,我们使用δ∗= [δs∗,δe∗]来表示偏移。
在这里插入图片描述

4.3合并

在这里插入图片描述

5.实验

5.1数据集

TACoS
DiDeMo

5.2效果

在这里插入图片描述
在这里插入图片描述

5.3ACRN的研究

  • ACRN -a:采用了平均池化来取代我们提出的记忆注意网络来记忆上下文嵌入。
  • ACRN-m:我们在等式中消除了记忆注意模型中的记忆部分。也就是说,每个上下文注意值只与其自身和查询相关,而不考虑上下文信息。
    在这里插入图片描述
  • ACRN-c:我们采用了早期的融合策略,即连接多模态特征。

在这里插入图片描述

6未来工作

  • 计划设计一个端到端模型,它观察时刻,并决定下一步看哪里和何时做出预测。它不需要用多尺度滑动窗口预分割视频,并且可以快速缩小搜索空间。
  • 在帧层面上研究不同的注意网络,并将它们纳入我们的模型,因为框架的不同部分对场景和查询理解有不同的影响
  • 将在个性化时刻推荐中考虑我们的框架,其中检索结果与用户的个人兴趣相关。特别是,当给定一个视频时,个人查询历史记录被视为与用户-项目交互,以更好地捕捉用户对时刻的偏好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/662078.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

验证码客户端回显测试-业务安全测试实操(15)

验证码客户端回显测试,验证码绕过测试,验证码自动识别测试 往期文章: 验证码暴力破解测试-业务安全测试实操(13)_luozhonghua2000的博客-CSDN博客 验证码客户端回显测试 测试原理和方法 当验证码在客户端生成而非服务器端生成时,就会造成此类问题。当客户端需要和服务器进行…

【正点原子STM32连载】第三十五章 IIC实验 摘自【正点原子】STM32F103 战舰开发指南V1.2

1)实验平台:正点原子stm32f103战舰开发板V4 2)平台购买地址:https://detail.tmall.com/item.htm?id609294757420 3)全套实验源码手册视频下载地址: http://www.openedv.com/thread-340252-1-1.html# 第三…

2023年NPDP产品经理认证线上班,到这里

产品经理国际资格认证NPDP是新产品开发方面的认证,集理论、方法与实践为一体的全方位的知识体系,为公司组织层级进行规划、决策、执行提供良好的方法体系支撑。 【认证机构】 产品开发与管理协会(PDMA)成立于1979年,是…

docker 镜像制作 与 CI/CD

目录 镜像到底是什么? 使用docker创建镜像 步骤: 1、编辑Dockerfile(Dockerfile是docker制作镜像的配方文件) 2、编辑requirements.txt文件 3、编辑app.py文件,我们的程序文件 4、生成镜像文件 5、查看生成的镜…

这些软件,你知道几个呢?

软件分享一:情绪指压 情绪指压(MoodPress)是一款记录心情的应用,也是一款非常简单的减压游戏。可以根据自己现在的心情来决定指压的力度和时间(压力越大或者时间越长越生气),适时释放,来判断和记录自己的心…

Oracle19c安装和远程访问设置

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强&#xff0c…

cron表达式 字符含义 详细解释

cron表达式的组成 cron表达式是一个字符串,由6到7个字段组成,用空格分隔。 其中前6个字段是必须的,最后一个年是可选填的。 cron表达式的字段含义 字段允许值通用字符秒0-59* , - /分0-59时0-23日期1-31 ? L C W月1-12 JAN-DEC星期1-7 SU…

单片机原理及接口技术 - 第三版 张毅刚 习题答案

第 1 章 思考题及习题 1 参考答案 一、填空 1.除了单片机这一名称之外,单片机还可称为 微控制器 或 嵌入式控制器 2.单片机与普通微型计算机的不同之处在于其将 CPU、存储器、I/O 口三部分,通过内部总线连接一起,集成芯片上。 3. AT89S52 单片机工作频率…

高并发缓存实战RedisSon、性能优化

高并发缓存实战RedisSon、性能优化 分布式锁性能提升 1.数据冷热分离 对于经常访问的数据保留在redis缓存当中,不用带数据设置超时时间定期删除控制redis的大小 String productStr redisUtil.get(productCacheKey);if (!StringUtils.isEmpty(productStr)) {prod…

docker搭建nginx

一、安装Docker 1、安装: yum install docker 2、启动/停止/重启docker服务 service docker start service docker stop service docker restart 3、查看docker版本信息 docker version 4、查看所有docker镜像 docker images 二、安装Nginx 1、拉取Nginx镜像…

关于POL网络中的ODN部署方案,这些你都了解吗?

近年来,行业的智能化和信息化呈现加速发展趋势,高清视频会议、云服务、移动办公等应用几乎成为企业标配。与此同时,带宽的接入、升级和物联网融合等网络新要求也变得越来越迫切,网络架构升级成为企业解决网络难题的一个新选择。 …

Python基础(10)——Python条件语句

Python基础(10)——Python条件语句 文章目录 Python基础(10)——Python条件语句目标一. 了解条件语句二. if 语法2.1 语法2.2 快速体验 三. 实例:上网3.1 简单版3.2 进阶版 四. if...else...4.1 语法4.2 实用版&#x…

KSM01.2B-061C-35N-M1-HP2-SE-NN –D7-NN-FW

​ KSM01.2B-061C-35N-M1-HP2-SE-NN –D7-NN-FW KSM01.2B-061C-35N-M1-HP2-SE-NN –D7-NN-FW 集散控制的基本思想是集中管理,分散控制。即:将流程工业的自动控制过程与操作管理人员对自动控制过程的管理过程相对分离;流程工业的自动控制过程…

Dump寄存器使用、解析

前人种树,后人乘凉;创造不易,请勿迁移~ author daisy.skye的博客_CSDN博客-嵌入式,Qt,Linux领域博主 daisy.skye的博客_CSDN博客-嵌入式,Qt,Linux领域博主daisy.skye擅长嵌入式,Qt,Linux,等方面的知识https://blog.csdn.net/qq_40715266?t…

git的安装与配置教程-超详细版

一、git的安装 1、下载git git官网地址:https://git-scm.com/download/win/ 选择所需要的版本,进行下载。 2、下载完成之后,双击下载好的exe文件进行安装。 3、默认是C盘,推荐修改一下路径(非中文并且没有空格&…

2021电工杯数学建模B题解题思路

目录 一、前言 二、问题背景 三、具体问题 四、解题思路 (一)整体思路 (二)问题一 (三)问题二 (四)问题三 (五)问题四 (六)…

浅谈kubernetes部署:UI部署

UI部署 镜像制作 登录私服 以阿里云docker私服举例 sudodockerlogin—usernameregistry.cn-beijing.aliyuncs.com 制作UI和静态页镜像 参考: 《前端镜像制作》 《openresty镜像制作》 修改yaml文件 vi/opt/kubernetes/ui.yaml 修改相应image值为您的镜像目录 部…

VTK学习之边缘检测(梯度算子)

参考博客&#xff1a;VTK修炼之道32&#xff1a;边缘检测_梯度算子_基于梯度的边缘检测算子_沈子恒的博客-CSDN博客 直接上源码&#xff1a; #include <vtkAutoInit.h> #include <vtkSmartPointer.h> #include <vtkJPEGReader.h> #include <vtkImageGra…

屏幕录制没有声音?快看看这2个方法!

案例&#xff1a;我今天尝试在电脑上进行屏幕录制&#xff0c;一开始一切都挺正常的。直到结束后&#xff0c;查看刚刚录制的视频发现没有声音。 【录屏只有画面没有声音&#xff0c;会影响视频的观感体验&#xff0c;甚至你根本不知道视频想表达的意思。那录屏的同时如何录制…

计算机基础--->网络(1)【分层模型、网络协议、HTTP等】

文章目录 网络分层模型OSI七层模型及其作用TCP/IP四层模型及作用为什么网络需要分层&#xff1f; 常见的网络协议应用层常见的协议传输层常见的协议网络层常见协议 从输入URL到页面展示的过程HTTP常见的状态码HTTP与HTTPS的区别HTTP是不保存状态的协议&#xff0c;如何保存用户…