Cross-modal Moment Localization in Videos论文笔记

news2024/11/28 14:40:29

Cross-modal Moment Localization in Videos论文笔记

  • 0.来源
  • 1.摘要
  • 2.介绍
  • 3.模型
    • 3.1语言-时间注意网络
    • 3.2损失函数
      • 3.2.1对齐损失
      • 3.2.2位置损失
      • 3.2.2损失函数
  • 4.实验
    • 4.1数据集
    • 4.2性能比较
    • 4.3 ROLE的几种变体
  • 5.未来工作

0.来源

2018年 Cross-modal Moment Localization in Videos

1.摘要

一种称为“语言-时间注意力网络”的方法,该方法利用视频中的时间上下文信息学习单词的注意力。因此,我们的模型可以自动选择“听哪些单词”以定位所需的瞬间。

2.介绍

以一个具有代表性的查询来说:一个摩天轮首先进入视野。之前的模型对于第一次这个特点体现的不够好,作者认为建立一个语言处理模型,对基于不同的视频上下文从查询中自适应地选择关键文本词至关重要。
在这里插入图片描述
如图1所示作者提出了一个跨模态时刻定位网络(ROLE),它可以共同学习查询表示和时间段定位。首先,作者设计了一个语言-时间注意力模块,用于生成有效的查询表示,根据查询文本信息和时刻上下文信息自适应地重新加权每个单词的特征。然后,作者使用一个多模态处理模块来联合建模查询和时间上下文特征。最后,作者训练了一个多层感知器(MLP)网络来估计所需时刻的相关性分数和位置。

3.模型

3.1语言-时间注意网络

在这里插入图片描述

文本进行word 编码得到et,再双向lstm得到每个word representations,再将时间时刻上下文输入注意力模型,该模型能够分配具有更高重要性分数的更有用的单词。
在这里插入图片描述

在这里插入图片描述
在查询中建立了每个单词的集中嵌入后,我们可以构造查询的表示为:
在这里插入图片描述
然后q和c一起用MLP训练,输出向量oL =[scq, δs, δe ]组成。匹配分数scq和定位偏差δs = ts−τs和δe= te−τe。

3.2损失函数

3.2.1对齐损失

和TALL方式一样,给定从视频V和查询Q中提取的一组时刻候选C,我们将时刻查询对分为两组:对齐的P和不对齐的N。
在这里插入图片描述

3.2.2位置损失

在这里插入图片描述
c表示当前的候选视频片段,q表示文本描述, δs和δe分别表示c的起始帧与结束帧在视频中的时间戳,δs∗和δe∗分别表示q所描述的时刻段的起始帧与结束帧在视频中的时间戳。

训练阶段,偏移回归损失只在正样本上执行。作为测试阶段,一旦我们获得了一个对齐得分最高的候选矩,我们就可以添加具有偏移值的预测位置

3.2.2损失函数

在这里插入图片描述

4.实验

4.1数据集

Charades-STA:TALL论文中提出的数据集
DiDeMo:MCN模型论文提出的数据集

4.2性能比较

在这里插入图片描述
在这里插入图片描述

作者认为

  • MCN表现最差,它简单地将整个时刻集作为每个候选时刻的上下文特征,就会引入噪声特征并导致负转移,而且模态融合也不够好。
  • CTRL也不够理想,他对于整个查询进行了整体编码,忽视了查询文本当中的关键单词。
  • 作者的ROLE表现的比较好
    Note:由于在DiDeMo数据集中,由于正样本查询对对齐得很好(即,它们之间没有位置偏移),我们只利用对齐损失来训练CTRL和ROLE。

4.3 ROLE的几种变体

  • ROLE_NT:每个单词的注意值只与查询和当前时刻相关,而不考虑其视频上下文。
  • ROLE_NV:只依赖于查询词嵌入的查询注意模型,而不是使用语言-时间上的注意。也就是说,消除了所有的时间视觉信息。
  • ROLE_BI:用Bi-LSTM的最后一个输出的连接作为查询嵌入。
  • ROLE_EQ:意思是我们将等式中的权重设置为单词数量的平均值,即1/T。具体来说,T是输入句子的单词数,这种设置有利于平衡每个单词的贡献。
    在这里插入图片描述

5.未来工作

  • 把相应帧的空间信息整合到我们的模型中
  • 强化学习纳入我们的模型,以自适应地决定下一步看哪里和何时预测,而不需要通过多尺度滑动窗口分割生成候选时刻。
  • 我们计划将哈希模块合并到我们的模型中,以加快检索过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/646614.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MFC-皮肤颜色集组合界面程序DlgSkinBase

虽然是小程序,编辑的源代码也很少,但其中的编程思想却是大型工程项目的配色经典基础。就如万丈高楼的基础中的钢筋般重要。 或者很多程序员一辈子也难接触到大型项目程序...还是那句话,既然缘分来了,不妨共享出来,希望能对有缘人有…

卖课软文怎么写,揭秘知识付费软文写作技巧

随着互联网的发展,知识付费已经成为了一种趋势。越来越多的人开始关注自我提升和职业发展,而知识付费也成为了他们获取知识和技能的重要途径。在这个背景下,卖课软文也成为了知识付费领域一种重要的推广方式。本文伯乐网络传媒将为大家揭秘卖…

hadoop本地化windows部署

文章目录 前言1. hadoop on windows1.1 安装jdk1.2 安装hadoop1.2.1 解压1.2.2 备用目录1.2.3 修改配置1.2.4 安装winutils-master1.2.5 格式化namenode1.2.6 启动hadoop1.2.7 web-ui登陆hadoop hdfs 2. spark on windows2.1 安装scala2.2 安装spark2.2.1 解压2.2.2 环境变量2.…

2年点工月薪10k,自学自动化年薪突破30W

我是农村出生的家庭,经济并不富裕,一个人奔波在大城市,总是很自卑。那段时间父亲身体不好,家里打电话说要花很多钱,于是我辞掉了一个月薪7k的功能测试,去了一个电子厂,每天加班加满月薪也能拿到…

【SpringCloud-3】Hystrix熔断器

通常情况下,一个请求可能会调用很多个服务。 如果下游某个服务异常,不能正常返回结果,导致上游所有服务等待,最终可能导致大量服务资源耗尽,造成雪崩。 说简单点,撸代码时,一定要保护好自己的服…

【vue3】vue3组件通信方式

一、props 可以实现父子组件通信&#xff0c;子组件通过defineProps获取父组件传递的数据&#xff0c;且在子组件内部不需要引入defineProps方法就可以直接使用&#xff01; 1、父组件给子组件传递数据 <Child hobby"学习" :money"money"></Chil…

Sui Builder House首尔站精彩集锦

6月3–4日&#xff0c;超过400人参加了Sui Builder House首尔站活动&#xff0c;近距离地了解了Sui网络的最新情况和路线图中提供的相关计划。作为主网推出后的第一个Builder House活动&#xff0c;参与者在现场体验了Sui的实现。 此次活动在首尔江南区举行&#xff0c;共设有…

分享一个玉质按钮

先看效果&#xff1a; 再看代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><style>* {-webkit-box-sizing: border-box;-moz-box-sizing: border-box;bo…

SpringBoot用线程池ThreadPoolExecutor处理百万级数据

SpringBoot用线程池ThreadPoolExecutor处理百万级数据 更多优秀文章&#xff0c;请扫码关注个人微信公众号或搜索“程序猿小杨”添加。 一、背景&#xff1a; 使用JDK线程池ThreadPoolExecutor多线程异步执行批量插入、更新等操作方法&#xff0c;提高百万级数据插入效率。 二…

Paper: Attention Is All You Need

目录 Abstract1 Introduction2 Background3 Model Architecture3.1 Encoder and Decoder Stacks3.2 Attention3.2.1 Scaled Dot-Product Attention3.2.2 Multi-Head Attention3.2.3 Applications of Attention in our Model 3.3 Position-wise Feed-Forward Networks3.4 Embedd…

4.4网络模型 4.5协议 4.6网络通信的过程

4.4网络模型 OSI七层参考模型 七层模型&#xff0c;亦称 OSI&#xff08;Open System Interconnection&#xff09;参考模型&#xff0c;即开放式系统互联。参考模型是国际标准化组织&#xff08;ISO&#xff09;制定的一个用于计算机或通信系统间互联的标准体系&#xff0c;…

DDR-SDRAM技术原理总结

DDR SDRAM 全称&#xff1a; Double Date Rate Synchronous Dynamic Random Access Memory 先说RAM&#xff08;Random Access Memory&#xff09;&#xff0c;字面意思&#xff1a;随机访问存储器&#xff0c;其特点是可任意访问一个内存地址&#xff0c;其访问时间是一样的&…

怎样在前端项目中使用MySQL模块操作数据库?

要想在项目中操作数据库&#xff0c; 首先要安装操作 MySQL 数据库的第三方模块(mysql)&#xff0c; 借助mysql 模块连接到 MySQL 数据库&#xff0c; 执行 SQL 语句&#xff0c;具体的流程如下图所示。 安装与配置 mysql 模块 安装 mysql 模块 mysql 模块是托管于 npm 上的第…

继承—JavaSE

文章目录 1.基础知识1.1继承的概念1.2语法 2子类对从父类继承下来的成员的访问2.1对成员变量的访问2.2对成员方法的访问 3.super关键字3.1访问父类的成员变量&#xff08;super.变量&#xff09;3.2访问父类的成员方法&#xff08;super.方法&#xff09;3.3调用父类的构造方法…

手把手教学Android游戏--轮船大战小游戏(文末有代码)

目录 1.1课程设计的目的 1.2本选题的内容要求 1.3 软件开发运行环境 2.1设计思路 2.2软件总体结构图 2.3主要功能模块的设计 3.1 开始界面模块 3.1.1进入游戏设计 3.1.2退出游戏设计 3.1.3开始界面主要代码 3.2 游戏主界面显示模块 3.2.1游戏界面设计 3.2.2游戏界面鱼雷、炸弹、…

【C++---面向对象预备】

C---面向对象预备 一 、内存的分区&#xff1a;1.1 代码区&#xff1a;1.2 全局区&#xff1a;1.3 栈区&#xff1a;1.4 堆区&#xff1a; 二 、引用&#xff1a;2.1、引用注意事项&#xff1a;2.2、引用作函数参数&#xff1a;2.3、引用作函数的返回值&#xff1a;2.4、引用的…

explain | 索引优化的这把绝世好剑,你真的会用吗?

对于互联网公司来说&#xff0c;随着用户量和数据量的不断增加&#xff0c;慢查询是无法避免的问题。 一般情况下如果出现慢查询&#xff0c;意味着接口响应慢、接口超时等问题&#xff0c;如果是高并发的场景&#xff0c;可能会出现数据库连接被占满的情况&#xff0c;直接导…

MAC电脑设置权限

​​​​​​​ click on your background to go to finderclick on go and go to folder /usrright click on local and do get infounlock the lock at the bottomclick sign and add your user to the list and give read/write privilegesclick on the gear sign at the …

Java Map 所有的值转为String类型

可以使用 Java 8 中的 Map.replaceAll() 方法将所有的值转为 String 类型&#xff1a; Map<String, Object> map new HashMap<>(); // 添加一些键值对 map.put("key1", 123); map.put("key2", true); map.put("key3", new Date())…

Android Studio入门

首先确保系统已经安装好JDK和Android SDK Android SDK的安装有两种方案 方案一&#xff1a;直接下载包安装 官网下载 国内下载 方案二&#xff1a;使用命令行工具进行安装 在Android Studio官网下载Command line tools 最新&#xff1a;如果使用 Android Studio&#xff0c;…