Localizing Moments in Video with Natural Language论文笔记

news2025/1/17 0:06:01

0.文献地址

2017 Localizing Moments in Video with Natural Language

1.摘要

  • 提出了Moment Context Network(MCN)有效地定位视频中的自然语言查询
  • 又提出了唯一识别对应时刻的文本描述的数据集DiDeMo

2.引言

作者提出了问题如果查询特定的时间段,例如当女孩摔倒后又开始有弹性地跳起来时,仅仅通过动作、对象或属性关键字来引用时刻可能不能唯一地标识它。也就是说时刻并不是由单个对象或活动来定义的,而是可以由与其他操作相关的特定操作发生的时间和方式来定义。
于是作者提出了用自然语言来定位视频中特定的时刻。因此,我们提出了时刻上下文网络(MCN),它包括一个全局视频特征来提供时间上下文和一个时间端点特征来指示视频中何时发生一个时刻。

3.模型结构

在这里插入图片描述

3.1Visual Temporal Context Features

  • local video features

  • global video features

  • temporal endpoint features

    首先使用深度卷积网络为每个视频帧提取高级视频特征,然后在特定的时间跨度内对池视频特征进行平均。局部特征是通过在特定时刻内汇集特征来构建的,而全局特征是通过对视频中的所有帧进行平均来构建的。
    当视频中出现一个时刻时,可以象征一个时刻是否与一个特定的查询相匹配。为了对这个时间信息进行编码,我们包含了时间端点特征,它表示一个候选矩的起始点和端点(归一化到区间[0,1])
    local video features,global video features,temporal endpoint features三合一
    提取RGB帧(记为Pθ V)和光流帧(记为Pθ F)的时间上下文特征时,可以学习单独的权值。

3.2Language Features

用LSTM

3.3模态融合

在这里插入图片描述

3.4Rank损失函数

  • intra-loss:在同一个视频内不同的时间节点进行对比
    在这里插入图片描述
    在这里插入图片描述
    τ_i表示正样本,也就是与查询相关的视频片段。而Γ\τ_i,表示所有的负样本集合,也就是不相关的视频片段
  • inter-loss:在不同的视频同一个时间节点进行对比
    在这里插入图片描述
    intra-loss和inter-loss组合:
    在这里插入图片描述

4.数据集介绍

5.实验结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/780207.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法竞赛备赛之经典数据结构训练提升,暑期集训营培训

1.链表与邻接表:树与图的存储 我们将结构体和指针结合来实现链表 struct Node {int val;Node * next; }; ​ new Node;//这样创建结点是相当慢的 我们算法主要是用数组来模拟链表,这样效率会高一些。 数组模拟单链表 邻接表:存储图和树 实…

Spring Cloud【实现用户鉴权(什么是JWT、JWT原理、用户微服务、JWT工具类、用户服务实现JWT鉴权)】(八)

目录 Gateway解决如何允许跨域 服务网关Gateway实现用户鉴权_什么是JWT 服务网关Gateway实现用户鉴权_JWT原理 服务网关Gateway实现用户鉴权_用户微服务 服务网关Gateway实现用户鉴权_JWT工具类 服务网关Gateway实现用户鉴权_用户服务实现JWT鉴权 Gateway解决如何允许跨域…

5分钟开发一个AI论文抓取和ChatGPT提炼应用

5分钟开发一个AI论文抓取和ChatGPT提炼应用 第一步 点击“即刻开始” -选择模板 python -修改标题 “AIPaper”,项目标识“AIPaper”,点击“创建项目” 第二步 在编程区域右侧AI区域,输入框输入以下内容: 请根据下面的内容&…

4.3 Bootstrap CSS编码规范

文章目录 Bootstrap CSS编码规范语法声明顺序不要使用 import媒体查询(Media query)的位置带前缀的属性单行规则声明简写形式的属性声明Less 和 Sass 中的嵌套注释class 命名选择器代码组织编辑器配置 Bootstrap CSS编码规范 语法 用两个空格来代替制表…

Autosar通信入门系列04-聊聊CAN通信的Basic-CAN与Full-CAN

本文框架 1. 概述2. 基本内容2.1 什么是Basic-CAN与Full-CAN?2.2 既生瑜何生亮? 3. 不同报文类型如何选择Basic-CAN与Full-CAN? 1. 概述 在CAN通信学习时我们经常会遇到或者听同事聊到Basic-CAN与Full-CAN,单从字面上很难理解两个…

计讯物联工业路由器基于5G LAN技术成为工业互联网发展的“加速器”

随着5G的成熟发展,其易部署、低时延、高可靠、大带宽、广连接的特性助力传统工业智能数字化转型,解决了传统工业的布线繁琐、通信环境复杂易造成干扰、对时延与稳定性更加敏感、移动通信的网络需求、海量设备互联等难题。然而,5G在工业制造领…

软件测试基础 - 自动化测试技术

目录 前言: 什么是自动化测试? 自动化测试的优势: 自动化测试的劣势: 适合实施测试自动化的项目: 推行自动化测试的阻力: 软件研发生命周期各个阶段的自动化测试技术 前言: 软件测试是一…

还在手动维护Yapi?

因前后端人员通过接口定义字段,返回值等对接时非常苦恼,没有一个很好的平台维护,后端每次迭代都要写开发文档,需求变化,多系统联调等,给前后端联调造成阻塞。 1、后端开发文档编写规范 1)文档…

DataWhale AI夏令营——机器学习

DataWhale AI夏令营——机器学习 学习记录一1. 异常值分析2. 单变量箱线图可视化3. 特征重要性分析 学习记录一 锂电池电池生产参数调控及生产温度预测挑战赛 已配置环境,跑通baseline,并在此基础上对数据进行了简单的分析。 1. 异常值分析 对训练集…

Python知识使用目录体系

Python知识使用目录体系 前记:开始以Get No.方式进行记录,知识体系的建立 Get No. No1: IDEA(Java主要编辑器)中添加Python插件;(就在此总目录中写,属于纪念开始) 附加:另外一个pycharm工具使用python工…

pyqt5中的控件

字体部分 学习如何加载本地字体a.tff import sys from PyQt5.QtWidgets import QApplication, QWidget, QLabel, QPushButton from PyQt5.QtGui import QFont, QFontDatabaseclass MyWindow(QWidget):def __init__(self):super().__init__()self.button Noneself.label None…

【Java开发】 Mybatis-Plus 06:通用枚举功能

枚举类是开发时绕不开的话题, Mybatis-Plus 也提供了简便的枚举功能,快学起来吧~ 目录 1 版本区别 2 通用枚举功能实现 2.1 创建枚举类 2.2 实体类新增枚举字段 3 枚举字段测试 3.1 新增 ① 后台指定枚举 ② 前后端交互 3.2 查询 3.3 修改 ①…

递归排序算法快速排序的实现过程

快速排序(Insertion Sort)也是一种递归排序算法。 快速排序原理:先以列表中的任意一个数为基准(一般选头或尾),将列表分为左、右两个子列表。 左子列表的数要比基准数小,右子列表的数要比基准数大。然后继续把左子列表和右子列表按同样的方…

蓝桥杯专题-真题版含答案-【九宫幻方】【打鱼还是晒网】【阶乘尾数零的个数】【等差素数列】

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列点击跳转>蓝桥系列 👉关于作者 专注于Android/Unity和各种游…

【Java】重写compareTo()方法给对象数组排序

我们先给一个数组排序,我们肯定用的是Arrays.sort()方法: public class test2 {public static void main(String[] args) {int[] arr{3,5,4,6,9,8,1};System.out.println(Arrays.toString(arr));System.out.println("---------");Arrays.sort…

【一文详解 requests 库中 json 参数和 data 参数的用法】

在requests库当中,requests请求方法,当发送post/put/delete等带有请求体 的请求时,有json和data2个参数可选。 众所周知,http请求的请求体格式主要有以下4种:application/jsonapplicaiton/x-www-from-urlencoded multi…

音视频开发-ffmpeg介绍-系列二

目录 一、FFmpeg核心结构体 二、解码流程 三、FFmpeg解码实现 四、FFmpeg编码实现 五、FFmpeg转码实现 一、FFmpeg核心结构体 AVFormatContext:解封装功能的结构体,包含文件名、音视频流、时长、比特率等信息; AVCodecContext&#xf…

nginx代理后刷新显示404,这样解决。

项目部署之后,通过首页进入访问页面正常,F5刷新之后出现错误如下图。 怎么解决: 在Nginx配置里面增加 location / {root /www/wwwroot/phm/phmweb;index index.html index.htm;try_files $uri $uri/ /index.html;}

Kotlin基础(七):数据类和封闭类

前言 本文主要讲解kotlin数据类(DataClass)和封闭类(SealedClasses),包括使用数据类,对象复制,数据类成员的解构,使用封闭类,以及数据类和封闭类在Android开发中的应用。…

【数据挖掘】时间序列的傅里叶变换:用numpy解释的快速卷积

一、说明 本篇告诉大家一个高级数学模型,即傅里叶模型的使用; 当今,傅里叶变换及其所有变体构成了我们现代世界的基础,为压缩、通信、图像处理等技术提供了动力。我们从根源上理解,从根本上应用,这是值得付…