【论文阅读】Single-Stage Visual Query Localization in Egocentric Videos

news2024/11/13 18:06:02

paper:

code:

简介:

长篇自我中心视频的视觉查询定位需要时空搜索和指定对象的定位。之前的工作开发了复杂的多级管道,利用完善的对象检测和跟踪方法来执行 VQL(视觉查询定位)。然而,每个阶段都是独立训练的,管道的复杂性导致推理速度缓慢。 VQLoC是一种新颖的单阶段 VQL 框架,可进行端到端训练。关键思想是首先建立对查询视频关系的整体理解,然后以单次方式执行时空定位。具体来说,通过联合考虑查询与每个视频帧之间的查询到帧对应关系以及附近视频帧之间的帧到帧对应关系来建立查询视频关系。准确率提高了 20%,推理速度提高了 10 倍。

图 1:视觉查询本地化 (VQL):(左)目标是本地化长视频中的视觉查询对象,如黄色边界框标记的响应轨迹所示。这项任务的复杂性源于需要适应视频中出现的具有不同尺度、视点和状态的开放集对象查询; (右)我们的方法 VQLoC 首先通过联合 推理查询到帧(空间)和 帧到帧(时间)对应关系,建立对查询视频关系的整体理解,然后在单阶段中定位响应并结束端到端可训练方式。

VQL 任务的自我中心性质:对象所在的视频可能变化很大,比如方向、大小、上下文和照明条件,经历模糊和遮挡。在现实世界中,以自我为中心的视频可能会持续几分钟、几小时或几天,而对象本身可能只出现几秒钟,从而导致“大海捞针”的问题。

之前的工作通过三个阶段的自下而上的框架来解决 VQL:

  1. 在每个视频帧中,检测所有对象并与视觉查询进行成对比较,以获得与查询最相似的建议;
  2. 识别整个视频中的相似性得分峰值;
  3. 围绕最近的峰值执行双向跟踪以恢复时空响应。

限制:很依赖通过独立查看每帧来检测目标的第一阶段。帧级对象检测中的错误可能会导致整个系统失败,因为框架不是端到端可微分的,并且早期阶段的错误可能无法在后期纠正。此外,由于与冗余目标建议进行两两比较的复杂性较高,推理速度较慢。

结构:VQLoC联合建模查询与每个视频帧之间的查询-帧关系以及相邻视频帧之间的帧-帧关系(图1),然后以单阶段、端到端可训练的方式进行时空定位。具体来说,

  1. 通过使用DINO预训练的ViT主干提取视觉查询和每个视频帧的图像特征,并使用交叉注意transformer建立查询中图像区域与视频帧之间的对应关系,从而建立查询到帧的关系。
  2. 然后,使用自注意transformer随时间传播这些对应关系,利用视频的时间连续性产生的帧对帧关系来捕获整体查询-视频关系。
  3. 最后,使用卷积预测头,通过利用查询-视频关系进行时空定位来进行帧级预测。

模型在单一阶段运行,即没有具有专用后处理步骤的中间定位输出,并且是端到端可训练的,因为它只使用可微模块来获得最终预测。与之前的分阶段方法相比,VQLoC的优点:

  1. 与之前在视频帧中显式生成对象建议并将其与视觉查询进行比较的工作不同,VQLoC通过在视觉查询特征和视频帧特征之间执行基于注意力的推理,隐式地建立了查询帧关系。该方法有效地利用背景和非查询对象的图像区域作为上下文信息进行推理。
  2. 隐式查询框架关系的计算速度明显快于显式生成建议和执行两两比较,这对于现实世界的情景记忆应用程序至关重要。
  3. 最后,VQLoC是端到端可训练的,性能更好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2092436.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智能创作与优化新时代:【ChatGPT-4o】在【数学建模】、【AI绘画】、【海报设计】与【论文优化】中的创新应用

目录 1. 引言 什么是ChatGPT4o? 背景与发展历史 2.chatgpt4o数学建模 常见的数学建模专业术语及其简要说明 一个具体的代码例子 问题描述 代码实现 代码说明 运行结果 3.chatgpt4o在论文 1.例如生成基于标签的推荐系统模型及算法研究 1. 摘要 2. 引…

微信搜一搜下面搜索发现是什么?收录规则因素有哪些?如何能被搜索发现话题标签收录?

前言:为什么想到写这个?上周白杨SEO玩赚流量群里的一个群友私下问我怎么能被微信里搜索发现这个话题标签收录,问规则是什么,所以今天就来简单分享一下,如果你也感兴趣,可以看看。 文章大纲: 1、…

Go 1.19.4 文件读写操作-Day 14

1. 文件读写操作 在我们对一个文件进行读写操作前,有一个必做步骤,那就是要先打开文件。 打开文件主要使用os模块的 Open 和 OpenFile 。 Open:适合读。OpenFile:适合读写。 2. 打开文件 2.1 Open 作用: 以只读方式打…

书生浦语-MindSearch

1.目的 利用SiliconCloud提供的免费Intern2.5-7B-Chat的API部署MindSearch。 2.过程 2.1 在GitHub上打开codespace主页 我们首先在GitHub上打开codespace,选择blank template。 然后打开一个Web端的vscode,将MindSearch进行clone mkdir -p /workspa…

二叉树详解(进阶)

目录 1. 二叉搜索树 1.1 基本概念 1.2 基本操作 1.3 性能分析 1.4 键值对 2. AVL树和红黑树 2.1 AVL树 2.2 红黑树 3. 红黑树模拟实现STL中的map与set 1. 二叉搜索树 1.1 基本概念 二叉搜索树(BST,Binary Search Tree)&#xff1a…

记录一次安装Studio卸载后再次安装反复打不开的问题

先说问题表现,低版本的安装后点击没反应,高版本的报错,如下图,反复卸载安装都没有用,网上也找了各种彻底卸载安卓Studio的方法也不行 Error occurred during initialization of VMagent library failed Agent OnLoad:…

【C++】unordered_set 容器的最全解析(什么是unordered_set?unordered_set的常用接口有那些?)

目录 一、前言 二、预备知识 💢关联式容器💢 💢键值对💢 💢哈希结构的关联式容器💢 三、unordered_set 详解 🔥unordered_set 的介绍 🔥unordered_set 的构造 &am…

解除 Excel 表格的文档保护全攻略

在日常工作和学习中,我们可能会遇到 Excel 表格被保护无法编辑的情况。别担心,今天就为大家分享几种解除 Excel 表格文档保护的方法。 一、导入腾讯文档 可以将受保护的 Excel 表格上传到腾讯文档。在部分情况下,腾讯文档会尝试自动解除表…

零基础国产GD32单片机编程入门(九)低功耗模式实战含源码

文章目录 一.概要二.GD32单片机低功耗基本介绍三.GD32单片机待机模式介绍四.待机低功耗例程实验五.工程源代码下载六.小结 一.概要 在生活中通过关掉用电器可以实现省电节能的目的,同样的道理单片机也可以通过这种方法实现降低功耗。单片机是由许多部件组成&#x…

ruoyi-vue-plus服务端打包报错的问题

对idea不熟,不知道在哪里输入打包命令,只会用手点击进行打包,然后就报错了 官方文档给的打包命令是 mvn clean package -D maven.test.skiptrue -P prod 从命令中可以看到跳过了maven测试,那么就要设置idea打包时跳过测试&…

k8s单master多node环境搭建-k8s版本低于1.24,容器运行时为docker

k8s 1.20.6单master多node环境搭建 1.环境规划2.初始化服务器1)配置主机名2)设置IP为静态IP3)关闭selinux4)配置主机hosts文件5)配置三台主机之间免密登录6)关闭交换分区swap,提升性能7&#xf…

【Python基础】字符串类型

本文收录于 《Python编程入门》专栏,从零基础开始,分享一些Python编程基础知识,欢迎关注,谢谢! 文章目录 一、前言二、Python 字符串类型2.1 Python访问字符串中的值2.2 Python 转义字符2.3 Python 字符串运算符2.4 Py…

Bluetooth: gatt profile

Gatt 主要是描述了attribute的排列方式; Attribute caching 这个机制允许client只搜索一次server即可,当重连后不需要再搜索直接使用之前的。如果server的服务发生了变化,需要通过 service change indication 告诉client; client…

网优学习干货:2.6G仿真操作(2)

导入仿真区域图层 建立仿真站点组 设置仿真任务-结果图层和楼宇仿真高度 仿真结果统计-结果图层渲染 仿真结果统计-结果导出 目录 导入天线文件-导入方法与覆盖仿真相同,但天线文件需要包含PDSCH波束文件 将Beamforming天线添加到基站 如果在步骤④中没有找到Beamfo…

Web自动化测试实战--博客系统

🎥 个人主页:Dikz12🔥个人专栏:测试📕格言:吾愚多不敏,而愿加学欢迎大家👍点赞✍评论⭐收藏 目录 1.项目效果展示 2.编写web测试用例 3.自动化测试脚本开发 3.1创建空项目 引…

构建大师:深入理解Linux下的Make和Makefile

引言 在软件开发的世界里,构建过程是一项繁琐而重要的任务。无论是简单的脚本还是复杂的软件项目,都需要一种方式来自动化编译、链接以及测试等过程。在Linux环境下,Make工具和它的配置文件——Makefile,成为了许多开发者构建项目…

计算机硬件的组成

目录 前言 计算机系统组成 计算机硬件的组成 1、控制器 2、运算器 3、主存储器 4、辅助存储器 5、输入设备 6、输出设备 最后 前言 计算机已成为不可或缺的工具。无论是个人电脑还是服务器集群,其背后都是由一系列硬件组件协同工作的结果。 本文讲介绍计…

ssrf攻击本地fastcgi漏洞复现

目录 环境&#xff1a;UbuntuNginxphp 代码 开始测试 查看 环境搭建 环境&#xff1a;UbuntuNginxphp 代码 <?php highlight_file(__FILE__); $url $_GET[url]; $curl curl_init($url);curl_setopt($ch,CURLOPT_URL,$url); curl_setopt($curl, CURLOPT_HEADER, 0…

滚雪球学MyBatis-Plus(02):环境准备

环境准备 本地开发环境参考如下&#xff1a; 开发工具&#xff1a;IntelliJ IDEA 2021.3.2JDK版本&#xff1a; JDK 1.8Spring Boot版本&#xff1a;2.3.1.RELEASEMaven版本&#xff1a;Apache Maven 3.8.2MySQL&#xff1a;5.6 前言 在上期内容中&#xff0c;我们系统地介绍了…

【多线程】设计模式之单例模式

&#x1f490;个人主页&#xff1a;初晴~ &#x1f4da;相关专栏&#xff1a;多线程 / javaEE初阶 一、什么是设计模式 设计模式好⽐象棋中的 "棋谱". 红⽅当头炮, ⿊⽅⻢来跳. 针对红⽅的⼀些⾛法, ⿊⽅应招的时候有⼀些固定的套路. 按照套路来⾛局势就不会吃亏. …