OW-VISCap——开放世界视频实例分割方法研究

news2025/1/15 16:46:05

概述

论文地址:https://arxiv.org/pdf/2404.03657

本文提出了一种名为 OW-VISCap(开放世界视频实例分割和字幕)的方法。其三大贡献是

  1. 开放世界对象查询:除了已知对象查询外,还引入了开放世界对象查询,以发现未知对象。这样就可以在不需要额外输入的情况下检测到未知物体。

  2. 使用遮罩关注机制生成以对象为中心的字幕:在对象-文本转换器中引入遮罩关注机制,使其能够生成以对象为中心的描述性字幕。

  3. 对象查询之间的对比度损失:引入对比度损失是为了抑制对象查询之间的相似性,减少重叠对象的检测,同时鼓励发现新的对象。

所提出的方法在开放世界视频实例分割、视频对象字幕和封闭世界视频实例分割这三个任务中表现出色。定性结果还表明,所提出的方法可以检测未知对象并生成以对象为中心的字幕。

相关研究

首先,有关开放世界视频实例分割的研究可分为两大类。

  1. 需要提示的方法:要求用户输入信息,并事先了解地面实况等。

  2. 无提示方法:为了发现新的对象,可以使用对象建议等方法。不过,这些方法也存在一些问题,例如性能有限或无法区分开放世界和封闭世界的物体。

另一方面,DVOC-DS[58] 是目前唯一的视频物体捕捉研究成果。然而,DVOC-DS 也存在一些问题,如无法应对长视频时间和无法捕捉物体的多个动作。

还有人提出了 OWVISFormer [39] 和 IDOL [50] 等方法来抑制对象查询之间的相似性。这些方法主要在封闭世界环境中有效,但在开放世界环境中并不充分。

拟议方法(OW-VISCap)

首先,对于开放世界对象查询 q_ow,可通过使用提示编码器(图 2 左侧的紫色区域)对视频帧上等间距的网格点进行编码来获得。这种设计有利于在整个视频区域内发现新奇的物体。

它还为 q_ow 引入了一个专门设计的开放世界损失函数 L_ow,以鼓励对未知物体的检测。

其次,对于以对象为中心的字幕,在对象-文本转换器中使用掩码关注机制可生成关注对象区域的字幕(图 2,右)。具体来说,遮罩关注是利用检测头获得的物体分割遮罩来生成字幕,字幕不仅关注局部物体特征,还考虑了整个视频的上下文。

最后,对比度损失 L_cont 用于抑制对象查询之间的相似性,其效果是防止重叠检测,并促进新对象的发现。在封闭世界环境中,它有助于抑制重叠误报;在开放世界环境中,它有助于发现新的物体。

因此,OW-VISCap 通过其独特的开放世界对象发现、以对象为中心的字幕和查询到查询的相似性抑制设计,提供了综合视频理解能力。

试验

本文在三个任务中对 OW-VISCap 进行了评估:开放世界视频实例分割(OW-VIS)、视频对象字幕(Dense VOC)和封闭世界视频实例分割(VIS)。

OW-VIS 在 BURST[2]数据集(表 1)上进行了评估,结果显示,在未知(不常见)类别中,OW-VIS 的性能提高了约 6%。

对于密集 VOC,我们使用了 VidSTG[57]数据集(表 2),结果显示生成字幕的正确率提高了约 7%,尽管物体检测的准确率略低。这是因为所提出的遮罩关注机制允许生成以对象为中心的字幕。

最后,在 OVIS [36] 数据集上对 VIS 进行了评估(表 3),结果表明其性能与最新技术相当。同样可以看出,物体查询之间的对比度损失有助于抑制重复检测。

图 S1 和图 S2 分别显示了 BURST 和 VidSTG 数据集的定性结果。可以看出,该系统能够检测和分割未知物体,并生成以物体为中心的字幕。

结论

本文提出的 OW-VISCap 将视频实例分割和字幕制作整合到开放世界环境中。它具有三个要素–开放世界对象查询、基于遮罩注意力的字幕分割和对象查询之间的对比度损失–能够检测和描述未知对象。

本文提出的 OW-VISCap 核心方法也适用于更通用的视频理解,并有潜力应用于现实世界,如自主系统和 AR/VR。细粒度视频理解(包括对未知物体的理解)是一项重要的研究挑战,而本文提出的方法可以为解决这一问题做出重大贡献。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2060410.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python爬虫521

爬虫521 记录 记录 最近想学爬虫,尝试爬取自己账号下的文章标题做个词云 csdn有反爬机制 原理我就不说啦 大家都写了 看到大家结果是加cookie 但是我加了还是521报错 尝试再加了referer 就成功了(╹▽╹) import matplotlib import requests from wordcloud impor…

第2章-03-HTTP协议,POST与GET等请求方式

🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年CSDN全站百大博主。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 🏆本文已收录于专栏:Web爬虫入门与实战精讲,后续完整更新内容如下。 文章…

揭秘移动IP:为何定位精度多停留在城市级?

随着电子信息技术的日新月异,移动网络已深度融入我们的日常生活,从2G的初步尝试到5G的飞跃,不仅数据传输速度实现了质的飞跃,更催生了丰富多样的移动应用场景与功能。在这一变革浪潮中,移动IP(Mobile IP&am…

再见百度网盘,我有ZFile了!!【送源码】

项目简介 ZFile是一款强大的在线网盘管理系统,专为个人用户设计,能够将不同类型的存储资源统一在一个简洁易用的界面中进行管理和访问。通过ZFile,用户不再需要记住并登录多个云存储平台,所有的文件管理操作都可以在一个地方完成&…

Tomcat:Web 领域的闪耀明珠,魅力何在?

一、Web技术 HTTP 协议(HyperText Transfer Protocol,超文本传输协议)是互联网上应用最为广泛的一种网络协议。它的主要作用是在客户端和服务器之间传输超文本数据,如网页、图片、视频等。 HTTP 协议的特点 无状态性 HTTP 协议是…

【数学建模】优化模型——两辆平板车装货问题

问题描述 包装箱规格:共有七种规格的包装箱,每种包装箱的厚度(t)和重量(w)不同。表中列出了每种包装箱的厚度、重量及数量。 平板车限制: 每辆平板车的可用装载长度为10.2米(1020厘…

《QT从基础到进阶·七十三》Qt+C++开发一个python编译器,能够编写,运行python程序

1、概述 源码放在文章末尾 该项目利用QtC实现了一个简易的python编译器,类似pycharm或vsCode这样的编译器,该python编译器支持如下功能: (1)支持编写python程序 (2)编写代码时有代码补全提示 &…

写给大数据开发:如何优化临时数据查询流程

你是否曾因为频繁的临时数据查询请求而感到烦恼?这些看似简单的任务是否正在蚕食你的宝贵时间,影响你的主要工作?如果是,那么这篇文章正是为你而写。 目录 引言:数据开发者的困境问题剖析:临时数据查询的…

MKS电源GMW-25RF Plasma Generator手侧

MKS电源GMW-25RF Plasma Generator手侧

C语言基础(八)

1、标准库函数&#xff1a; 测试代码1&#xff1a; #include <stdio.h> // 标准库函数头文件导入 // 自定义函数 int add(int a, int b) { return a b; } // 声明回调函数类型 typedef void (*Callback)(int); // 调用回调函数的函数 void process(Callb…

网络编程第三天

服务器&#xff1a; #include<sys/types.h> // 支持套接字地址结构 #include <sys/socket.h> // 提供套接字API #include <netinet/in.h> // 定义IP地址结构体 #include <string.h> // 提供字符串操作函数 #include <stdio.h> // 提供标准I/O操…

宠物空气净化器哪款能吸毛?希喂、米家宠物空气净化器测评分享

养猫最令人困扰的&#xff0c;就是掉毛与难以彻底消除的异味&#xff0c;这两个问题就成了养猫生活中的一大挑战。每当换季或是猫咪自我梳理时&#xff0c;家中便被一层细腻的绒毛覆盖&#xff0c;从地板到沙发&#xff0c;从床单到衣物&#xff0c;甚至是空气中都漂浮着细小的…

Dockerfile中CMD和ENTRYPOINT区别以及结合使用

1. 简述 在Dockerfile中,CMD和ENTRYPOINT都是用于指定容器启动时要运行的命令,但它们在使用方式和目的上有所不同。 下面将分别解释这两个指令的含义,并通过示例说明它们之间的区别,以及常见的结合使用案例。 Dockerfile制作镜像流程图: 2. CMD CMD指令用于指定容器启…

RocketMQ环境搭建(宝塔)

文章目录 1.介绍2.RocketMQ介绍1.官网2.基础概念3.组件架构 3.安装1.安装宝塔面板1.更新系统2.安装宝塔面板3.开放33142端口 2.创建存放软件的文件夹3.将软件上传到soft目录下4.安装unzip5.进入目录解压软件6.进入bin目录7.修改两个sh文件配置内存小一点8.在/usr/local/soft/ro…

Maven-08.依赖管理-生命周期

一.生命周期 Maven中的生命周期就是描述一次maven项目构建要经历那些阶段。包含clean&#xff0c;default和site三个。这三个生命周期时相互独立的。所谓相互独立&#xff0c;就是每套生命周期中的阶段互不干扰。 阶段是生命周期中最细化的操作。我们重点关注5个阶段&#xf…

教你学习企业高性能web服务器-nginx

一、web服务介绍 1、Apache的三种模型 &#xff08;1&#xff09;Apache prefork 预派生模式&#xff0c;有一个主控制进程&#xff0c;然后生成多个子进程&#xff0c;使用select模型&#xff0c;最大并发1024每个子进程有一个独立的线程响应用户请求相对比较占用内存&…

笔记(day24)正则表达式

一、正则表达式 1.1 概述 正则表达式定义了字符串的匹配模式,可以用来进行搜索,编辑,或处理文本 并不仅限于某一种语言,但是在每种语言中有细微的差别 1 数据校验、格式校验 2 数据提取 1.2 语法 元字符描述\将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如&a…

专题---自底向上的计算机网络(数据链路层)

目录 计算机网络概述 物理层 数据链路层 网络层 传输层 应用层 网络安全

pinctl 和 gpio子系统驱动

一.设备树中添加pinctl节点模板 1.创建对应的节点 同一个外设的 PIN 都放到一个节点里面&#xff0c;打开 imx6ull-14x14-evk.dts&#xff0c;在 iomuxc 节点 中的“imx6ul-evk”子节点下添加 “pinctrl_test” 节点。添加完成以后如下所示&#xff1a; pinctrl_test:test_g…

8.21Qt作业

运用网络通信&#xff0c;实现简单聊天室 客户端主要代码 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget), socket(new QTcpSocket(this)) {ui->setupUi(this);//初始化界面ui-&g…