《UniVS: Unified and Universal Video Segmentation with Prompts as Queries》要点提炼

news2024/11/16 1:21:41

论文来源:https://arxiv.org/abs/2402.18115
《UniVS: Unified and Universal Video Segmentation with Prompts as Queries》是2024CVPR中的一篇关于视频分割的论文,

主要内容:

论文提出了一个名为UniVS的新型统一视频分割架构,它能够处理多种视频分割任务,包括类别指定的视频分割(category-specified VS)和提示指定的视频分割(prompt-specified VS)。UniVS通过将视频分割任务转换为由提示引导的目标分割任务,从而消除了传统方法中需要的启发式帧间匹配过程。

创新点:

  1. 使用提示作为查询(Prompts as Queries):UniVS将先前帧中目标的提示特征平均值作为初始查询,以明确解码掩码。
  2. 目标提示交叉注意力层(Target-wise Prompt Cross-Attention Layer):引入了目标提示交叉注意力(ProCA)层,以在记忆池中整合提示特征。
  3. 统一的视频掩码解码器(Unified Video Mask Decoder):通过使用预测的实体掩码作为视觉提示,UniVS将不同的视频分割任务转换为提示引导的目标分割任务。
  4. 通用训练和测试:UniVS不仅统一了不同的视频分割任务,还自然实现了通用训练和测试,确保在不同场景下的鲁棒性能。
  5. 跨多个基准的性能平衡:UniVS在10个具有挑战性的视频分割基准测试中表现出色,涵盖了视频实例、语义、全景、对象和引用分割任务。

网络结构:

UniVS主要由三个模块组成:

  1. 图像编码器(Image Encoder):将RGB图像转换为特征令牌。
  2. 提示编码器(Prompt Encoder):将原始视觉/文本提示转换为提示嵌入。
  3. 统一视频掩码解码器(Unified Video Mask Decoder):明确解码视频中任何实体或提示引导目标的掩码。

统一视频掩码解码器包含四个关键组件:

此外,UniVS在训练过程中包括三个阶段:图像级训练、视频级训练和长视频微调,以逐步提高模型对视频数据的理解能力。

论文还进行了一系列的消融研究,以验证所提出组件的有效性,并通过实验结果展示了UniVS在多个视频分割任务上的性能。

分割过程

在论文《UniVS: Unified and Universal Video Segmentation with Prompts as Queries》中,完成分割部分的过程涉及以下几个关键步骤:

  1. 图像编码(Image Encoding)

    • 输入的RGB视频帧首先通过图像编码器转换成特征表示。这通常包括一个卷积神经网络(CNN)骨干网络,它提取空间特征,以及一个像素解码器,它融合不同尺度的特征以增强表示。
  2. 提示编码(Prompt Encoding)

    • 对于视觉提示(如点击、框选、遮罩、涂鸦等),通过视觉采样器从图像特征中提取特征点,形成视觉提示嵌入。
    • 对于文本提示(如类别名称或描述性文本),使用CLIP文本编码器将文本转换为嵌入,然后通过交叉注意力层与图像特征进行交互,生成文本提示嵌入。
  3. 统一视频掩码解码(Unified Video Mask Decoding)

    • 使用初始提示查询(由先前帧中目标的提示特征平均值生成)作为掩码解码器的输入。
    • 引入目标提示交叉注意力(ProCA)层,以整合记忆池中的提示特征,并增强目标表示的独特性。
    • 通过图像交叉注意力层和分离自注意力(SepSA)层,专注于从输入帧中提取目标的详细信息,并在空间和时间域内促进目标内容的交互。
  4. 掩码预测

    • 掩码解码器的输出通过一个前馈网络(FFN)和其他转换层,最终生成每个目标的预测掩码。
    • 对于类别指定的视频分割任务,使用可学习查询来识别第一帧中的所有实体掩码,然后使用非极大值抑制(NMS)和分类阈值来过滤冗余掩码和低置信度掩码。
  5. 跨帧跟踪和实体匹配

    • 对于类别指定的视频分割任务,使用周期性目标检测策略,将分割转换为提示引导的目标分割问题。
    • 对于提示指定的视频分割任务,使用预测的实体掩码作为视觉提示,更新目标的记忆池,并在后续帧中识别和分割目标。
  6. 训练和优化

    • 训练过程中,使用像素级掩码监督损失、分类损失和ReID损失来优化模型参数。
    • 训练分为三个阶段:图像级训练、视频级训练和长视频微调,以逐步提高模型对视频数据的理解能力。
  7. 推理和输出

    • 在推理阶段,模型接收视频帧和提示,通过上述编码和解码过程预测每个目标的掩码。
    • 最终输出是视频中每个目标的分割掩码,这些掩码可以用于各种应用,如视频编辑、增强现实、视频恢复等。

整个分割过程是端到端的,意味着从输入视频帧到输出分割掩码的所有步骤都是连续的,并且可以通过反向传播和梯度下降自动优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2121680.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Inno Setup制作程序安装包

Inno Setup软件安装见: Inno Setup下载、安装和增加简体中文安装语言 一、制作程序安装包 先准备要被打包的可执行文件及其环境文件;另外还需要三个txt文件 三个文件中的内容如下,在使用程序安装包时会看到文件中的内容,同时文…

啊,原来她就是李飞飞

今天CSDN的头条看到了著名的AI大模型专家李飞飞。 李飞飞教授在人工智能领域,尤其是在大模型的发展中,做出了诸多贡献。以下是对她的一些公开经历和研究成果的详细介绍: 公开经历 教育背景:李飞飞获得了普林斯顿大学的物理学士…

【原创教程】自动化工程案例01:8工位插针装配机03-程序解读

在前面两篇文章中,我们介绍了8工位设备每个工位的情况,然后我们介绍了触摸屏的情况,接着我们来看一下程序。关于一些实物照片不宜公开发表,需要的可以私信。 程序系统块设置 系统块中的模块实际上是我们所使用的的硬件设施 符号…

第T7周:咖啡豆识别

本文为🔗365天深度学习训练营 中的学习记录博客原作者:K同学啊 ●难度:夯实基础 ●语言:Python3、TensorFlow2 要求: 1.自己搭建VGG-16网络框架 2.调用官方的VGG-16网络框架 拔高(可选)&#…

初识爬虫1

学习路线:爬虫基础知识-requests模块-数据提取-selenium-反爬与反反爬-MongoDB数据库-scrapy-appium。 对应视频链接(百度网盘):正在整理中 爬虫基础知识: 1.爬虫的概念 总结:模拟浏览器,发送请求,获取…

新版idea菜单栏展开与合并

新版idea把菜单栏合并了看着很是不习惯,找了半天原来在这里展开 ① 点击文件 -> 设置 ② 点击外观与行为 -> 外观 -> 合并主菜单和窗口标题 然后确定,重启即可

如何应对 Android 面试官 -> 启动如何进行优化(上)?玩转 Android StartUp

前言 本章主要围绕 App 的启动流程如何优化进行讲解; 将启动优化,首先要了解的就是 app 的启动流程,只有清晰并完善的了解了 启动流程 才能更好的进行优化; App 启动流程 在将 AMS 的时候,其实已经讲解了 App 的启动…

喜报! 炼石入选中国信通院《数据安全产业技术产品服务全景图》

近日,在2024中国国际大数据产业博览会“数据安全产业发展”交流活动上,中国信息通信研究院安全研究所副所长魏薇发布了《数据安全产业技术产品服务全景图》(以下简称“全景图”)。全景图从数据安全产业的概念和内涵出发&#xff0…

强大的3款自动爬虫利器,再也不用手撸代码了

爬虫是一种自动浏览互联网的程序,它按照一定的算法顺序访问网页,并从中提取有用信息。爬虫通常由以下几部分组成: - 用户代理(User-Agent):模拟浏览器访问,避免被网站识别为机器人。 - 请求处…

Springcould -第一个Eureka应用 --- day02

标题 Eureka工作原理Spring Cloud框架下的服务发现Eureka包含两个组件,分别是:Eureka Server与Eureka Client。Eureka Server:Eureka Client: 搭建Eureka Server步骤:步骤1:创建项目,引入依赖步…

iMeta | 中科院植物所周世良团队和河北工程大学刘艳磊团队揭示现代丝绸之路东段植物物种多样性格局及其影响因素

现代丝绸之路东段植物物种多样性格局及其影响因素研究 iMeta主页:http://www.imeta.science 研究论文 ● 原文链接DOI: https://doi.org/10.1002/imt2.74 ● 2023年1月9日,中国科学院植物研究所周世良团队与河北工程大学刘艳磊团队在iMeta在线发表了题…

【32单片机篇】项目:智能台灯

一、项目需求 1. 红外传感器检测是否有人,有人的话实时检测距离,过近则报警;同时计时,超过固定时间则报警; 2. 按键 1 切换工作模式:智能模式、按键模式、远程模式; 3. 智能模式下,…

支付宝开放平台-开发者社区——AI 日报「9 月 10 日」

1 Anthropic安全负责人:在超级A!「毀灭」人类之前,我们可以做这些准备 机器之心 丨阅读原文 Anthropic公司为应对A发展带来的港在风险,发布了负责任扩展策路(RSP),旨在通过技术和组织协议管理功能日益强大的Al系统。…

离离原上谱,公司裁员,员工排队抢名额

排队等裁员 别的公司裁员,大多数员工都提心吊胆,最近有家公司裁员,出现了员工排队抢名额的局面。 这家公司是「东风本田」。 近期行业内部传出消息,指出东风本田将面临战略调整,计划实施一次规模较大的裁员行动&#x…

AV1 Bitstream Decoding Process Specification:符号和缩写术语

原文地址:https://aomediacodec.github.io/av1-spec/av1-spec.pdf没有梯子的下载地址:AV1 Bitstream & Decoding Process Specification摘要:这份文档定义了开放媒体联盟(Alliance for Open Media)AV1视频编解码器…

网络安全主动防御技术原理与应用

入侵阻断技术与应用 入侵阻断:网络安全主动防御的技术方法 基本原理:对目标网络攻击行为进行阻断 入侵防御系统(IPS) 基本原理:根据网络包特性及上下文进行攻击行为判断老控制包转发 工作机制:类似路由…

2024下半年软考机考操作指南来了!赶紧收藏!

自2023年下半年软考全部科目改革为机考方式后,到现在已经进行过两场考试,鉴于有很多考生是初次参加软考,就给大家介绍下关于软考机考的具体操作指南,希望对大家有所帮助。 一、2024年软考机考考试流程 1、进入机考系统后&#xf…

AI人工智能将推动人类发展

AI人工智能将推动人类发展 AI(人工智能)作为一种前沿技术,正以前所未有的速度改变着我们的世界,并在多个领域展现出巨大的潜力,这些潜力无疑将推动人类社会的发展。以下是一些AI如何推动人类发展的主要方面&#xff1…

php代码实例强制下载文件代码例子

php代码实例强制下载文件代码例子 $filename $_GET[file]; //Get the fileid from the URL // Query the file ID $query sprintf("SELECT * FROM tableName WHERE id %s",mysql_real_escape_string($filename)); $sql mysql_query($query); if(mysql_num_rows…

「 自动化测试 」面试题..

1.你会封装自动化测试框架吗? 自动化框架主要的核心框架就是分层PO模式:分别为:基础封装层BasePage,PO页面对象层,TestCase测试用例层。然后再加上日志处理模块,ini配置文件读取模块,unittestd…