Mask-Free Video Instance Segmentation

news2024/11/28 14:38:52

论文地址:[2303.15904] 无掩码视频实例分割 (arxiv.org)

论文代码https://github.com/SysCV/MaskFreeVis

目录

一、摘要

二、介绍

三、方法

        3.1 时间掩码一致性

        3.2 时间KNN-patch Loss

        3.3 训练MaskFreeVIS

四. 数据集

五.消融实验

六. 结果

七. 结论


一、摘要

        视频掩码注释繁琐且昂贵, 限制了现有VIS 数据集的规模和多样性。本文的目标是消除掩膜注 释的要求,提出了MaskFreeVIS,实现了高度竞争的VIS性能, 同时只使用边界框和对象状态符号。

二、介绍

        当前问题

        (1)最先进的VIS模型使用来自VIS数据集的完整视频注释进行训练。

        视频注释是昂贵的,特别是关于对象掩码标签。即使是粗糙的基于多边形的掩膜标注,也⽐标注视频边界框慢好⼏倍。昂贵的掩码注释使得现有的VIS基准难以扩展,从⽽限制了覆盖的对象类别的数量。

        (2)弱监督的单图像⽅法在学习掩膜预测时没有利⽤时间线索,导致直接应⽤于视频时精度较低。

        所做工作

        (1)通过研究⽆掩码设置的弱监督VIS问题,重新审视了完全掩码注释的必要性。

        (2)利⽤时间掩码⼀致性约束(不同帧中对应于相同基础对象的区域应该具有相同的掩码标签)来进⾏VIS的⽆掩模学习。

        具体贡献

        (1)为了利⽤时间信息,开发了⼀种新的⽆参数时间KNN-patchLoss,它利⽤⽆监督的⼀对kpatch对应来利⽤时间掩模⼀致性。

        (2)基于TK-Loss,开发了MaskFreeVIS⽅法,可以在没有任何掩码注释的情况下训练现有的最先进的VIS模型。

        (3)MaskFreeVIS是第⼀个获得⾼性能分割结果的⽆掩模VIS⽅法。MaskFreeVIS在不使⽤视频或注释的情况下,在具有挑战性的YTVIS2019基准上实现了42.5%AP。我们的⽅法进⼀步扩展到更⼤的主⼲⽹,在没有视频掩码注释的情况下,在swing-l主⼲⽹上实现了55.3%的掩码AP


三、方法

        3.1 时间掩码一致性

        视频描述了场景的连续变化。物体和背景移动、变形、被遮挡,经历光照变化、运动模糊和噪声,从⽽导致⼀系列通过逐渐变换⽽密切相关的不同图像。

        场景中的⼀个⼩区域要么属于⼀个物体,要么属于背景。该区域投影对应的像素在每一帧中应该具有相同的掩膜预测,因为它们属于相同的底层物理对象或背景区域。然⽽,视频中的动态变化导致了实质性的外观变化,作为⼀种⾃然的数据增强形式。因此,对应于相同基础对象区域的像素在时间变化下应该具有相同的掩膜预测,这⼀事实提供了⼀个强⼤的约束,即时间掩膜⼀致性,可⽤于掩膜监督。

        利用时间掩膜一致性约束的困难来自于在视频帧之间建立可靠对应的关系。

        3.2 时间KNN-patch Loss

        时间KNN-patchLoss(TK-Loss)是基于⼀种简单⽽灵活的跨帧对应估计。建⽴了1-k对应关系。这包括传统的⼀对⼀对应(K=1),其中存在⼀个独特的定义良好的匹配。然⽽,这也允许我们在遮挡情况下处理不存在对应关系(K=0)的情况,在同⽣区域情况下处理⼀对多(K2)的情况。在发现多个匹配的情况下,由于它们的外观相似,这些最常属于相同的底层对象或背景。通过更密集的监督,这进⼀步有利于我们的mask⼀致性⽬标。⽅法如图,包含四个主要步骤。

        (1)候选Patch提取

        设X pt 表⽰在第 t 帧中以空间位置 p=(x,y)为中⼼的N × N ⽬标图像 Patch 。我们的⽬标是在第 t ´帧
中找到⼀组对应的位置 S p t t ´ = {tpi}i ,表⽰相同的⽬标区域。⾸先在半径R 内选择候选位置 p ,使 kp pk ≤R。这种带窗⼝的块搜索利⽤了相邻帧的空间邻近性,以避免穷尽的全局搜索。为了快速实现,并⾏地对所有⽬标图像块X pt 执⾏加窗搜索。

        (2)时间knn匹配

        通过简单的距离计算对候选补丁进⾏匹配,L2norm是最有效的补丁匹配指标。我们选择了patch距离最⼩的前K个匹配dttpp。 最后,通过强制执⾏⼀个最⼤的patch距离D作为dt→tp→p来去除低置信度的匹配 对于每个位置p,从集合Spttpi}i进⾏匹配。

        (3)一致性损失

        设Mpt[0,1]表⽰⼀个对象的预测⼆进制实例掩码,在帧t中的位置p处求值。为了确保时间掩码⼀致性约束,对Sptt}中⼀个时空点(p,t)与其估计的对应点之间的掩码预测不⼀致进⾏惩罚。

        掩码的⼀致性是⽤

        只有在两个预测都准确地表⽰背景 (Mpt=Mp-t-=0)或前景 (Mpt=Mp-t-=1) 时才会达到其最⼩值零。因此,⽬标不仅促进两个掩码预测达到相同的概率值Mpt=Mp-t- ,⽽且还承诺⼀定的前景或背
景预测。

        (4)循环管连接

        以循环的⽅式计算整个管的时间损失。起始帧连接到结束帧,这在时间上最遥远的两个帧之间引⼊了直接的⻓期掩码⼀致性。全管时间TK-Loss由式给出

循环损耗实现了类似的性能,但⼤⼤减少了实验部分验证的内存使用

        3.3 训练MaskFreeVIS

        (1)联合时空正则化

        为了训练MaskFreeVIS,除了⽤于时间掩码⼀致性的temporal-poralKNN-patchLoss外,我们还利⽤现有的空间弱分割损失来联合强制帧内⼀致性。 为了探索来⾃图像边界框和像素颜⾊的空间弱监督信号,我们利⽤具有代表性的Box投影损失Lproj和成对损失Lpair来代替监督掩码学习损失。投影损失Lproj强制对象掩模在图像的~x轴和~y轴上的投影p0与它的地真盒掩模⼀致。对于具有T帧的时间管,我们同时优化管as的所有预测帧掩模

        D为骰⼦损失,p0x/y轴⽅向的投影函数,Mpt和Mbt分别为第t帧下预测的实例掩码及其GT掩码。为清晰起⻅,这⾥省略了对象实例索引。另⼀⽅⾯,成对损失Lpair限制了单帧的空间相邻像素。对于具有颜⾊相似性>σ像素的位置p0ip0j像素,强制其预测的掩膜标签⼀致,如下式:

空间损失与权重因⼦λ pair : 相结合

优化视频分割的整体时空⽬标Lseg 被总结为 :

        (2)基于transformer的方法的集成

        现有的关于无监督分割损失的⼯作与单阶段或两阶段检测器相耦合,并且仅解决单幅图像的情况。然⽽,最先进的VIS⽅法是基于变压器的。这些⼯作通过集合预测进⾏对象检测,其中在评估损失时,预测的实例掩码需要与掩码标注匹配。为了将⽆遮罩VIS训练与变压器相结合,⼀个关键的修改是在实例序列匹配步骤中。

        作为初步尝试,⾸先从估计的实例掩码中产⽣边界框预测。然后,我们使⽤VIS⽅法中使⽤的顺序匹配成本函数。为了计算整个序列的匹配代价,在帧间平均每个单独的边界框的L1损失和⼴义IoU损失。然⽽,我们观察到帧平均的匹配结果很容易受到单个离群帧的影响,特别是在弱分割设置下,导致训练期间的不稳定和性能下降。 时空盒掩码匹配没有使⽤前述的帧级匹配,⽽是凭经 验找到了时空盒-掩码匹配,以在弱分割设置下产⽣实质性的改进。我们⾸先将每个预测实例掩码转换为边界框掩码,并将ground-truth盒转换为盒掩码。然后,我们分别从ground-truth盒掩码序列和预测盒掩码序列中随机采样等量的点。与Mask2Former不同,我们 只采⽤骰⼦IoU损失来计算序列匹配成本。交叉熵累积了每个像素的误差,导致⼤⼩物体之间的 值不平衡。相⽐之下,IoU损失是标准化的每个对象,导致⼀个平衡的度量。在消融实验中,研究了⽆掩模 VIS设置下不同的实例序列匹配策略。

        (3)基于图像的MaskFreeVIS预训练

        ⼤多数VIS模型都是从COCO实例分割数据集上预训练的模型初始化的。为了完全消除掩模监督,我们仅使⽤无监督在COCO上预训练MaskFreeVIS。我们在单帧上采⽤空间⼀致性损失来代替Mask2Former中原始的GT掩码损失,同时基于相同的图像COCO培训设置。因此,我们在实验中提供了两种训练设置,⼀种是在训练过程中同时去除图像和视频蒙版,另⼀种是采⽤COCO蒙版注释预训练的权值。在这两种情况下,都没有使⽤视频掩模注释。


四. 数据集

        在⼤规模的 YouTube-VIS2019和2021 上进⾏实验。 YTVIS2019 包括 2883 个视频, 131k注释对象实例,属于 40 个类别。为了处理更复杂的情况,YTVIS2021 更新了 YTVIS2019 ,增加了 794 个培训视频和129 个验证视频,包括更多令⼈困惑的运动轨迹轨迹。 还在OVIS 上进⾏训练和评估 OVIS 是遮挡学习的VIS 基准。 OVIS 由覆盖 25 个类别的实例掩模组成,分别有607 个、 140 个和 154 个视频⽤于训练、有效和测试。
        BDD100KMOTS进⼀步报道了⼤规模⾃动驾驶基准BDD100KMOTS Mask-FreeVIS 结果。该数据集标注了154 个视频 (30,817 张图像 ) ⽤于训练, 32 个视频(6,475张图像 ) ⽤于验证, 37 个视频 (7,484 张图像 ) ⽤于测试。

五.消融实验


六. 结果

        将MaskFreeVIS 与最先进的完全 / 弱监督⽅法在基准YTVIS2019/2021 OVIS, BDD100KMOTS 上进⾏⽐较。我们将MaskFreeVIS 集成到四种代表性⽅法 上,在强基线上获得⼀致的⼤收益。

七. 结论

        MaskFreeVIS是第⼀个在训练过程中不需要 任何 掩码注释的竞争性VIS⽅法。强有⼒的结果导致了⼀个显著的结论: 掩膜标签不是⾼性能 VIS 的必要条件。我们的关键组件是⽆监督的时间KNN-patchLoss ,它通过利⽤时间掩膜⼀致性约束取代了传统的视频掩膜损失。我们的⽅法⼤⼤减少了在四个⼤规模基准上完全监督和弱监督VIS 之间⻓期存在的差距。因此, MaskFreeVIS 为研究⼈员和实践者提供了许多标签⾼效VIS 的机会。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1425422.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

统计图表在线配置服务-百度 SugarBI的学习笔记

最近,有个产品要支持统计图表在线可配置,这样,当用户有新增统计指标的需求时,运维人员通过界面化配置,就可以增加统计指标了,不用开发写代码,画页面了。 上网查了下相关的组件,感觉…

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之TextClock组件

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之TextClock组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、TextClock组件 TextClock组件通过文本将当前系统时间显示在设备上。支持不同…

推荐几款便宜雾锁王国(Enshrouded)游戏联机服务器

雾锁王国(Enshrouded)是一款多人在线游戏,为了获得更好的游戏体验,许多玩家会选择自行搭建游戏联机服务器,但是如何挑选价格合适、性能稳定的服务器成为一个难题,本文将为大家推荐几款便宜雾锁王国(Enshrouded)游戏联机服务器。 一…

【大厂AI课学习笔记】1.3 人工智能产业发展(4)——泛在的人工智能

人工智能走向泛在。 泛在,就是广泛存在。(下图来自腾讯AI课。) 没办法,被百度抛弃了,想学习,课程打不开,只好投想腾讯的怀抱。 之前考过腾讯云的认证,课程做的还是条理很清晰。 主…

【gRPC】Python建立服务端含接口映射

续之前《【gRPC】protoc文件转py文件》 基于之前的目录结构,微调下: |- example # 新增|- service|- api|- User.py|- configs.py |- example_proto|- core|- user.proto |- proto_output|- core # 续上文转化后的结果|- user_pb2.py|- user_pb2.pyi…

CANoe学习笔记——窗口类型

CANoe中的窗口类型,共分为三种 1:MDI windows 2:Standard Windows 3:Docking Windows 窗口有多种类型,每种类型都定义了特定的窗口行为。通过点击窗口顶部的区域,可以更改窗口类型。 如下图&#xff0…

缓存击穿,商详页进不去了!!!

故事 对于小猫来讲,最近的一段日子是不好过的,纵使听着再有节拍的音乐,也换不起他对生活的热情。由于上一次“幂等事件”躺枪,他已经有几天没有休息好了。他感觉人生到了低谷。 当接手这个商城项目之后,他感觉他一直没…

【ChatGPT】文本向量化与余弦相似度:揭开文本处理的神秘面纱(5)

1、引言 在这个数字化的时代,我们每天都会面对大量的文本信息,从社交媒体到新闻报道,文本无处不在。但是,计算机要如何理解和处理这些文字呢?本文将为大家揭开其中的一些奥秘,详细解释文本向量化的概念&am…

构建中国人自己的私人GPT—支持中文

上一篇已经讲解了如何构建自己的私人GPT,这一篇主要讲如何让GPT支持中文。 privateGPT 本地部署目前只支持基于llama.cpp 的 gguf格式模型,GGUF 是 llama.cpp 团队于 2023 年 8 月 21 日推出的一种新格式。它是 GGML 的替代品,llama.cpp 不再…

【Java程序设计】【C00209】基于SSM个人求职管理系统(论文+PPT)

基于SSM个人求职管理系统(论文PPT) 项目简介项目获取开发环境项目技术运行截图 项目简介 这个一个基于SSM的个人求职管理系统,本系统共分为三种权限:管理员、普通管理员、用户 管理员:首页、个人中心、用户管理、管理…

免费使用支持离线部署使用的 txt2video 文本生成视频大模型(Text-to-Video-Synthesis Model)

免费使用支持离线部署使用的 txt2video 文本生成视频大模型(Text-to-Video-Synthesis Model)。 文本生成视频大模型(Text-to-Video-Synthesis Model)是一种基于深度学习技术的人工智能模型,它可以将自然语言文本描述转换为相应的视频。即通过输入文本描述&#xff…

【亿级数据专题】「分布式消息引擎」 盘点本年度我们探索服务的HA高可用解决方案

盘点本年度我们探索服务的HA高可用解决方案 前言介绍HA高可用高可用性评估可用性是平均故障间隔时间 HA技术架构的特性分析Master/Slave架构主从复制模式主从复制的特性分析 高可用案例RocketMQ的主从架构责任划分同步机制动态化RocketMQ高可用架构中有限状态机的转换 总结Mast…

十五届健康中国大会在京举行,1892本草茶助力健康中国2030

2024 年1 月26 日,人民日报健康客户端主办的第十五届健康中国论坛在北京人民日报健康客户端演播厅举行。 健康中国论坛作为我国医药卫生界以“健康中国”为主题的论坛中举办时间最早、影响最大、质量最高、权威性最强的会议之一,今年走过了第十五个年头,已成为各级党和政府、医…

【芯片设计- RTL 数字逻辑设计入门 番外篇 8.1 -- memory repair 详细介绍】

文章目录 memory repair 详细介绍Memory Repair 方法Memory Repair 过程举例memory repair 详细介绍 SoC (System on Chip) 的 Memory Repair 是一种技术,用于检测和修复内存中的损坏单元。由于SoC内部集成了大量的逻辑和存储单元,包括RAM(随机访问存储器)、ROM(只读存储…

双目相机立体匹配基础

双目匹配就是用左相机和右相机去拍摄同一个点,目的是找到三维世界的同一个点,也就是在左相机和右相机中的成像点之间的像素差(视差),根据视差去求解深度,那么找到左相机点到右相机的同一个对应点这个过程就…

【五】【C++】类与对象(三)

const只读 在 C 中,const 关键字用于声明一个变量为常量,意味着一旦被初始化之后,它的值就不能被改变。 声明常量: 使用 const 关键字可以声明变量为常量。这意味着这个变量的值不能被修改。 const int MAX_SIZE 100; 指针与…

启动盘重装ubuntu22系统

win+R msinfo32查看 插入制作好的u盘电脑开机 进入BIOS界面的方法有多种,以下是一些常见的方法: 进入BIOS界面的最常见按键有: Del键:大多数台式机通过在启动时按下Del键来进入BIOS。Esc键:在AMI BIOS和某些品牌电脑中,进入BIOS系统需要按“Esc”键,一般在开机画面…

简单实践 java spring cloud 负载均衡

1 概要 1.1 实现一个最简单的微服务。远程调用负载均衡&#xff0c;基本上完成了最核心的微服务框架。 远程调用&#xff1a;RestTemplate 注册中心&#xff1a;eureka 负载均衡&#xff1a;Ribbon 1.2 要点 1.2.1 依赖 1.2.1.1 主框架依赖 spring boot 依赖 <depe…

SpringMVC处理ajax请求之@ResponseBody注解,将后端数据响应到浏览器

上一篇文章讲到SpringMVC处理ajax请求用到的RequestBody注解SpringMVC处理ajax请求&#xff08;RequestBody注解&#xff09;&#xff0c;ajax向后端传递的数据格式详解-CSDN博客&#xff0c;这个注解帮我们解决了如何将客户端的数据通过json数据传递到服务器&#xff0c;简单说…

基于ARM的餐厅点餐系统的设计与实现

基于ARM的餐厅点餐系统的设计与实现 系统简介 本设计主要将 STM32F103ZET6 芯片作为无线订购系统主要控制芯片&#xff0c;分为顾客终端和厨师终端。顾客通过 LCD 显示屏浏览菜单并点击触摸屏选择自己所需菜单&#xff0c;并经过有线连接到 PC 端上位机&#xff0c;将订餐信息…