CVPR 2022 视频全景分割新 Benchmark:VIPSeg

news2025/1/9 11:58:40

关注公众号,发现CV技术之美

今天向大家分享 CVPR 2022 论文『Large-scale Video Panoptic Segmentation in the Wild: A Benchmark』,介绍一个新的视频全景分割(Video Panoptic Segmentation)领域 Benchmark:VIPSeg。

05f57d9d6a355f12a86437ed01c4f8e2.png

  • 论文链接:https://openaccess.thecvf.com/content/CVPR2022/papers/Miao_Large-Scale_Video_Panoptic_Segmentation_in_the_Wild_A_Benchmark_CVPR_2022_paper.pdf

  • 项目链接:https://github.com/VIPSeg-Dataset/VIPSeg-Dataset/

      01      

前言

作者提出了一个新的视频全景分割(Video Panoptic Segmentation)领域 Benchmark:VIPSeg,与其他视频全景分割数据相比,VIPSeg有着数据量更多(3536个视频),场景更齐全(232个场景,124个类别)的优点。同时,作者也设计了一种基于切分短片(clip)的视频全景分割框架,在VIPSeg上达到了Sota性能。

      02      

VIPSeg数据集介绍

VIPSeg数据集共包含3536个视频,84750帧。并且均匀分布232个现实复杂野外场景。每个视频长度在3s~10s不等,帧间隔为 5fps。

VIPSeg与其他VPS数据集的对比如下表所示,可以明显看出VIPSeg的数据更多更丰富。

3ddedf51e7651154a2290b5ea463bf40.png

VIPSeg数据集各类别分布如下,可以看出各类别实例数量分布均匀,并没有很严重的长尾现象。

147047a14b31604152abd4a88000ee4f.png

数据集中共包含124个类别,其中58个类为things(易于区分instance的,如:人,狗),66个类为stuff(不易区分instance,如:天空、草地)。

caf3becd6db46ad3f192b7b9466ea1b7.png

VIPSeg数据集的标注流程分为两个阶段,分别为Sparse Annotation and Tracking Loop 与 Dense Pixel-label Propagation Loop。

4c91a8a57cb80162f785c51fdc1ede75.png

Sparse Annotation and Tracking Loop:稀疏标注阶段

在第一个阶段,作者先通过人工标注第一帧,再通过最先进的目标跟踪算法(AOT)获取 1 fps 的视频稀疏标注结果,再通过人工对此结果进行修正。

Dense Pixel-label Propagation Loop:稠密传播阶段

在第二个阶段,作者在 1 fps 的基础上 通过 AOT 对 Mask 进行传播,从而获取 5 fps 的 视频全景标注结果,再通过人工修正的方式对传播的结果进行修正。

      03      

基于Clip的视频全景分割方法

作者提出一个新的视频全景分割算法:ClipPanoFCN,基于对视频进行划分片段,先实现片段内的全景分割再全局规整的方法,实现了新的Sota 性能。

f2943d77d65db7c98c593ea980475c7e.png

具体的,作者先将视频划分为不重叠的片段:Clip k,Clip k + 1...,再对每个片段分别进行全景分割。

Frame-level Modelling:帧级建模

在每一个Clip中,作者通过FPN对每一帧图像信息进行提取,再通过卷积层预测实例(things)的中心和非实例(stuff)的区域,以及每个像素点的类别置信度。最后通过在实例(things)中心附近选取置信度高的类别或者在非实例(stuff)区域通过求平均来获取最终的分割结果

Clip-level Aggregation:片段内整合

为了将图像级全景分割模型有效地应用于视频级,作者通过平均聚类的方法去除了多余标签,并且保证了片段内标签一致性。

Inter-clip Tracking:片段间整合

为了保持片段间标签的一致性,作者以一种类似于后处理的方法,通过计算不同片段间标签 Kernal 的相似度来聚合不同片段的结果。

基于Clip的视频全景分割方法,可以有效实现Clip内部的不同帧间信息交互,获取更好的标签特征Kernal,同时,不同Clip的视频可以并行处理,互不干扰,增加了实际应用时分割的速度。

      04      

实验

作者在自己提出的VIPSeg数据集上进行了验证,并与前人方法进行了比较。

9c7bb60e5281978781c2a28889ca4363.png

可以看出,ClipPanoFCN在两个指标(VPQ、STQ)上都取得最优性能。

      05      

结论

该文提出了一个新的大规模视频全景分割数据集:VIPSeg,提供了大规模的现实多场景下像素级全景标注。并且提出了一种新的基于Clip划分的视频全景分割算法,将视频分为多个片段,并行处理各片段并且整合各片段获取最终分割结果。

d853ed93000abe9370ef8f77432f37dd.jpeg

END

欢迎加入「全景分割交流群👇备注:VPS

0cbf53409e70292bc5d685c4e89469fe.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/50655.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GB/T 10707 橡胶燃烧性能

GB/T 10707:Rubber-Determination of the burning GB/T 10707:橡胶燃烧性能的测定 GB/T 10707橡胶燃烧性能的测定–适用范围: 本标准规定了在实验室环境下测定橡胶燃烧性能的两种方法:氧指数法和垂直燃烧法 本标准适用于在实验…

云原生丨MLOps与DevOps的区别

MLOps 是机器学习 (ML) 工程的很重要的一个部分,专注于简化和加速将 ML 模型交付到生产以及维护和监控它们的过程。 MLOps 涉及不同团队之间的协作,包括数据科学家、DevOps 工程师、IT 专家等。 MLOps 可以帮助组织创建和提高其 AI 和机器学习解决方案…

卧式钢筋切割机设计

目 录 1 绪论 1 1.1 国内外钢筋切割技术的发展状况 1 1.2 冷轧带肋钢筋的概述 2 1.2.1 钢筋的种类 2 1.2.2 冷轧带肋钢筋的表面形式 3 1.2.3 冷轧带肋钢筋基本性能 3 1.3 课题的提出和意义 4 2 对钢筋类金属材料弹塑性弯曲的分析 4 2.1 概述 5 2.2 弹塑性弯曲的变形过程 6 3 切…

再次安装torch踩过的坑

没有多余空间 我用conda 从新创建了一个项目环境,安装了一些基础的库。然后当我下载安装torch的时候,报错说安装的空间不足,我看了一下,torch确实比较大,一个多G,但是之前也没有出现过这个问题。 一开始以…

python中如何打印日志信息

日志打印方式 常见的Python日志打印方式为使用内置函数print()或者logging模块打印日志。 print()只能将日志打印至控制台,不推荐此方式logging模块默认将日志打印至控制台,也可以配置打印到指定日志文件,推荐使用此方式 logging模块 日志…

[附源码]JAVA毕业设计高速公路服务区管理系统(系统+LW)

[附源码]JAVA毕业设计高速公路服务区管理系统(系统LW) 目运行 环境项配置: Jdk1.8 Tomcat8.5 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项…

二分查找 binarySearch 适合初学分析的例子

递归代码&#xff1a; #include <cstdio> #include <algorithm> #define MAX 5 using namespace std;int binarySearch(int x,int a[],int left,int right);int main() {int a[MAX]{1,3,4,5,9};printf("find %d location is %d\n",4,binarySearch(4,a,0…

Sap中的RFC接口

文章目录1 Definition2 Call process3. Communication4 Communication module5 RFC version .6 RFC and Web service7 Remote object maintain8 Call RFC9 Summary1 Definition 2 Call process 3. Communication 4 Communication module 5 RFC version . 6 RFC and Web service…

Linux驱动: rtc子系统

1. 前言 限于作者能力水平&#xff0c;本文可能存在的谬误&#xff0c;因此而给读者带来的损失&#xff0c;作者不做任何承诺。 2. 背景 本文分析代码基于Linux 3.10内核&#xff0c;硬件平台为嵌入式ARM32平台. 3. rtc子系统 3.1 相关代码文件列表 drivers/rtc/class.c …

代码文档

为您的团队和您未来的自己代码文档。 Intuition 代码告诉你_怎么_做&#xff0c;注释告诉你_为什么_。——杰夫阿特伍德 可以通过代码文档来进一步组织代码&#xff0c;让其他人&#xff08;以及未来的自己&#xff09;更容易轻松地导航和扩展它。在完成编写代码库的那一刻就最…

HTML+CSS大作业:众志成城 抗击疫情 抗击疫情网页制作作业 疫情防控网页设计

&#x1f389;精彩专栏推荐 &#x1f4ad;文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业&#xff1a; 【&#x1f4da;毕设项目精品实战案例 (10…

某金融机构身份国产化LDAP创新实践——国产自主可控 LDAP目录服务建设经验分享

一、项目背景 自2019年以来&#xff0c;金融行业信创发展进程加快。从2020年一期试点的47家到2021年二期试点198家&#xff0c;2022年三期试点启动的同时也进入全面推广阶段&#xff0c;试点范围由大型银行、证券、保险等机构向中小型金融机构渗透&#xff0c;涉及全行业5000余…

怎么架设魔兽世界服务器?

怎么架设魔兽世界服务器&#xff1f; 准备工具&#xff1a; 1、装有windows98/2000/xp/2003系统、内存至少256M的电脑一台 2、魔兽服务器端一个 3、mysql4.0.2&#xff08;不要用最新的5.0&#xff0c;有问题&#xff09; mysql-control-center0.9.4 MyODBC-standard-3.5…

Kamiya丨Kamiya艾美捷人β2-微球蛋白ELISA说明书

Kamiya艾美捷人β2-微球蛋白ELISA预期用途&#xff1a; 人β2-微球蛋白ELISA是一种高度敏感的双位点酶联免疫测定&#xff08;ELISA&#xff09;人类生物样品中β2-微球蛋白的定量测定。仅供研究使用。 β2-微球蛋白&#xff08;B2M&#xff09;是一种11 kDA蛋白。它形成MHC I…

acwing基础课——DFS

由数据范围反推算法复杂度以及算法内容 - AcWing 常用代码模板3——搜索与图论 - AcWing 基本思想&#xff1a; 深度优先搜索算法&#xff08;Depth First Search&#xff0c;简称DFS&#xff09;&#xff1a;一种用于遍历或搜索树或图的算法。 沿着树的深度遍历树的节点&…

Java HashMap 在获得 Key 的 Hash 值的时候用的是什么算法

Java 在 HashMap Key 的 Hash 值的时候用的的是自己 Object 中的 hashCode() 算法。 返回的结果是一个整数值。 如果你查看 JDK 的源代码的话&#xff0c;在 HashMap 类中会有下面的这个方法。 public final int hashCode() {return Objects.hashCode(key) ^ Objects.hashCod…

nRF52笔记(26)QSPI接口液晶显示屏

1 平台条件 硬件&#xff1a;nrf52840 软件&#xff1a;sdk17.0 2 QSPI概述 QSPI 外设支持使用 SPI 与外部闪存设备进行通信 此处列出了 QSPI 外设的主要特性&#xff1a; • 单/双/四通道 SPI 输入/输出 • 2–32 MHz 可配置时钟频率 • 从/到外部闪存的单字读/写访问 • …

亚马逊哪些因素会影响转化率,如何才能做得更好(测评)

作为亚马逊卖家和运营&#xff0c;你有没考虑过亚马逊的转化率是由哪些因素影响的呢&#xff1f;要怎么去做改变&#xff1f; 下面我总结了七个能影响亚马逊转化率因素给大家做参考。 第一点&#xff1a;图片 首先要求像素不低于1000才能有放大镜功能。从数据来看主图和第二…

Batocera(巴托塞拉)技巧记录集合

目录指引技巧&#xff1a; 直接在虚拟机插上你的BatoceraU盘&#xff08;硬盘&#xff09;玩&#xff0c;不用重启引导。1&#xff0c;安装虚拟机2&#xff0c;设置游戏盘启动a&#xff0c;查看磁盘的物理编号。b&#xff0c;创建usb的引导文件c&#xff0c;添加游戏盘USB盘3&a…

[附源码]Python计算机毕业设计Django的小区宠物管理系统

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…