CVPR24已开源:刷新监督学习SOTA,无监督多目标跟踪时代来临!

news2025/1/8 21:36:52

论文标题:

Matching Anything by Segmenting Anything

论文作者:

Siyuan Li, Lei Ke, Martin Danelljan, Luigi Piccinelli, Mattia Segu, Luc Van Gool, Fisher Yu

导读:

在计算机视觉的征途中,多目标跟踪(MOT)扮演着至关重要的角色,尤其是在自动驾驶等前沿技术领域。然而,现有技术大多受限于特定领域的标注视频数据集,这不仅限制了模型的泛化能力,也增加了应用成本。本文介绍的MASA(Matching Anything by Segmenting Anything)方法,以其创新的无监督学习策略,为多目标跟踪领域带来了革命性的突破。©️【深蓝AI】编译

1. 背景简介

多目标跟踪是计算机视觉领域的核心问题之一,对于自动驾驶等众多机器人系统至关重要。在视频序列中,MOT的目标是识别并追踪感兴趣的对象,确保它们在不同帧之间的连续性。尽管最近在视觉基础模型方面取得了显著的进步,这些模型在目标检测、分割和深度估计方面表现出色,但在视频序列中实现目标的准确关联仍然是一个技术挑战。

在这里插入图片描述
▲图1|给定任意领域的无标注图像,对原始图像和SAM的实例分割结果应用强数据增强,获得两个具有像素级对应关系的视图作为模型输入。然后,利用密集相似度学习,获得实例级对应关系。最后,通过基于SAM的基础分割模型,来实现对任一对象的跟踪能力。©️【深蓝AI】编译

2. 方案提出

最近效果卓越的多目标跟踪方法突出了学习区分性实例嵌入的重要性,这对于确保目标在不同帧中的准确关联至关重要。然而,开发有效的目标关联算法通常依赖于大量的标注数据。虽然在静态图像集上收集目标检测的标签已经是一项艰巨的任务,但在视频数据上获取跟踪标签则更加困难。因此,现有的MOT数据集往往集中在少数固定类别或具有有限标注帧的特定领域对象上。这种数据集的限制性导致了跟踪模型在跨领域和新概念上的泛化能力受限。

另外,尽管近期的研究已经在目标检测和分割的模型泛化方面取得了一定的进展,但开发一个能够泛化到任何目标的通用关联模型仍然是一个未解决的挑战。这需要进一步的研究和创新,以克服现有数据集的局限性,并开发出能够适应多样化场景和目标的跟踪算法。

本文作者的目标是开发一种能够适应任何目标或领域的匹配方法,旨在将这种通用的跟踪技术整合到各种检测和分割算法中。通过这一整合,作者希望提升这些算法跟踪它们所识别目标的能力。

3. 方法详析

■3.1 预备知识:SAM

SAM由三个模块组成:

●图像编码器:一个基于ViT的重型骨干网络,用于特征提取。

●提示编码器:对交云点、框或蒙版提示的位置信息进行建模。

●蒙版解码器:一个基于变换器的解码器,接收提取的图像嵌入和连接的提示标记,用于最终的蒙版预测。

为了生成所有可能的蒙版候选区域,SAM采用密集采样的规则网格作为点锚点,并为每个点提示生成蒙版预测。完整的流程包括使用贪婪的基于框的NMS的块裁剪、三步过滤和蒙版上的重后处理。

在这里插入图片描述
▲图2|MASA训练流程。给定任意领域的无标注图像,SAM自动为其生成实例掩码。然后对原始图像和实例分割结果应用强数据增强变换ϕ(·)和φ(·),获得两个不同视图作为模型输入。通过联合SAM检测知识蒸馏和实例相似度学习来训练MASA Adapter。©️【深蓝AI】编译

■3.2 MASA

◆MASA核心流程

为了学习实例级的对应关系,早前的研究严重依赖于手动标注的域内视频数据。然而,当前的视频数据集只包含有限范围的固定类别。这种数据集的有限多样性导致学习的外观嵌入是为特定领域定制的,在其普遍泛化方面存在挑战。

UniTrack通过对原始图像或视频进行对比自监督学习技术,展示了可以学习通用的外观特征。这些表示利用大量未标注图像的多样性,可以在不同的跟踪领域中泛化。然而,它们通常依赖于干净、以物体为中心的图像,如ImageNet中的图像,或如DAVIS17中的视频,并专注于帧级相似性。这种专注使它们无法充分利用实例信息,导致在包含多个实例的复杂领域中难以学习到区分性的实例表示。

为了解决这些问题,作者提出了MASA训练流程。核心思想是从两个方面增加多样性:训练图像的多样性和实例的多样性。作者首先构建了一个来自不同领域的丰富的原始图像集合,以防止学习到特定领域的特征。这些图像还包含复杂环境中的大量实例,以增强实例多样性。给定图像I,通过对同一图像采用两种不同的增强方法来模拟视频中的外观变化。通过应用强数据增强ϕ(I)和ϕ(I),构建了I的两个不同视图V1和V2,从而自动获得像素级对应关系。

如果图像是干净的且只包含一个实例,如ImageNet中的图像,可以应用帧级相似性。然而,对于包含多个实例的图像,作者需要进一步挖掘这些原始图像中包含的实例信息。基础的分割模型SAM提供了这种能力。SAM自动将属于同一实例的像素分组,还提供了检测到的实例的形状和边界信息,这对于学习区分特征非常有价值。

◆MASA Adapter

MASA Adapter旨在将现有的开放世界分割和检测模型(如SAM、Detic和Grounding-DINO)扩展到对象跟踪任务中。MASA Adapter与这些模型的冻结骨干特征协同工作,确保其原有的检测和分割能力得以保留。但并非所有预训练的特征都适合跟踪,因此研究者首先需要将这些冻结的骨干特征转换为更适合跟踪的新特征。

鉴于物体形状和大小的多样性,作者构建了一个多尺度特征金字塔。对于像Detic和Grounding-DINO这样的层次化骨干(如Swin Transformer),直接使用FPN(特征金字塔网络)。对于使用平原ViT(Vision Transformer)骨干的SAM,通过转置卷积和最大池化对单尺度特征进行上采样和下采样,生成比例为1/4、1/8、1/16、1/32的层次化特征。为了有效学习不同实例的判别特征,需要使一个位置的对象能够感知其他位置实例的外观。因此,使用可变形卷积生成动态偏移,并在空间位置和特征层次上聚合信息。

对于基于SAM的模型,作者还引入了Dyhead模型中的任务感知和尺度感知注意力机制,因为检测性能对于自动生成蒙版非常重要,如图3(b)所示。在获取转换后的特征图后,通过对视觉特征应用RoI-Align(区域兴趣对齐)提取实例级特征,然后通过一个由4个卷积层和1个全连接层组成的轻量级跟踪头部处理,生成实例嵌入。

此外,作者引入了一个目标先验蒸馏分支,作为训练期间的辅助任务。该分支使用标准的RCNN检测头部学习包围每个实例的SAM蒙版预测的边界框。这有效地从SAM中学习了详尽的目标位置和形状知识,并将这些信息蒸馏到转换后的特征表示中。这一设计不仅增强了MASA Adapter的特征,从而提高了关联性能,还通过直接提供预测的框提示加速了SAM的everything模式。

在这里插入图片描述
▲图3|统一模型的推理流程©️【深蓝AI】编译

◆推理

作者展示了MASA Adapter的统一模型的测试流程,如图3所示。当将MASA Adapter与目标检测器结合使用时,在训练过程中学习的MASA检测头会被移除。此时,MASA Adapter仅作为一个跟踪器使用。检测器预测边界框,然后利用这些边界框提示MASA Adapter,MASA Adapter检索相应的跟踪特征以进行实例匹配。为了实现精确的实例匹配,本文采用了一种简单的双Softmax最近邻搜索方法。

4. 实验

本文将MASA与现有的监督学习方法进行了对比测试。在多个挑战性基准上,MASA的表现优于或媲美当前最先进的监督学习方法。例如,在TAO Track mAP基准测试中,MASA Adapter的零样本模型性能显著优于许多完全监督学习的模型。在Open-vocabulary MOT基准测试中,MASA Adapter在Base和Novel类别上都显示出更高的跟踪性能。

在这里插入图片描述
▲表1|在TAO TETA基准测试上的最新对比结果©️【深蓝AI】编译

在这里插入图片描述
▲表2|在开放词汇多目标跟踪基准测试上的最新对比结果©️【深蓝AI】编译

在这里插入图片描述
▲表3|在TAO Track mAP基准测试上的最新对比结果©️【深蓝AI】编译

在这里插入图片描述
▲表4|在BDD MOTS基准测试(验证集)上的最新对比结果©️【深蓝AI】编译

在这里插入图片描述
▲表5|在BDD MOT基准测试(验证集)上的最新对比结果©️【深蓝AI】编译

在这里插入图片描述
▲表6|与视频物体分割(VOS)方法的比较©️【深蓝AI】编译

在这里插入图片描述
▲表7|与基于自监督学习的方法的比较©️【深蓝AI】编译

在这里插入图片描述
▲表8|训练策略和模型架构的影响©️【深蓝AI】编译

在这里插入图片描述
▲表9|不同数据增强策略、候选区建议质量和数量的消融研究©️【深蓝AI】编译

在这里插入图片描述
▲图4|(a) 在UVO数据集上的定量结果;(b) 将推理时间(秒)与原始SAM进行比较,通过采样不同数量的提示点©️【深蓝AI】编译

在这里插入图片描述
▲图5|统一模型Ours-Grounding-DINO(顶部)和Ours-SAM-H(底部)的定性结果。使用SAM-H基于检测到的边界框生成掩码©️【深蓝AI】编译

5. 结论

MASA的提出不仅在技术上实现了重大突破,还为自动驾驶、视频监控、机器人视觉等领域的应用提供了新的可能性。通过无监督学习方式,MASA从未经标记的图像中提取知识,展现出强大的零样本关联能力,预示着多目标跟踪技术新时代的到来。

编译|Deep 蓝同学

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1872407.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

武汉凯迪正大—漆包圆线软化击穿试验仪 漆包线检测仪器

产品功能 武汉凯迪正大电气有限公司生产KDZD-JC软化击穿试验仪用于检测3.00mm及以下漆包线在热状态下漆膜软化后的绝缘性能,根据设定的预热温度、试验时间、仪器自动完成对试样的预加热、加负荷、加试验电压,达到试验时间或试样被击穿时即卸负荷&#x…

您渴望提升交易技能吗?

您渴望提升交易技能吗?Eagle Trader就是您的理想选择!我们精心设计了多样化的挑战,配备真实数据模拟交易环境,让您轻松精进交易技术。更有精选交易工具和卓越服务助您一臂之力,优化策略,洞察市场&#xff0…

锂电池的串并联特性

1节锂电池电芯的规格是10000mah,4v(总能量10000*4) 那么3节电芯串联电池的规格是10000mah,12v(总能量10000*12)注意,这里电池的规格不是30000mah 3节电芯并联的规格是30000mah,4v …

【数据采集】亮数据浏览器、亮网络解锁器实战指南

前言 继上次我们写了数据采集与AI分析,亮数据通义千问助力跨境电商前行的文章之后,好多小伙伴来后台留言,表示对亮数据的数据采集非常感兴趣,并且感觉用起来非常顺手,大大减少了小白用户获取数据的成本。 在这儿&…

Redis和PHP的Bitmap于二进制串的相互转换

Redis和PHP的Bitmap于二进制串的相互转换 场景 错题集的存储,需要有正确的题号id集合,错误的题号id集合,两者并集后在全量题的集合中取反就是未答题号id 选型 基于场景的数据结构设计,有试过列表等,测试结果&#xff1…

Debian linux忘记root密码如何重置

重启电脑, 到下图再按 e 键 在页面中可以看到有个ro的行,在ro行的尾部,添加 rw init/bin/bas 3. ctrl X 启动系统,最后会进入命令行模式 4. 重设root密码,输入命令 passwd root,按照提示输入新密码并确认 5. 重启系…

Spring项目报错解读与全部报错详解

你好,我是Qiuner. 为帮助别人少走弯路和记录自己编程学习过程而写博客 这是我的 github https://github.com/Qiuner ⭐️ ​ gitee https://gitee.com/Qiuner 🌹 如果本篇文章帮到了你 不妨点个赞吧~ 我会很高兴的 😄 (^ ~ ^) 想看更多 那就点个关注吧 我…

智能语音热水器:置入NRK3301离线语音识别ic 迈向智能家居新时代

一、热水器语音识别芯片开发背景 在科技的今天,人们对于生活品质的追求已不仅仅满足于基本的物质需求,更渴望通过智能技术让生活变得更加便捷、舒适。热水器作为家庭生活中不可或缺的一部分,其智能化转型势在必行。 在传统热水器使用中&#…

ProfibusDP主站转Modbus模块连接称重仪配置案例

在工业自动化领域,常常需要将不同协议的设备进行连接。比如,将ProfibusDP主站转Modbus模块(XD-MDPBM20)用于连接称重仪,可以实现不同设备之间的数据交换和通信。ProfibusDP主站转Modbus网关(XD-MDPBM20&…

一站式AI服务平台:MaynorAI助您轻松驾驭人工智能

一站式AI服务平台:MaynorAI助您轻松驾驭人工智能 在当前的数字化时代,人工智能(AI)技术已经成为推动各行各业创新发展的核心动力。为了更好地满足企业和个人用户对AI服务的需求,MaynorAI 作为一个领先的一站式调用国内…

万物皆可爬——亮数据代理IP+Python爬虫批量下载百度图片助力AI训练

💂 个人网站:【 摸鱼游戏】【神级代码资源网站】【导航大全】🤟 一站式轻松构建小程序、Web网站、移动应用:👉注册地址🤟 基于Web端打造的:👉轻量化工具创作平台💅 想寻找共同学习交…

我用低代码平台自己搭建了一套MES应用系统,1天搞定!

MES系统是什么 MES系统是一套面向制造企业车间执行层的生产信息化管理系统。它能够为操作人员和管理人员提供计划的执行、跟踪以及所有资源(包括人、设备、物料、客户需求等)的当前状态。通过MES系统可以对从订单下达到产品完成的整个生产过程进行优化管…

2024年6月大众点评深圳餐饮店铺POI分析18万家

2024年6月大众点评深圳餐饮店铺POI共有178720家 店铺POI点位示例: 店铺id G9TSD2JvdLtA7fdm 店铺名称 江味龙虾馆(南山店) 十分制服务评分 8.8 十分制环境评分 8.8 十分制划算评分 8.6 人均价格 128 评价数量 12840 店铺地址 南山大道与桂庙路交叉口西北角…

vue3 【提效】使用 CSS 框架 UnoCSS 实用教程

该换种更高效的方式写 CSS 啦&#xff0c;举个例&#xff1a; <div class"flex"> </div>相当于 <div class"flex"> </div> <style> .flex {display: flex; } </style>当然&#xff0c;还有超多强大的功能帮我们提升…

MySQL事务:ACID特性的实现原理

事务是MySQL等关系型数据库区别于NoSQL的重要方面&#xff0c;是保证数据一致性的重要手段。本文将首先介绍MySQL事务相关的基础概念&#xff0c;然后介绍事务的ACID特性&#xff0c;并分析其实现原理。 一、基础概念 事务&#xff08;Transaction&#xff09;是访问和更新数…

大数据之FlinkCDC

最近在做FLinkCDC数据实时同步的数据抽取处理 目标: 将源端系统Oracle数据库的实时数据通过FLINKCDC的形式抽取到Doris中 问题: 在抽取的过程中,如果表的数据量太大,抽取超过30张表以后,所有的任务大概运行25~30分钟以后,所有的任务的状态会从running 变为 Failed. 解决方案…

RAG开发中常见的12个痛点及解决方案

受到 Barnett 等人论文《构建检索增强生成系统的七大挑战》启发&#xff0c;本文将探讨论文中提及的七大挑战及在开发 RAG&#xff08;检索增强生成&#xff09;流程中常遇到的五个额外难题。更为重要的是&#xff0c;我们将深入讨论解决这些 RAG 难题的策略&#xff0c;以便我…

综合IT运维管理解决方案

综合IT运维管理解决方案 在信息化和数字化高速发展的时代&#xff0c;企业的IT运维管理已经成为保障业务连续性和提升运营效率的关键环节。高效的IT运维管理不仅能够降低运维成本&#xff0c;还能提升服务质量和用户满意度。本文将详细介绍综合IT运维管理解决方案&#xff0c;…

照明物联网:基于网关的智能照明云监控系统解决方案

智能照明系统就是利用物联网技术&#xff0c;将同一空间的照明、空调、新风、排风等系统共同接入物联网平台&#xff0c;实现了“设备互联、数据互通”的智慧物联能力。照明数据、环境监测数据通过网关上传云端&#xff0c;在云端进行统计分析并将结果通过各种终端共享&#xf…

【资源】太绝了!整整16本Python必看书籍详细讲解,适合零基础小白,高清电子版PDF开放下载,带你从入门到入土~

小编为初学Python的朋友们汇总了16本零基础入门书籍&#xff0c;包括Python三剑客等&#xff0c;都是在编程届多年畅销的书籍&#xff0c;也是众多从业者的选择&#xff0c;全文详细介绍了书籍主要内容&#xff0c;有需要的宝子根据自身情况自取 【教程领取方式在文末&#xff…