牛津大学和上海交大将SAM和Flow应用于移动目标,简单而有效,轻松分割运动目标!

news2024/11/29 8:45:19

光流可以在运动物体分割中发现运动物体并为分割提供清晰的边界。然而,如果物体暂时静止,就会面临分割挑战。

而我们知道SAM可以很好的分割静态图像对象。因此,是否可以利用SAM与光流结合来在视频中进行移动物体分割?

今天给大家介绍的这篇文章介绍并探索了两个模型,以利用SAM在视频中进行移动物体分割,使主要移动物体能够与背景运动区分开来。主要贡献有三个方面:

  • FlowI-SAM模型,利用光流作为三通道输入图像进行精确的逐帧分割和移动物体识别。

  • FlowP-SAM模型,这是RGB和流的双流数据的新颖组合,利用光流生成提示,指导SAM在RGB图像中识别和定位移动物体。

  • 在移动物体分割基准上,包括DAVIS、YTVOS和MoCA,在帧级和序列级上都取得了新的领先性能。

相关链接

项目:www.robots.ox.ac.uk/~vgg/research/flowsam

论文:arxiv.org/abs/2404.12389

代码:github.com/Jyxarthur/flowsam

论文阅读

摘要

本文的目标是运动分割——发现和分割视频中的运动物体。这是一个被广泛研究的领域,有许多谨慎的,有时甚至是复杂的方法和训练方案,包括:自监督学习,从合成数据集学习,以对象为中心的表示,模态表示等等。我们在本文中感兴趣的是确定分段任意模型(SAM)是否可以为这项任务做出贡献。

我们研究了两种将SAM与光流相结合的模型,利用了SAM的分割能力和光流发现和分组运动物体的能力。首先,我们对SAM进行调整,使其将流(而不是RGB)作为输入。在第二个模型中,SAM以RGB作为输入,flow作为分割提示符。

这些令人惊讶的简单方法,无需任何进一步的修改,在单对象和多对象基准测试中都比以前的所有方法都要好得多。我们还将这些帧级分割扩展到保持对象身份的序列级分割。同样,这个简单的模型在多个视频对象分割基准上优于以前的方法。

方法

将SAM应用于视频目标分割。

  • (a)流作为输入:flow-sam只接收光流并预测帧级分割掩码。

  • (b) flow-as-prompt: FlowP-SAM接受RGB并应用flow作为帧级分割提示符的信息。

  • (c)序列级掩码关联:作为后处理步骤,多掩码选择模块自回归从FlowI-SAM和/或FlowP-SAM转换帧级掩码输出并产生序列级掩码,其中对象标识在整个序列中是一致的。

flow-sam概述

  • (a) flow-sam的推理管道。

  • (b)体系结构带有可训练参数标记的flow - sam。生成点提示令牌由一个冻结的提示编码器。

FlowP-SAM概述

  • (a) FlowP-SAM的推理管道。

  • (b)体系结构FlowP-SAM。流提示生成器生成要注入的流提示类似sam的基于rgb的分段模块。两个模块取同一点提示令牌,从冻结的提示编码器获得。

  • (c)流量变压器的详细结构。译输入令牌作为轻量级查询的功能变压器解码器,迭代处理密集流特性。输出移动对象分数(MOS)令牌然后由基于mlp的头部处理以预测分数指示输入点提示符是否对应于移动对象。

实验

DAVIS上flow-sam方法的定性比较 (左),YTVOS(中)和MoCA(右)序列。我们的flow-sam(seq)成功地从嘈杂的光流背景中识别出运动物体(例如,鸭子第四栏)。

基于rgb的分割方法的定性比较DAVIS(左),YTVOS(中)和SegTrackv2(右)。而前面的方法 (第三行)努力解开多个移动的物体(例如,混合的金鱼,在第二列中),我们的FlowI-SAM (seq)准确地分离和分割所有移动对象。

结论

在本文中,我们通过两种方式将每帧SAM与运动信息(光流)结合起来,专注于现实世界视频中的运动目标分割:

  • (i)对于纯流分割,我们引入了直接接收的flow-sam光流作为输入;

  • (ii)对于基于rgb的分割,我们利用运动信息来生成流提示作为指导。

这两种方法在跨单对象和多对象的帧级分割中都提供了最先进的性能基准。此外,我们开发了一种基于帧的关联方法合并FlowI-SAM和FlowP-SAM的预测,实现序列级分割预测,优于所有先前在DAVIS上的方法。

这项工作的主要限制是它的运行时间长,归因于 到普通SAM中计算量大的图像编码器。然而,我们的 该方法一般适用于其他基于提示符的分割模型。 随着更有效的SAM版本的出现,我们预计会有显著的 减少推理时间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1668136.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开源web在线数据库设计软件 —— 筑梦之路

GitHub - drawdb-io/drawdb: Free, simple, and intuitive online database design tool and SQL generator. 简介 DrawDB是一款多功能且用户友好的在线工具,允许用户轻松设计数据库实体关系。通过简单直观的界面,DrawDB使用户能够创建图表、导出SQL脚本…

Spring6 的JdbcTemplate的JDBC模板类的详细使用说明

1. Spring6 的JdbcTemplate的JDBC模板类的详细使用说明 文章目录 1. Spring6 的JdbcTemplate的JDBC模板类的详细使用说明每博一文案2. 环境准备3. 数据准备4. 开始4.1 从数据表中插入(添加)数据4.2 从数据表中修改数据4.3 从数据表中删除数据4.4 从数据表中查询一个对象4.5 从数…

kafka安装及收发消息

kafka需要与zookeeper配合使用,但是从2.8版本kafka引入kraft,也就是说在2.8后,zookeeper和kraft都可以管理kafka集群,这里我们依然采用zookeeper来配合kafka。 1、首先我们下载zookeeper 下载地址为 https://zookeeper.apache.org…

openlayers实现绘制图标,并实现图标的聚合功能

点聚合说明 点聚合功能是指将地图上密集的点数据聚合成一个更大的点或者其他形状,以改善地图的可视化效果和性能。点聚合功能通常用于在地图上显示大量的点标记,例如地图上的POI(兴趣点)、传感器数据等。通过点聚合功能&#xff…

【机器学习300问】86、简述超参数优化的步骤?如何寻找最优的超参数组合?

本文想讲述清楚怎么样才能选出最优的超参数组合。关于什么是超参数?什么是超参数组合?本文不赘述,在之前我写的文章中有详细介绍哦! 【机器学习300问】22、什么是超参数优化?常见超参数优化方法有哪些?htt…

[Bug]:由于中国防火墙,无法连接 huggingface.co

问题描述 : OSError: We couldnt connect to https://huggingface.co to load this file, couldnt find it in the cached files and it looks like youscan/ukr-roberta-base is not the path to a directory containing a file named config. Json. Checkout your internet …

支持视频切片的开源物联网平台

软件介绍 MzMedia开源视频联动物联网平台是一个简单易用的系统,该平台支持主流短视频平台(如抖音、快手、视频号)的推流直播功能,同时提供视频切片等功能。系统后端采用Spring Boot,前端采用Vue3和Element Plus,消息服…

[C++初阶]string的几道oj题

1.LCR 192. 把字符串转换成整数 (atoi) 这题难度不大,我这里采取遍历跳过空格的方式,我先展示出我的代码,然后慢慢讲解: class Solution { public:int myAtoi(string str) {if (str.empty()) return 0;int lengthstr.size();int i0;int symbol1;int sum0;while(i&l…

C++组合类

类的数据成员不但可以是基本类型,也可以是其它类的对象。 组合类就是指一个类包含其他类的对象作为该类的数据成员。 当组合类创建对象时,其中包含的各个数据成员对象应首先被创建。因此,在创建类的对象时,既要对本类的基本…

2024小红书电商实战营,养号打造IP/选爆品/开店铺/爆款笔记/等等(24节)

我们非常荣幸地为大家带来2024小红书电商实战营的第一期,在这里我们将带领大家一起深入学习如何利用小红书平台,实现个人品牌的发展和商业利益的增长。 首先,我们将讨论养号的重要性以及如何打造个人品牌。无论是建立自己的受众群体还是提高…

java基础知识点总结2024版(8万字超详细整理)

java基础知识点总结2024版(超详细整理) 这里写目录标题 java基础知识点总结2024版(超详细整理)java语言的特点1.简单性2.面向对象3.分布式4.健壮性5.安全性6.体系结构中立7.可移植性8.解释性9.多线程10.动态性 初识java中的main方…

刨析YOLOv8的改进模块

1、YOLOv5回顾 这里粗略回顾一下,这里直接提供YOLOv5的整理的结构图吧:Backbone:CSPDarkNet结构,主要结构思想的体现在C3模块,这里也是梯度分流的主要思想所在的地方;PAN-FPN:双流的FPN,必须香,也必须快,但是量化还是有些需要图优化才可以达到最优的性能,比如cat前后…

【机器学习300问】87、学习率这种超参数在优化时选择随机搜索方法,为什么要在对数尺度范围进行随机搜索?

在超参数优化过程中,对数尺度范围进行随机采样对于某些类型的超参数来说是非常有效的,特别是当超参数的有效值跨越几个数量级时。学习率就是这样一种超参数,它可以从非常小(例如)到相对大的值(例如&#xf…

Java RMI SERVER命令执行漏洞

Java RMI SERVER命令执行漏洞 一、介绍二、原理三、复现准备四、漏洞复现 一、介绍 RMI全称是Remote Method Invocation(远程方法调用),是专为Java环境设计的远程方法调用机制,远程服务器提供API,客户端根据API提供相…

57. 【Android教程】相机:Camera

相机现在已经不仅仅是手机必备神器了,甚至相机的拍照质量已经是很多人买手机的首选条件了。而对于相机而言主要有两大功能:拍照片和拍视频。Android 为此两种方式: 相机 intent相机 API 本节我们就一起来看看相机的具体用法。 1. 打开 Camer…

STC8增强型单片机开发day03

中断系统INT 中断的概念 中断系统是为使 CPU 具有对外界紧急事件的实时处理能力而设置的。 当中央处理机 CPU 正在处理某件事的时候外界发生了紧急事件请求,要求 CPU 暂停当前的工作,转而去处理这个紧急事件,处理完以后,再回到原来被中断的…

鸿蒙内核源码分析(共享内存) | 进程间最快通讯方式

运行机制 共享好端端的一词,近些年被玩坏了,共享单车,共享充电宝,共享办公室,共享雨伞… 甚至还有共享女朋友,真是人有多大胆,共享有多大产。但凡事太尽就容易恶心到人,自己也一度被 共享内存 恶心到了&am…

南京信工一班IP(2)

第六章,BGP—边界网关协议 自治系统—AS ​ 定义:由一个单一的机构或组织所管理的一系列IP网络及其设备所构成的集合。 ​ AS的来源: 整个网络规模过大,会导致路由信息收敛速度过慢,设备对相同目标认知不同。AS之间…

python算法demo0512

最长回文数 代码 class Solution:def longestPalindrome(self, s: str) -> str:n len(s)if n < 2:return smax_len 1begin 0# dp[i][j] 表示 s[i..j] 是否是回文串dp [[False] * n for _ in range(n)]for i in range(n):dp[i][i] True# 递推开始# 先枚举子串长度fo…

iview(viewUI) span-method 表格实现将指定列的值相同的行合并单元格

效果图是上面这样的&#xff0c;将第一列的名字一样的合并在一起&#xff1b; <template><div class"table-wrap"><Table stripe :columns"columns" :data"data" :span-method"handleSpan"></Table></div&…