Meta再下一城:SAM 2

news2024/11/25 16:33:36

 

--->更多内容,请移步“鲁班秘笈”!!<---

“继用于图像的Meta Segment Anything Model (SAM)取得成功之后,我们发布了SAM 2,这是一种用于在图像和视频中实时进行对象分割的统一模型,已经达到最先进的性能。” 模型适用于增强现实(AR)、虚拟现实(VR)、机器人、自动驾驶车辆和视频编辑等需要时间定位的应用。

SAM

分割是计算机视觉的重要组成部分,用于识别哪些图像像素属于物体。它在各种现实世界场景中都有应用,从分析科学图像到编辑照片。最早在2023年,Meta宣布了Segment Anything项目,发布了Segment Anything模型 (SAM) 和Segment Anything 1B的MaskLet数据集 SA-1B,以加速该领域的研究。

Meta发布的Segment Anything Model 2 (SAM 2)比原来的SAM更准确,速度快六倍。目前支持视频和图像中的对象分割。它专为图像和视频中的对象分割而设计,通过支持实时处理和zero-shot的泛化、可提示的模型架构,在处理复杂的视觉数据方面表现出色。

SAM 2的主要特点:

  • SAM 2可以分割以前从未遇到过的物体,表现出强大的零样本泛化能力。它在17个零样本视频数据集的交互式视频分割方面明显优于以前的方法,并且需要的人工交互大约减少三倍。

  • SAM 2在其23个数据集的零样本基准测试套件上优于SAM,同时速度快 6倍。

  • 与之前最先进的模型相比,SAM 2在现有的视频对象分割基准测试(DAVIS、MOSE、LVOS、YouTube-VOS)方面表现出色。

  • 模型实现了实时推理速度,每秒处理大约44帧。这使得SAM 2适用于需要即时反馈的应用,例如视频编辑和增强现实。

  • 用于视频分割注释的SAM 2比使用SAM进行手动每帧注释快 8.4倍。

SAM 2在Apache 2.0许可下可用,因此任何人都可以在SAM 2模型之上构建自己的体验。目前Meta已经开放如下资料:

  • SAM 2代码和权重在宽松的Apache 2.0许可证下。

  • BSD-3许可证下的 SAM 2评估代码。

  • SA-V数据集,包括 ~51k真实世界视频和超过600k个Masklet,采用 CC BY 4.0许可。

上面的表格为本次使用的数据集和开源VOS数据集的对比,比较的维度又视频数量、持续时间、掩码数量、掩码、帧数和消失率。SA-V Manual仅包含手动注释的标签。SA-V Manual+Auto将手动注释的标签与自动生成的掩码相结合。

模型架构

下图为SAM2的框架,希望通过使用基础模型 (b) 解决交互式的视觉分割任务 (a),这个模型是在数据引擎 (c) 上面采集到的大规模SA-V的数据集上训练而成。SAM 2通过流式存储存储先前的Prompt和预测结果,进而达到能够通过一个或多个视频帧上的Prompt(点击、框或蒙版)的方式分割区域<形成遮罩!>。

下图为一个具体的例子,先在视频的第一帧中对目标对象进行Prompt以获得该对象的分割结果。绿色点表示正提示(正向提示,表示对象的一部分),红色点表示负提示(负向提示,表示不是对象的一部分)。SAM 2 会自动将分割结果传播到后续帧(用蓝色箭头表示),形成一个MaskLet(绿色部分)。如果SAM 2在某一帧后(例如第 2 帧之后)失去了对对象的跟踪,可以在新帧中提供额外提示(红色箭头),以纠正MaskLet。

第3帧中只需一次点击即可恢复对象,并将其传播以获得正确的 MaskLet。与独立的SAM +视频跟踪器方法相比这种方法更高效。传统方法在第3帧中需要多次点击以重新注释对象。SAM 2的记忆功能使得仅需一次点击即可恢复对象(如舌头)的分割结果。这种能力在处理视频中的对象不仅减少了用户的操作次数,还能在对象跟踪失效时快速精校。

若从模型架构上来解释的话,对于给定帧分割预测取决于当前提示和/或先前观察到的记忆。视频以流式方式处理,图像编码器(绿色)一次消耗一个帧,并与先前帧中的目标对象的记忆(粉色)交叉关注<蓝色部分,Cross-Attention,其本质上也是利用了多层的Transformer堆叠>。掩码解码器(橙色)(也可以选择接受输入提示)进行当前帧的分割遮罩预测。

上图为标注过程,每个过程都有自己的标注器,跟踪,识别错误,持续校正

与之前的工作进行比较,SAM 2在给出第1帧的真实遮罩之后进行的视频分割方面表现良好,尤其在准确度(J &F、G)和速度(FPS)方面。所有 FPS 估计值均基于A100 GPU。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1962647.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

npm创建vue的ts项目

一、进入项目文件夹 使用cmd进入你想要创建项目的文件夹&#xff0c;此处为 E盘的test文件夹 cd E:\testE:二、创建项目 此处项目名为 MyTestProject npm create vitelatest输入上述代码&#xff0c;回车后会出现灰色的虚拟名称&#xff0c;此处输入你自己的名称即可&#…

软件平台化开发项目实践

汉捷咨询有40多位来自多家著名企业&#xff08;华为、中兴、三星等&#xff09;的咨询顾问和讲师&#xff0c;资深顾问/项目经理均有华为、中兴等领先企业高管及咨询实践15年以上经验&#xff0c;本文为汉捷一IPD资深顾问的行业实践总结&#xff0c;与各位同仁分享&#xff01;…

WPF用户登录界面设计-使用SQLite数据库进行存储

一、SQLite数据库介绍 SQLite是一款轻量级的关系型数据库&#xff0c;它小巧高效&#xff0c;无需服务器配置&#xff0c;仅需单一文件即可存储数据。SQLite跨平台支持&#xff0c;易于集成到各种应用程序中&#xff0c;并支持SQL语言进行数据操作。它保证了数据的完整性、一致…

Java数据结构和算法中文版(第2版)详细教程

前言 数据结构是指数据在计算机存储空间中(或磁盘中)的安排方式。算法是指软件程序用来操作这些结构中的数据的过程。几乎所有的计算机程序都使用数据结构和算法&#xff0c;即使最简单的程序也不例外。比如设想一个打印地址标签的程序&#xff0c;这个程序使用一个数组来存储…

整理几个常用的Linux命令(Centos发行版)

如果工作中需要经常整理一些文档&#xff0c;需要汇总一下&#xff0c;现有的服务器资源信息&#xff0c;那么这篇文章适合你&#xff1b; 如果你是一名开发者&#xff0c;需要经常登录服务器&#xff0c;排查应用的出现的一些问题&#xff0c;那么这篇文章适合你&#xff1b;…

使用java判断字符串中是否包含中文汉字

1.导入huool工具的maven依赖 <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.8.16</version></dependency>2.复制一下代码直接运行 import cn.hutool.core.lang.Validator;public …

面向对象 - 概述、类的创建、 实例化与内存解析

一、学习面向对象的三条主线 Java类及类的成员&#xff1a;&#xff08;重点&#xff09;属性、方法、构造器&#xff1b;&#xff08;熟悉&#xff09;代码块、内部类面向对象的特征&#xff1a;封装、继承、多态、&#xff08;抽象&#xff09;其他关键字的使用&#xff1a;…

机械学习—零基础学习日志(高数16——函数极限性质)

零基础为了学人工智能&#xff0c;真的开始复习高数 这里我们继续学习函数极限的性质。 局部有界性 充分条件与必要条件 极限存在是函数局部有界的充分条件。什么是充分条件&#xff0c;什么是必要条件呢&#xff1f;我这里做了一点小思考&#xff0c;和大家分享&#xff0c…

alibaba cloud linux+JDK+TOMCAT+NGINX+PHP+MYSQL配置实践

CentOs要停止维护了&#xff0c;一直在服务器上用的CentOs7也最迟到2024年6月了&#xff0c;这次给公司新购一台备用服务器&#xff0c;在选择操作系统的时候&#xff0c;考虑了一下&#xff0c;决定试用一下阿里云的alibaba cloud linux。 alibaba cloud linux分为2和3版本&am…

创客项目秀 | 基于xiao的光剑

在《星球大战》宇宙中&#xff0c;光剑不仅仅是武器;它们是持有者与原力的桥梁&#xff0c;制造一把光剑几乎是每个创客的梦想&#xff0c;今天给大家带来的是国外大学生团队制作的可伸缩光剑项目。 材料清单&#xff1a; 电机驱动模块1:90减速电机套装MP3模块、喇叭Xiao RP2…

ingress使用HostNetwork部署

1.三种常用的部署模式 1.1 DeploymentLoadBalancer模式的service 用Deployment部署igress-controller&#xff0c;创建一个type为LoadBalancer的service关联这组pod。大部分公有云&#xff0c;都会为LoadBalancer的service自动创建一个负载均衡器&#xff0c;通常还绑定了公网…

Java面试八股之Spring如何解决循环依赖

Spring如何解决循环依赖 在Spring框架中&#xff0c;循环依赖问题通常发生在两个或多个Bean相互依赖的情况下。Spring为了解决循环依赖问题&#xff0c;采用了不同的策略&#xff0c;这些策略主要取决于Bean的作用域以及依赖注入的方式。下面是一些关键点&#xff1a; 单例Be…

护眼灯真的有用吗?护眼灯到底该不该买?

护眼灯真的有用吗&#xff1f;随着科技的发展&#xff0c;生活质量水平的不断提升&#xff0c;大家对于生活的要求也在不断拔高。护眼台灯进入众多家庭里面&#xff0c;成为不可或缺的产品。然而&#xff0c;护眼台灯在市面上&#xff0c;种类颇多&#xff0c;其质量也是参差不…

力扣高频SQL 50题(基础版)第三十三题

文章目录 力扣高频SQL 50题&#xff08;基础版&#xff09;第三十三题610.判断三角形题目说明实现过程准备数据实现方式结果截图 力扣高频SQL 50题&#xff08;基础版&#xff09;第三十三题 610.判断三角形 题目说明 表: Triangle ----------------- | Column Name | Typ…

Python入门宝藏《看漫画学Python》,495页漫画带你弄清python知识点!简单易懂 | 附PDF全彩版

华为出品的《看漫画学Python》全彩PDF教程是一本适合Python初学者的学习资料&#xff0c;通过漫画的形式将复杂的Python技术问题简单化&#xff0c;使学习过程更加生动有趣。以下是对该教程的内容简介、本书概要及本书目录的详细解析&#xff1a; 内容简介 《看漫画学Python》…

无线领夹麦哪个品牌音质最好?无线领夹麦克风怎么挑选

在直播行业中&#xff0c;声音质量直接影响着观众的观看体验。一款优质的无线领夹麦克风&#xff0c;能够确保你的声音在直播过程中始终保持清晰、稳定&#xff0c;减少背景噪音的干扰。它不仅方便佩戴&#xff0c;还能让你在移动中自由发挥&#xff0c;无需担心线缆束缚。对于…

数说故事 | 社媒聆听“顶流”红山动物园UGC声量

7月&#xff0c;CASETiFY和南京红山森林动物园联名啦&#xff0c;一个号称“手机壳中的爱马仕”&#xff0c;一个是“动物园顶流”&#xff0c;两大IP梦幻联动&#xff0c;推出了“明星动物”系列手机壳&#xff0c;CASETiFY还解锁“饲养员”身份&#xff0c;认养了酷酷的美洲豹…

某土地市场网JS逆向:debugger脚本限制秒退和webpack hash参数加密

&#x1f50d;某土地市场网逆向思路 &#x1f6ab; 解决网页反debugger &#x1f50d; 网页禁止打开开发者工具 在访问中国土地市场网时&#xff0c;我们会发现网页禁止了开发者工具的使用&#xff0c;包括F12和右键调试。 &#x1f50d;强制进入开发者工具 窗口关闭并回退 …

IDEA对线上项目远程debug

1、在启动脚本上添加以下配置内容 -agentlib:jdwptransportdt_socket,servery,suspendn,address*:5005 nohup java -agentlib:jdwptransportdt_socket,servery,suspendn,address5005 -jar test.jar > misc.out & 2、在IDEA中进行配置 &#xff08;1&#xff09;选择远程…

我们的网站被狗爬了!

大家好&#xff0c;我是程序员鱼皮。 世风日下&#xff0c;人心不古。我们的程序员面试刷题网站 《面试鸭》 才刚刚上线了一个多月&#xff0c;就由于过于火爆&#xff0c;被不少同行和小人发起网络攻击。 而且因为我们已经有 4500 多道人工整理的企业高频面试题、100 多个各…