从“抠图”到“抠视频”,Meta上新AI工具SAM 2。

news2024/12/28 19:04:22

继2023年4月首次推出SAM,实现对图像的精准分割后,Meta于北京时间2024年7月30日推出了能够分割视频的新模型SAM 2(Segment Anything Model 2)。SAM 2将图像分割和视频分割功能整合到一个模型中。所谓“分割”,是指区别视频中的特定对象与背景,并可以追踪目标。​​​​​​​

SAM 2 可以分割任何视频或图像中的任何物体,即使从未见过,因而可以用于现实生活中的任意场景。相比于上一代模型,SAM 2 的图像分割更准确,且速度快了 6 倍。

要点

  • SAM 2 在 17 个零样本视频数据集的交互式视频分割方面表现明显优于以前的方法,并且所需的人机交互减少了大约三倍。

  • SAM 2 在 23 个数据集零样本基准测试套件上的表现优于 SAM,而且速度快了六倍。

  • 与之前的最先进模型相比,SAM 2 在现有的视频对象分割基准(DAVIS、MOSE、LVOS、YouTube-VOS)上表现出色。

  • 使用 SAM 2 进行推理感觉很实时,速度大约为每秒 44 帧。

  • 循环中使用 SAM 2 进行视频分割注释的速度比使用 SAM 进行手动每帧注释快 8.4 倍。

SAM 2对特定人口群体的模型性能进行了评估。结果显示,该模型在感知性别的视频分割方面性能差异很小,在评估的三个感知年龄组(18-25 岁、26-50 岁和 50 岁以上)之间差异很小。

相关链接

论文地址:

  • SAM 2: https://ai.meta.com/blog/segment-anything-2/

  • SAM 1: https://arxiv.org/pdf/2304.02643

Meta官方介绍:https://ai.meta.com/blog/segment-anything-2/

SAM2网站:http://ai.meta.com/SAM2

数据集地址:https://ai.meta.com/datasets/segment-anything-video

模型地址:https://github.com/facebookresearch/segment-anything-2

方法介绍

Segment Anything Model 2 (SAM 2),这是Meta Segment Anything Model的下一代,现在支持视频和图像中的对象分割。SAM 2 是第一个用于实时、可提示的图像和视频对象分割的统一模型,它使视频分割体验发生了重大变化,并可在图像和视频应用程序中无缝使用。

SAM 2 在图像分割精度方面超越了之前的功能,并且实现了比现有工作更好的视频分割性能,同时所需的交互时间减少了三倍。SAM 2 还可以分割任何视频或图像中的任何对象(通常称为零样本泛化),这意味着它可以应用于以前从未见过的视觉内容,而无需进行自定义调整。

自推出 SAM 以来的一年里,该模型已在各个学科领域产生了巨大影响。它启发了 Meta 系列应用(例如Instagram 上的 Backdrop 和 Cutouts)中新的 AI 体验,并催化了科学、医学和众多其他行业的各种应用。许多最大的数据注释平台已将 SAM 集成为图像中对象分割注释的默认工具,节省了数百万小时的人工注释时间。SAM 还用于海洋科学中分割声纳图像和分析珊瑚礁、用于救灾的卫星图像分析以及医学领域中分割细胞图像和辅助检测皮肤癌。

SAM 2 是如何设计的

SAM 能够学习图像中物体的一般概念。然而,图像只是动态现实世界的静态快照,其中视觉片段可以表现出复杂的运动。许多重要的现实世界用例需要在视频数据中进行准确的对象分割,例如在混合现实、机器人、自动驾驶汽车和视频编辑中。我们相信通用分割模型应该适用于图像和视频。

图像可以看作是一段只有一帧的非常短的视频。基于这种观点来开发一个统一的模型,无缝支持图像和视频输入。处理视频的唯一区别是,模型需要依靠内存来回忆该视频之前处理过的信息,以便在当前时间步准确分割对象。

成功分割视频中的对象需要了解实体在空间和时间中的位置。与图像中的分割相比,视频带来了重大的新挑战。物体运动、变形、遮挡、光线变化和其他因素可能会在每一帧之间发生巨大变化。由于相机运动、模糊和分辨率较低,视频质量通常低于图像,这增加了难度。因此,现有的视频分割模型和数据集无法为视频提供类似的“分割任何内容”功能。在构建 SAM 2 和新 SA-V 数据集的工作中解决了许多这些挑战。

与用于 SAM 的方法类似,在实现视频分割功能方面的研究涉及设计新任务、模型和数据集。首先开发可提示的视觉分割任务,并设计一个能够执行此任务的模型 (SAM 2)。使用 SAM 2 来帮助创建视频对象分割数据集 (SA-V),该数据集比目前存在的任何数据集都要大一个数量级,并用它来训练 SAM 2 以实现最先进的性能。

可提示的视觉分割

设计了一个可提示的视觉分割任务,将图像分割任务推广到视频领域。SAM 经过训练,可以将图像中的点、框或蒙版作为输入,以定义目标对象并预测分割蒙版。借助 SAM 2,我们训练它接受视频任意帧中的输入提示,以定义要预测的时空蒙版(即“蒙版小片”)。SAM 2 根据输入提示立即预测当前帧上的蒙版,并将其在时间上传播以生成所有视频帧中的目标对象的蒙版小片。一旦预测了初始蒙版小片,就可以通过在任意帧中向 SAM 2 提供额外提示来迭代细化它。这可以根据需要重复多次,直到获得所需的蒙版小片。

统一架构中的图像和视频分割

从 SAM 到 SAM 2 的架构演变。

SAM 2 架构可视为 SAM 从图像到视频领域的推广。SAM 2 可通过点击(正或负)、边界框或掩码来提示,以定义给定帧中对象的范围。轻量级掩码解码器采用当前帧的图像嵌入和编码提示来输出该帧的分割掩码。在视频设置中,SAM 2 将此掩码预测传播到所有视频帧以生成掩码。然后可以在任何后续帧上迭代添加提示以优化掩码预测。

为了在所有视频帧中准确预测掩码,引入了一种记忆机制,由记忆编码器、记忆库和记忆注意模块组成。当应用于图像时,记忆组件为空,模型的行为类似于 SAM。对于视频,记忆组件可以存储有关该会话中对象和先前用户交互的信息,从而使 SAM 2 能够在整个视频中生成掩码预测。如果在其他帧上提供了其他提示,SAM 2 可以根据存储的对象记忆上下文有效地纠正其预测。

记忆编码器根据当前掩码预测创建帧记忆,并将其放置在记忆库中,用于分割后续帧。记忆库由来自前一帧和提示帧的记忆组成。记忆注意操作从图像编码器获取每帧嵌入,并在记忆库上对其进行条件处理以生成嵌入,然后将其传递给掩码解码器以生成该帧的掩码预测。对所有后续帧重复此操作。

我们采用流式架构,这是 SAM 在视频领域的自然推广,一次处理一个视频帧并将有关分割对象的信息存储在内存中。在每个新处理的帧上,SAM 2 使用记忆注意模块来关注目标对象的先前记忆。这种设计允许实时处理任意长的视频,这不仅对于收集 SA-V 数据集的注释效率很重要,而且对于现实世界的应用(例如机器人技术)也很重要。

SAM 引入了在图像中分割对象存在歧义时输出多个有效掩码的功能。例如,当一个人点击自行车轮胎时,模型可以将这次点击解释为仅指轮胎或整辆自行车,并输出多个预测。在视频中,这种歧义可以扩展到视频帧中。例如,如果在一帧中只有轮胎可见,则点击轮胎可能只与轮胎有关,或者随着自行车的更多部分在后续帧中变得可见,这次点击可能是针对整辆自行车的。为了处理这种歧义,SAM 2 在视频的每个步骤中创建多个掩码。如果进一步的提示不能解决歧义,模型将选择置信度最高的掩码在视频中进一步传播。

SA-V:构建最大的视频分割数据集

将“分割任何内容”功能扩展到视频的挑战之一是用于训练模型的注释数据有限。当前的视频分割数据集很小,缺乏对各种对象的充分覆盖。现有的数据集注释通常覆盖整个对象(例如人),但缺少对象部分(例如人的夹克、帽子、鞋子),并且数据集通常以特定对象类别为中心,例如人、车辆和动物。

为了收集大量多样化的视频分割数据集,构建了一个数据引擎,利用带有人工注释者的交互式模型在环设置。注释者使用 SAM 2 以交互方式注释视频中的 masklet,然后使用新注释的数据依次更新 SAM 2。多次重复此循环,以迭代方式改进模型和数据集。与 SAM 类似,不对注释的 masklet 施加语义约束,而是同时关注整个对象(例如,一个人)和对象部分(例如,一个人的帽子)。

使用 SAM 2,收集新的视频对象分割掩码的速度比以往更快。使用我们的工具和 SAM 2 在循环中进行注释的速度比使用 SAM 每帧的速度快约 8.4 倍,也比将 SAM 与现成的跟踪器相结合的速度快得多。

发布的 SA-V 数据集比现有的视频对象分割数据集包含多一个数量级的注释和大约 4.5 倍的视频。

SA-V 数据集的亮点包括:

  • 约 51,000 个视频上有超过 600,000 个 masklet 注释。

  • 视频展现了来自 47 个国家/地区的不同地理区域的真实场景。

  • 注释涵盖整个对象、对象部分以及对象被遮挡、消失和重新出现的困难实例。

限制

虽然 SAM 2 在图像和短视频中分割对象方面表现出强大的性能,但模型性能还可以进一步提高——尤其是在具有挑战性的场景中。

SAM 2 可能会在摄像机视点发生剧烈变化、长时间遮挡、场景拥挤或视频过长时丢失对物体的跟踪。我们在实践中缓解了这个问题,方法是将模型设计为交互式的,并允许在任何帧中通过单击校正进行手动干预,以便恢复目标物体。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1987954.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python 如何处理命令行参数(argparse)?

在Python编程中,处理命令行参数是一项非常重要的技能,特别是在编写可执行脚本或工具时。Python的标准库提供了一个强大的模块来处理命令行参数,即argparse模块。 一、argparse模块简介 argparse模块是Python标准库中用于解析命令行参数的模…

达梦数据库的系统视图v$mem_pool

达梦数据库的系统视图v$mem_pool 达梦数据库的V$MEM_POOL视图主要用于显示所有内存池的信息。通过查询这个视图,用户可以监控数据库中各个内存组件的使用状况,包括内存池的大小、使用情况等。这有助于用户判断内存池是否空闲或紧张,从而进行…

使用消息队列完成两个进程之间相互通信

/*执行两个程序&#xff0c;程序间通过一个消息队列实现同时收发消息*/ #include <myhead.h>// 消息队列的大小 #define SIZE (sizeof(struct msgbuf) - sizeof(long)) // 消息队列结构体 struct msgbuf {long mtype; // 消息类型char mtext[1024]; // 消息内容 };…

微服务面试必读:拆分、事务、设计的综合解析与实践指南

谈谈你对微服务的理解&#xff0c;微服务有哪些优缺点&#xff1f; 首先&#xff0c;微服务是对传统单体架构的一种优化。当一个单体架构随着业务的增加而变得臃肿时&#xff0c;微服务通过将业务拆分成小的独立单元来进行优化。 微服务的优点有以下几点&#xff1a; 业务清…

SpirngCloud+Vue3通过id批量修改某一个字段的值

♥️作者&#xff1a;小宋1021 &#x1f935;‍♂️个人主页&#xff1a;小宋1021主页 ♥️坚持分析平时学习到的项目以及学习到的软件开发知识&#xff0c;和大家一起努力呀&#xff01;&#xff01;&#xff01; &#x1f388;&#x1f388;加油&#xff01; 加油&#xff01…

MiniCPM 多模态VLM图像视频理解代码案例

参考: https://huggingface.co/openbmb/MiniCPM-V-2_6 https://github.com/OpenBMB/MiniCPM-V 效果很好,20g现场可以运行: 下载模型 export HF_ENDPOINT=https://hf-mirror.comhuggingface-cli download --resume-download --local-dir-use-symlinks False openbmb/MiniC…

公司居然还在用zookeeper,吓得我马上学习了相关命令

zookeeper的数据结构优点类似linux系统中的文件系统&#xff0c;例如/opt/mysql&#xff0c;/usr/local&#xff0c;都是可以有树形结构的&#xff0c;但是又有些不同&#xff0c;因为他的节点也是可以存储信息的&#xff0c;例如在linux中/usr/local 本来是个文件夹&#xff0…

STM32G474CBT6之HAL_RCC_ClockConfig()问题?

STM32G474CBT6之HAL_RCC_ClockConfig()问题&#xff1f; 很多人在用HAL库时&#xff0c;都用到了寄存器&#xff0c;特别是在数字电源案例中。我也在想&#xff0c;有了标准库&#xff0c;为什么要搞HAL库&#xff1f;HAL库降低了入门的门槛&#xff0c;但在实际应用中&#x…

24/8/6算法笔记 支持向量机

支持向量机&#xff08;Support Vector Machine, SVM&#xff09;是一种监督学习算法&#xff0c;主要用于分类和回归任务。它基于统计学习理论中的结构风险最小化原理&#xff0c;通过找到数据点之间的最优边界来实现模型的泛化能力。 import numpy as np import matplotlib.…

Android SurfaceFlinger——Fence流转状态(五十)

明白了 fence 的基本原理&#xff0c;我们可以进一步的探索整个 SurfaceFlinger 的中 fence 在其中处于什么角色。 一、流转状态 从启动到屏幕的第一帧的渲染&#xff0c;fence 是不会有任何效果的。因为此时 fence 还没有经过 hwc_set 给 fence 进行赋值。但是到了第二帧开始…

《知识点扫盲 · 请求类型 ContentType》

&#x1f4e2; 大家好&#xff0c;我是 【战神刘玉栋】&#xff0c;有10多年的研发经验&#xff0c;致力于前后端技术栈的知识沉淀和传播。 &#x1f497; &#x1f33b; CSDN入驻不久&#xff0c;希望大家多多支持&#xff0c;后续会继续提升文章质量&#xff0c;绝不滥竽充数…

Lambda函数理解与应用

Lambda 函数是 Python 中一种简洁的定义简单匿名函数的方法。它们通常用于需要小型函数对象的地方&#xff0c;尤其是作为高阶函数&#xff08;如 map, filter, reduce&#xff09;的参数。Lambda 函数的语法非常紧凑&#xff0c;只允许包含一个表达式。 1、问题背景 理解Lamb…

《大型集团信息安全整体解决方案》:从策略到执行的全方位指南(169页PDF下载)

一、前言 本PPT是一份关于华润集团信息安全整体规划方案的详细报告&#xff0c;从集团信息安全建设需求分析、建设规划蓝图、方案设计成果说明、建设内容与指标等几个方案全面阐述了某大型集团信息安全整体解决方案&#xff0c;值得借鉴与参考。报告首先对华润集团当前的信息安…

ChatGPT首次被植入人类大脑:帮助残障人士开启对话

马斯克在脑机接口中最强大的竞争对手Synchron有了新的技术进展&#xff0c;他们首次将ChatGPT整合到其脑机系统中&#xff0c;以使瘫痪患者更容易控制他们的数字设备。Synchron凭借其独特的脑机接口&#xff08;BCI&#xff09;技术脱颖而出&#xff0c;该技术巧妙地运用了成熟…

yum-aptget对应积累

libssl-dev openssl-devel libsnappy-dev

线上扭蛋机小程序详解,扭蛋机带来的乐趣

在当下潮流文化风靡的时代中&#xff0c;扭蛋机作为潮玩娱乐休闲模式&#xff0c;受到了消费者的关注&#xff0c;同时吸引了无数创业者入局。 扭蛋机小程序是在互联网发展下的产物&#xff0c;借助互联网技术&#xff0c;为消费者打造一个集娱乐购物与智能扭蛋为一体的新型扭…

Java 中的序列化和反序列化是什么?

1. 序列化 序列化是将对象转换成可传输的字节序列格式的过程&#xff0c;便于存储和传输。 对象在JVM中是“立体”的&#xff0c;包含各种引用。为了网络传输&#xff0c;需要将这些引用“压扁”&#xff0c;包含必要的信息。 因为对象在JVM中可以认为是“立体”的&#xff0…

Go sdk下载和配置环境变量

本文目录 SDK下载环境变量配置测试 SDK下载 下载地址&#xff1a;https://golang.google.cn/dl/ 更多版本&#xff0c;找到1.9.2 我是win10 64位的&#xff0c;我找到这个下载 下载之后解压&#xff0c;可以看到bin文件夹。 环境变量配置 我的电脑 -> 属性 -> 高级…

跨越距离无缝协作,最新远程控制软件

远程控制与协作已成为推动社会进步与企业发展的重要力量。无论是跨国企业的全球协同办公&#xff0c;还是家庭用户间的远程技术支持&#xff0c;甚至是教育行业的在线教学&#xff0c;远程控制软件都扮演着至关重要的角色。 1.向日葵远程控制 链接一下&#xff1a;https://do…

初探 C++模板:开启高效编程之门

目录 模版的引入 泛型编程 模板的概念 模板的使用 函数模版 函数模板概念 函数模板格式 函数模板的原理 函数模板的实例化 模板参数的匹配原则 类模版 类模板的定义格式 类模板的由来 类模板的实例化 模板的总结 模版的引入 如下代码&#xff0c;我们想实现交换…