发布Meta Segment Anything Model 2 (SAM 2):开启图像和视频分割的新时代

news2024/11/14 19:26:35

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

下载模型:https://github.com/facebookresearch/segment-anything-2

下载数据:https://ai.meta.com/datasets/segment-anything-video/

试试:https://sam2.metademolab.com/

下载文章:https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/

视频: https://rengongzhineng.io/wp-content/uploads/2024/07/An90OOU7fbi7bvqEA7w4w8jjrjlXuNSMvlHN5J7M1TjlxXchTVHBxhEQQ93goUvnP27BuJgLDN9g5CJDxcg5wCFX.mp4

继Meta Segment Anything Model (SAM) 在图像分割领域取得成功之后,Meta发布了SAM 2,这是一款用于图像和视频的实时可提示对象分割的统一模型,达到了业界最先进的性能。为了促进开放科学,Meta分享了SAM 2的代码和模型权重,并采用了宽松的Apache 2.0许可证。此外,Meta还发布了SA-V数据集,该数据集包含大约51,000个真实世界的视频和超过600,000个空间时间掩码。

SAM 2具备在任何视频或图像中分割任何对象的能力,即使是以前未见过的对象和视觉域,这使得其能够应用于各种无需定制适应的用例。SAM 2在图像分割精度上超过了之前的能力,并在视频分割性能上优于现有的工作,同时需要的交互时间减少了三倍。SAM 2的多种潜在应用包括与生成视频模型结合以创建新的视频效果,帮助建立更好的计算机视觉系统的快速注释工具,以及在科学研究中追踪显微镜拍摄的视频中的移动细胞。

为了保持开放科学的理念,Meta将SAM 2的研究与社区分享,使他们能够探索新的能力和用例。Meta分享的资源包括采用Apache 2.0许可证开源的SAM 2代码和权重,采用BSD-3许可证开源的SAM 2评估代码,以及SA-V数据集。SA-V数据集比现有最大的在线视频分割数据集大4.5倍,包含约51,000个真实世界视频和超过600,000个掩码。Meta还发布了一个基于网页的演示,允许实时交互分割短视频并应用视频效果。

在视频分割任务中,SAM 2能够在视频的任何帧中选择和细化对象。SAM 2的架构可以看作是SAM从图像领域到视频领域的推广,通过存储和使用以前处理过的视频信息,实现对对象的准确分割。SAM 2的流式架构使其能够实时处理任意长度的视频,对于数据注释和实际应用如机器人技术具有重要意义。

Meta通过SAM 2在循环中的交互式模型设置与人类注释员合作,收集了一个大而多样的视频分割数据集。注释员使用SAM 2互动注释视频中的掩码,然后用新注释的数据更新SAM 2。这个循环反复进行,多次迭代后,模型和数据集都得到了改进。与SAM相比,使用SAM 2进行注释的速度快了8.4倍,并显著快于将SAM与现成的跟踪器结合使用。

在研究中,SAM 2在17个零样本视频数据集上的互动视频分割表现显著优于以前的方法,同时需要的人工交互减少了约三倍。SAM 2在其23个数据集的零样本基准套件上优于SAM,同时速度快了六倍。在现有视频对象分割基准(如DAVIS、MOSE、LVOS、YouTube-VOS)上,SAM 2相较于之前的最先进模型表现更佳。SAM 2在循环中的视频分割注释速度比使用SAM逐帧注释快了8.4倍。

尽管SAM 2在分割图像和短视频中的对象表现出色,但在一些挑战性场景下仍有改进空间。比如,在剧烈的相机视角变化、长时间遮挡、拥挤场景或长视频中,SAM 2可能会失去对对象的跟踪。Meta通过设计交互式模型并允许在任何帧上进行手动干预,部分缓解了这一问题。

总之,Meta希望通过发布SAM 2和相关资源,推动开放科学的发展,促使AI社区共同探索新能力和应用场景,从而创造更多有益于社会和人类的技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1966864.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DiffusionModel-latent diffusion,VAE,U-Net,Text-encoder

Diffusers StableDdiffusion Latent Diffusion 稳定扩散(Stable Diffusion)模型中使用的三个关键组件:自编码器(VAE)、U-Net和文本编码器(Text-encoder) 由于潜在扩散模型的U-Net操作在低维空…

掌握FluentResults:.NET中优雅处理结果与错误

在.NET开发中,结果和错误处理是构建健壯应用程序的关键部分。FluentResults是一个.NET库,它提供了一种优雅的方式来处理操作结果和错误。它允许开发者以声明性和链式调用的方式构建结果对象,使得代码更加清晰和易于维护。本文将介绍FluentRes…

云原生大数据平台KDP,实战疑难问题解答

智领云的KDP(Kubernetes Data Platform)是一款自主研发的容器化云原生大数据平台,它是市场上首个能够完全在Kubernetes上部署的大数据平台。KDP深度整合了云原生架构的优势,解决了传统Hadoop大数据平台在架构限制、部署、运维、运…

ctfshow~菜狗杯 flag一分为二

第一步:解压附件得到miku.png文件 第二步:修改图片高度出现一半的flag 第三步:使用盲水印提取工具得到另一半工具 ctfshow{FirstPRTSecondPrTMikumiku~}

认识systemctl

1: 概述 systemctl命令可以帮助systemd管理和维护所有服务,系统启动完成后,systemctl命令会向systemd发送消息进行服务启动和停止等操作,想知道为什么systemctl命令可以向systemd传递消息吗,其实它是通过一个叫D_Bus(desktop bus)桌面总线的东西实现这一点,它可以并行的处理多…

劝你先别更新!!最新Stable Diffusion WebUI 1.10已来!WebUI终于支持SD3大模型了!你跑起来了么?

你的SD3大模型在SD WebUI1.10.0中跑起来了么? 今天发现Stable Diffusion WebUI于昨日推出了最新SD WebUI1.10.0 版本。令人比较兴奋的是该版本支持了SD3大模型,同时也新增了DDIM CFG采样器。主要更新内容如下: 最新版本地址: 更新…

跨境电商TikTok达人合作策略:驱动口碑传播,助力经济增长

通过与TikTok达人的深度合作,跨境电商不仅能够有效提升品牌曝光度和销售额,还能激发用户的口碑传播,形成强大的“口碑经济”效应。本文Nox聚星将和大家分析这种合作模式如何引发口碑经济效应,并探讨如何通过优化合作策略&#xff…

Python酷库之旅-第三方库Pandas(058)

目录 一、用法精讲 221、pandas.Series.interpolate方法 221-1、语法 221-2、参数 221-3、功能 221-4、返回值 221-5、说明 221-6、用法 221-6-1、数据准备 221-6-2、代码示例 221-6-3、结果输出 222、pandas.Series.isna方法 222-1、语法 222-2、参数 222-3、功…

JAVA的String类的contains方法,Indexof方法不使用KMP算法

今天做力扣的一道题目,在一个字符串中找出字符串的时候,想到了JAVA有一个contains方法,于是我去看了一下源码,发现他就是简单地调用了一下java的indexof方法, 然后我又去看了Indexof的源码,发现他就是简单的…

深入探讨C++编译期多态:提高效率与安全性

目录 一、引言 二、编译期多态技术详解 函数重载(Function Overloading) 运算符重载(Operator Overloading) 模板元编程(Template Metaprogramming) 使用std::enable_if实现条件模板特化 使用if con…

让我们逐行重现 GPT-2:第 1 部分

欢迎来到雲闪世界。Andrej Karpathy 是人工智能 (AI) 领域的顶尖研究人员之一。他是 OpenAI 的创始成员之一,曾领导特斯拉的 AI 部门,目前仍处于 AI 社区的前沿。 在第一部分中,我们重点介绍如何实现 GPT-2 的架构。虽然 GPT-2 于 2018 年由 …

Gradle下载的依赖jar包路径位置

Gradle依赖默认下载路径 Mac系统默认下载路径:C:/Users/(用户名)/.gradle/caches/modules-2/files-2.1 Windows系统默认下载路径:C:\Users(用户名).gradle\caches\modules-2\files-2.1 修改Gradle缓存文件夹路径 1. 配置环境变量 添加变量GRADLE_US…

elementUI,vue,前端判断时间是否有交集(重合)方法

分成三个部分 html※ 具体实现方法methods帮助理解逻辑图:![smallredBook:灵魂画手,业余爱好支持支持](https://i-blog.csdnimg.cn/direct/665950ee60964ef8912ce4f1a98dcc0e.jpeg#pic_center) 简化:由上面的逻辑反推[^1] html &…

与OpenAI合作:期待已久的苹果AI战略

探讨 Apple 和 OpenAI 合作的AI战略 ©作者|CodeDan 来源|神州问学 一.引言 在当今科技发展日新月异的背景下,大型科技公司的合作与联盟日益成为关注焦点。在最近的2024苹果全球开发者大会上,苹果展示了最新苹果系统上搭载的大模型应用…

.net 7和core版 SignalR

.net 7和core版 SignalR代码示例(手把手一起认识Websocket、SignalR) # 白话讲解 刚听到Websocket、SignalR有没有很迷茫,一脸懵逼的那种有没有,都是通信,这俩有什么区别,都是怎么实现的,什么时候该用哪一个, 苦于Websocket、SignalR久已,今天必须整出个一二三来,…

UWA Gears使用指南:轻松掌握应用性能优化

UWA最新发布了无SDK性能分析工具 - UWA Gears。该工具能够实时监测应用的CPU和GPU性能,无需代码改动即可掌握性能动态。此外,Gears还能截取应用的渲染画面进行深度分析,帮助您快速找到性能瓶颈并进行精准优化。 本文为您提供快速上手UWA Gea…

SpringMVC源码解析(二):请求执行流程

SpringMVC源码系列文章 SpringMVC源码解析(一):web容器启动流程 SpringMVC源码解析(二):请求执行流程 目录 前言DispatcherServlet入口一、获取HandlerExcutionChain(包括Handler)1、获取Handler1.1、通过request获取查找路径1.2、通过查找路径获取Han…

昂贵的质量 —— 为什么bug总在发生?

“To err is human” 在过去相当长一段时间内,我都在一个负责项目维护的团队内工作。团队的特殊之处在于,我们从来不开发新功能,而是负责解决每天上报的线上问题。这些 bug 无奇不有,从无法打开页面到数据奇怪丢失,麻…

关于伦敦金出金时间 你需要了解这些

​在伦敦金交易中,有很多基础因素是投资者在交易之前就需要了解的,其中就有伦敦金出金时间的问题。不过我们需要注意的是,伦敦金出金时间可能会有多种不同的含义,下面我们就这个问题进行一下讨论。 首先,伦敦金出金时间…