顶配版SAM:由分割一切迈向感知一切

news2025/1/13 13:16:39

文章目录

  • 0. 前言
  • 1. 论文地址
    • 1.1 项目&代码
    • 1.2 模型地址
    • 1.3 Demo
  • 2. 模型介绍
    • 2.1 亮点
    • 2.2 方法
  • 3. 量化结果、可视化展示
  • Reference

0. 前言

现有的视觉分割基础模型,如 SAM 及其变体,集中优势在形状、边缘等初级定位感知,或依赖外部模型完成更高级的语义理解任务。然而,迈向更高效的视觉感知则需要在单个模型中实现全面的视觉理解,以助力于更广泛的应用场景,如自动驾驶、安防监控、遥感以及医学图像分析等。

近日,智源研究院视觉团队推出以视觉感知为中心的基础模型 TAP (Tokenize Anything via Prompting), 利用视觉提示同时完成任意区域的分割、识别与描述任务。将基于提示的分割一切基础模型 (SAM) 升级为标记一切基础模型 (TAP),高效地在单一视觉模型中实现对任意区域的空间理解和语义理解。相关的模型、代码均已开源,并提供了 Demo 试用,更多技术细节请参考 TAP 论文。

在这里插入图片描述

1. 论文地址

https://arxiv.org/abs/2312.09128

1.1 项目&代码

https://github.com/baaivision/tokenize-anything

1.2 模型地址

https://huggingface.co/BAAI/tokenize-anything

1.3 Demo

https://huggingface.co/spaces/BAAI/tokenize-anything

2. 模型介绍

2.1 亮点

通用能力:TAP 是一个统一的可提示视觉基础模型,根据视觉提示(点、框、涂鸦)对任意区域内的目标同时进行分割、识别以及描述,最终汇聚成一组可用于综合评估区域内容的输出结果。

通用表征:TAP 将任意区域中的内容表示为紧凑的掩码标记和语义标记,掩码标记负责空间理解,语义标记则负责语义理解。因此,TAP 模型可以替代 SAM,CLIP 作为下游应用的新基础模型。

通用预训练:TAP 利用大量无语义的分割掩码,直接从通用 CLIP 模型中汲取开放世界知识。这种预训练新范式避免了使用与任意数据集相关的有偏差人工标注,缓解了物体在开放语义下的定义冲突与不完备问题。

2.2 方法

在这里插入图片描述

模型架构:为了实现一个统一的模型,TAP 在 SAM 架构的基础上,将掩码解码器升级为通用的图像解码器,同时输出掩码标记与语义标记(图b)。掩码标记负责预测分割掩码,语义标记则用于预测对应的语义标签和文本描述。

数据获取:训练一个多能力的视觉基础模型需要多样化标注的大规模数据集。然而,目前尚无公开的可同时用于分割与区域识别的大规模数据源。SA-1B 构建了 11 亿高质量掩码标注,用于训练分割基础模型,如 SAM。LAION-2B 收集了 20 亿图像-文本对,用于训练图文对齐模型,如 CLIP。

为了解决分割-文本对齐数据缺乏的问题,TAP 引入了 SemanticSA-1B 数据集(图c)。该数据集将来自 LAION-2B 的语义隐式地集成到 SA-1B 的分割数据中。具体而言,TAP 利用在 LAION-2B 数据集上训练的具有 50 亿参数的 EVA-CLIP 模型,预测 SA-1B 中的每一个分割区域在一个概念词汇上的分布。该分布提供信息最大化的语义监督, 避免模型在偏差过大的伪标签上训练。

模型训练:TAP 模型在 256 块寒武纪 MLU370 加速器上进行预训练,并行优化可提示分割与概念预测两个任务。给定一张图片及一个视觉提示,TAP 模型将感兴趣区域表示为一个掩码标记和一个语义标记。基于语义标记,扩展一个 MLP 预测器可实现开放词汇分类任务。同时,扩展一个轻量化的自回归文本解码器即可实现文本生成任务。

3. 量化结果、可视化展示

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
简单点击或涂鸦图片中感兴趣的目标,TAP 即可自动生成目标区域的分割掩码、类别标签、以及对应的文本描述,实现了一个模型同时完成任意的分割、分类和图像描述。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
对于需要全景理解的场景,采用密集网格点作为提示,模型即可对场景内所有的目标进行分割、识别以及描述。

在这里插入图片描述
在这里插入图片描述

Reference

[1] Alexander Kirillov, et al. Segment anything. ICCV, 2023.

[2] Alec Radford, et al. Learning Transferable Visual Models from Natural Language Supervision. ICML, 2021.

[3] Sun, et al. EVA-CLIP: Improved Training Techniques for CLIP at Scale. arXiv:2303.15389, 2023.

[4] Schuhmann, et al. LAION-5B: An Open Large-scale Dataset for Training Next Generation Image-Text Models. arXiv:2210.08402, 2023.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1342495.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MR实战:实现数据去重

文章目录 一、实战概述二、提出任务三、完成任务(一)准备数据文件1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录 (二)实现步骤1、Map阶段实现(1)创建Maven项目(2)添加相关依赖…

红警1源代码下载,编译,单步调试操作步骤

注意视频无声音: 红警1代码单步调试操作步骤_哔哩哔哩_bilibili红警1,源代码下载,编译,单步调试操作步骤。1、下载代码:https://gitee.com/r77683962/CnC_Remastered_Collection/repository/archive/master.zip这里边…

Jackson ImmunoResearch纳米二抗(Nano Secondary Antibodies)

驼科,如羊驼和美洲驼,会产生一类独特的仅由重链组成的抗体。而抗原结合片段(Fab),也称为仅可变重链片段抗体(Variable Heavy-Chain only fragment antibodies,VHH片段),或纳米抗体,是一种新型抗体形式。凭借…

【MCAL】TC397+EB-tresos之MCU配置实战 - 芯片时钟

本篇文章介绍了在TC397平台使用EB-treso对MCU驱动模块进行配置的实战过程,主要介绍了后续基本每个外设模块都要涉及的芯片时钟部分,帮助读者了解TC397芯片的时钟树结构,在后续计算配置不同外设模块诸如通信速率,定时器周期等&…

rabbitmq使用总结

1、进入rabbitmq的sbin目录,进入CMD 2、输入./rabbitmq-plugins enable rabbitmq_management启用管理服务。 3、输入./rabbitmqctl start_app启动服务。 查看是否启动成功 1、浏览器访问http://localhost:15672/ 下载erlang 地址如下: http://erla…

三张表看懂POE POE+ POE++ 三个协议的相关参数

Hqst华强盛(盈盛电子)导读:三张表看懂POE POE POE 三个协议的相关参数。 一 ̖ POE协议区分: 802.3af(PoE) 百兆网络变压器H81621S 二 ̖ POE协议与受电设备(PD)工作功率分级 802.3at&#xf…

使用MySQL进行数据库表的基本操作

参考文章 http://www.ksqn.cn/news/1325.html 1. 创建表 语法: CREATE TABLE table_name ( field1 datatype, field2 datatype, field3 datatype ) character set 字符集 collate 校验规则 engine 存储引擎;说明: field 表示列名datatype 表示列的类…

图片水印怎么去除?推荐三个去水印的方法

在我们搜集和整理图片素材的过程中,总会遇到一个让人头疼的问题——水印。这些水印不仅破坏了图片的整体美感,还极大地限制了图片的使用范围。然而,好消息是,我们并非束手无策,有多种方法可以帮助我们去除这些水印&…

Android 理解Context

文章目录 Android 理解ContextContext是什么Activity能直接new吗? Context结构和源码一个程序有几个ContextContext的作用Context作用域获取ContextgetApplication()和getApplicationContext()区别Context引起的内存泄露错误的单例模式View持有Activity应用正确使用…

OpenCV-Python(29):图像特征

目录 目标 背景介绍 常用特征 应用场景 目标 理解什么是图像特征 为什么图像特征很重要 为什么角点很重要 背景介绍 相信大多数人都玩过拼图游戏吧。首先你们拿到一张图片的一堆碎片,你要做的就是把这些碎片以正确的方式排列起来从而重建这幅图像。问题是&…

模拟电路基础知识笔记,你想知道的都有,建议收藏!

大家总说模电知识总是学不会,IC修真院为大家整理了模拟电子基础知识,看看你掌握了多少,文末可以获取全部哦。 文末可领全部文档 1、PN结是晶体二极管的基本结构,也是一般半导体器件的核心。 2、 射极输出器没有电压放大能力&am…

SD NAND 异常上下电测试

SD NAND 异常上下电测试的作用 SD NAND 异常上下电测试是一项关键的测试步骤,对确保SD NAND在不同电源条件下的稳定性和可靠性至关重要。 通过模拟正常和异常电源情况,测试可以验证设备的电源管理功能、检测潜在错误和异常行为,并评估设备在…

怎么快速去除图片水印?这些快速去除的工具赶紧码住

在数字时代的大潮中,图片与视频中的水印如同微小的瑕疵,虽然旨在维护原创者的权益,却往往损害了内容的观感,降低了他人的分享欲望。那些恼人的水印,常常让人们束手无策。但别担心,接下来我将为你揭秘几种快…

数字化时代背景下服装表演创新研究

服装表演是一门独具魅力的艺术,它既高于生活,又来源于生活。这一艺术形式通过舞台上的服装、音乐、舞蹈和表演艺术家的表现力,将时尚与创意融为一体,向观众传递着独特的美感和情感。然而,如今,我们生活在一个飞速发展的数字化时代,这为服装表演的教育带来了前所未有的机遇和挑战…

英文建筑图纸翻译工程图纸翻译

建筑图纸是以图形和文字为语言,详细描绘了工程建筑、机械、设备等结构、形状、尺寸及其他要求。对于建筑图纸翻译,表达必须清楚准确。那么,如何确保英文建筑图纸翻译工程图纸翻译的准确性? 首先,我们需要深入了解建筑图…

使用 pytest 相关特性重构 appium_helloworld

一、前置说明 在 pytest 基础讲解 章节,介绍了 pytest 的特性和基本用法,现在我们可以使用 pytest 的一些机制,来重构 appium_helloworld 。 appium_helloworld 链接: 编写第一个APP自动化脚本 appium_helloworld ,将脚本跑起来 代码目录结构: pytest.ini 设置: [pyt…

【C语言】程序练习(三)

大家好,这里是争做图书馆扫地僧的小白。非常感谢各位的支持,也期待着您的关注。 目前博主有着C语言、C、linux以及数据结构的专栏,内容正在逐步的更新。 希望对各位朋友有所帮助同时也期望可以得到各位的支持,有任何问题欢迎私信与…

【Leetcode 39】组合总和 —— 回溯法

39. 组合总和 给你一个无重复元素的整数数组candidates和一个目标整数target ,找出candidates中可以使数字和为目标数target的 所有不同组合,并以列表形式返回。你可以按**任意顺序 **返回这些组合。 candidates中的同一个数字可以 无限制重复被选取 。…

畅捷通的 Serverless 探索实践之路

作者:计缘,阿里云云原生架构师 畅捷通介绍 畅捷通是中国领先的小微企业财税及业务云服务提供商,成立于 2010 年。畅捷通在 2021 年中国小微企业云财税市场份额排名第一,在产品前瞻性及行业全覆盖方面领跑市场,位居中…

百万数据集测试赛题秒级查询的MySQL方案

目录 比赛题目 最佳解法 solution_row prime_encoded 相关知识 递归 CTE SUBSTRING_INDEX 引用资料 比赛题目 有一张表 cards,id 是自增字段的数字主键,另外有4个字段 c1,c2,c3,c4 ,每个字段随机从 1~10 之间选择一个整数&#xff…