A comprehensive survey on segment anything model for vision and beyond

news2024/12/24 3:23:07

视觉分割大模型的过去、现在和未来!SAM最新综述来了!今天自动驾驶之心很荣幸邀请到Garfield来分享视觉SAM分割大模型的最新综述,如果您有相关工作需要分享,https://mp.weixin.qq.com/s/-_QFvxBGzFpAgVGF-t-XRgSegment Anything Model (SAM)发布了一个多月,有哪些应用呢?请看综述(一) - 知乎1. 简介:一个多月以前,Meta发布了Segment Anything Model (SAM) 当时我还测试了一下,大家需要了解的话可以看一下: 北方的郎:Meta Segment Anything 测试效果到现在,一个多月过去了,SAM都有哪些应用呢? 答…https://zhuanlan.zhihu.com/p/6313887361.introduction

1.1 将视觉transformer扩展到极大规模。

1.2 大量工作致力于添加附加模态的知识,例如clip和align。

1.3 模型的一个共同的特征是依靠在广泛数据集上预训练的基础模型,使用可以解决各种下游的提示学习,从而具备了强大的零样本泛化能力。

2.背景

图像分割、交互分割和基础模型。

sam:任务、模型和数据。提出了一个包括可提示分割任务(分割目标的point,box,mask和文本)、可以接受多个提示输入并实现交互使用的sam和使用交互式训练注释循环过程的数据引擎形成的数据集SA-1B。sam结构包括,图像编码,prompt编码,mask解码,其中图像编码采用MAE,prompt编码分为稀疏输入(使用clip的文本编码器作为位置编码器来处理点、框和文本形式的提示)和密集输入(使用卷积处理mask输入),mask解码使用prompt-image双向transformer解码器。使用dice loss和focal loss,数据获取包括辅助手动阶段,半自动化阶段和全自动化阶段。

3.方法

3.1 software scenes

Image Editing:图像编辑

Inpaint anything,用户点击操作用作sam中提示,生成对象区域的mask,然后lama使用腐蚀和膨胀操作操作进行填充,使用sd通过文本提示生成新的对象来替换和填充。

Edit everything,在输入图像时,sam首先将其分割成几个段落而无需提示,然后使用源提示指导clip对收到的段落进行排序,只选择得分最高的座位目标,使用sd来生成,在中文场景下重新训练了4亿参数的clip和10亿参数的sd。

style transfer:固定区域的风格迁移

sam在自然图像场景中有出色的泛化能力,但在低对比度场景中显示出较少的结果,并且在复杂场景中需要先验知识。

3.2 real-world scenes

Detection:

Counting:使用sam进行图像分割,然后将分割出的每个目标物体作为计算对象,另一种是使用sam生成目标物体的特征向量,然后使用这些特征向量来计算相似度,从而确定数量。

Moving object:tracking anything

3.3 complex scenes

低对比度场景:伪装目标分割、工业缺陷、医学病变

热红外成像:

鸟瞰:

4.vision related application

4.1.1 medical image

医学图像:计算机断层扫描(CT)图像、磁共振成像(MRI)图像、结肠镜图像、H&E染色组织切片图像、多种格式图像和其他图像。

4.1.2 video

Track anything,sam-track

seem,VSR

4.1.3 data annotations

4.2 beyond vision

4.2.1 3D reconstruction

4.2.4 视频文字定位

传统的视频文字定位依赖于检测边框和边界框内识别文本实例,在具有不规则形状或者方向的文本实例存在局限性。SamText,给定一个输入的场景文本图像或视频帧,SamText首先从现有注释中提取边界框坐标或从场景文本检测中生成,如果框是带方向的,SamText将计算它们最小包围矩形亿获取水平边界框,然后将其作为SAM的输入提取,以获取mask,sam模型是一个分割模型,预先在自然图像上进行预训练,并在coco-text上进行微调,已生成文本实例的mask,获取mask之后进行后处理以确保其连通性。

4.2.5 vision and language

CAT:caption anything fraamework,可控制的图像描述方法,采用sam模型作为分割器,并通过视觉提示与用户交互,实现对图像描述的多模态控制,包括三个组件,分割器、描述器和文本优化器,分割器使用sam生成图像中感兴趣的区域,描述器生成初始图像描述,文本优化器通过用户定义的语言控制来优化描述图像。

4.2.6 audio and vision

4.2.7 多模态可视化和开放词汇交互式分割

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/797299.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从游戏中理解《重构的时机和方法》(文末送书)

本次推荐的书籍是《重构的时机和方法》,该文是由法国克里斯蒂安克劳森(Christian Clausen) 著作,由郭涛翻译。 重构的时机和方法 寄语译者/本书作者原文作者群英推荐目录自我感受好书哪里来🤩免费的书籍哪里来🤩 寄语 作者寄语&a…

Tencent : TBDS

序言 腾讯大数据处理套件(Tencent Big Data Suite,TBDS)是基于腾讯多年海量数据处理经验,对外提供的可靠、安全、易用的大数据处理平台。您可以借助 TBDS 在公有云、私有云、非云化环境,根据不同数据处理需求选择合适…

栈和队列模拟实现(C++)

文章目录 1.deque的认识1.1介绍2.图析 2.stack模拟实现3.queue模拟实现4.优先级队列模拟实现4.1介绍4.2例题4.3模拟实现 5.测试函数 1.deque的认识 1.1介绍 双端队列 Deque(通常读作“deck”)是double-ended queue的不规则首字母缩写。双端队列是动态长度的序列容器&#xff0…

MySQL多表查询(联合查询、连接查询、子查询)

目录 多表联合查询 联合查询类型 多表连接查询 多表查询的分类 交叉查询(笛卡尔积) 内连接查询 外连接查询 自连接查询 子查询规则 子查询的分类 子查询的不同结果 EXISTS和NOT EXISTS 子查询应用的不同位置 不同外部语句的子查询应用情况…

spring boot--自动化注入组件原理、内嵌tomcat-1

前言 我们知道开发spring boot项目,在启动类上添加注解SpringBootApplication ,然后引入要自动注入的组件依赖,然后现application.properties中加上相应配置就可以自动注入这个组件,那么下面看看自动注入组件是如何实现的 一、S…

Idea 结合docker-compose 发布项目

Idea 结合docker-compose 发布项目 这里写目录标题 Idea 结合docker-compose 发布项目Docker 开启远程访问功能 添加相应端口配置IDEA 链接Docker配置项目 docker-compose.yml本地还需要安装 dockerwin11 安装本地Docker 可能存在问题 Linux内核不是最新 Docker 开启远程访问功…

回文链表——力扣234

文章目录 题目描述法一 将值复制到数组中后用双指针法法二 快慢指针 题目描述 法一 将值复制到数组中后用双指针法 class Solution { public:bool isPalindrome(ListNode* head) {vector<int> v;while(head!NULL){v.emplace_back(head->val);head head->next;}for…

同步、异步、阻塞、非阻塞

一、概念 同步与异步&#xff08;线程间调用&#xff09;的区别&#xff1a;关注的是调用方与被调用方之间的交互方式。同步调用会等待被调用方的结果返回&#xff0c;而异步调用则不会等待结果立即返回&#xff0c;可以通过回调或其他方式获取结果。 阻塞非阻塞&#xff08;…

Nautilus Chain 即将治理通证 NAUT ,生态发展进程加速

独特且优势明显的Nautilus Chain 目前&#xff0c;行业内首个模块化底层Nautilus Chain已经上线主网&#xff0c;并且即将有超过70个应用原生部署在Nautilus Chain上。Nautilus Chain本身是一个以Layer3为定位的区块链系统&#xff0c;其通过Celestia模块化底层来获得DA支持以…

网络安全 HVV蓝队实战之溯源

一、前言 对于攻防演练蓝军的伙伴们来说&#xff0c;最难的技术难题可能就是溯源&#xff0c;尤其在今天代理横行的时代更加难以去溯源攻击者。这里我就举两个溯源来帮助大家梳理溯源过程&#xff0c;一个是只溯源到公司&#xff0c;一个是溯源到个人。 二、溯源实例 2.1IP …

逻辑运算符和短路求值

要了解短路求值就必须先了解什么是逻辑运算符。 逻辑运算符 在了解运算符之前我们必须先知道再JAVA中逻辑运算符的结果是Boolean类型的值 逻辑与“&&” 表达式1 && 表达式2 逻辑与就是只有运算符两边的表达式都为真&#xff0c;结果才为真。 表达式1表达式…

2023潮玩盲盒小程序盲盒商城源码(开源+微信登录+支付对接)

潮玩盲盒星尘潮玩盲盒小程序2023潮玩盲盒小程序盲盒商城源码(开源微信登录支付对接)

209. 长度最小的子数组 中等 1.8K

209. 长度最小的子数组 原题链接&#xff1a;完成情况&#xff1a;解题思路&#xff1a;参考代码&#xff1a; 原题链接&#xff1a; 209. 长度最小的子数组 https://leetcode.cn/problems/minimum-size-subarray-sum/description/ 完成情况&#xff1a; 解题思路&#xff1…

单表操作、查询

十四、单表的增删改查&#xff08;DML语句&#xff09; CRUD&#xff08;增删改查&#xff09; 为空要用is null is not null &#xff0c;不能写null <>为等于&#xff0c;也可以为is <>不等于 十五、单表复杂查询 select语句及关系运算符 除了数字&#x…

ROS学习篇之传感器(三)激光雷达

文章目录 一.确定雷达的型号二.安装驱动1.新建一个工作空间"lidar_ws"&#xff08;随便一个你存放代码的地方&#xff09;2.clone下驱动的源代码&#xff08;在lidar_ws/src目录下&#xff09;3.尝试编译一下&#xff08;在lidar_ws目录下&#xff09; 四.在RVIZ中的…

redis的四种模式优缺点

redis简介 Redis是一个完全开源的内存数据结构存储工具&#xff0c;它支持多种数据结构&#xff0c;以及多种功能。Redis还提供了持久化功能&#xff0c;可以将数据存储到磁盘上&#xff0c;以便在重启后恢复数据。由于其高性能、可靠性和灵活性&#xff0c;Redis被广泛应用于…

JavaSwing+MySQL的医药销售管理系统

点击以下链接获取源码&#xff1a; https://download.csdn.net/download/qq_64505944/88108217?spm1001.2014.3001.5503 JDK1.8 MySQL5.7 功能&#xff1a;用户管理&#xff0c;药品库存管理&#xff0c;进销管理&#xff0c;营销管理

产品解读|有了JMeter,为什么还需要MeterSphere?

提起JMeter&#xff0c;相信大部分的测试人员应该都很熟悉。JMeter因其小巧轻量、开源&#xff0c;加上支持多种协议的接口和性能测试&#xff0c;在测试领域拥有广泛的用户群体。一方面&#xff0c;测试人员会将其安装在个人的PC上&#xff0c;用以满足日常测试工作的需要&…

【Claude2体验】继ChatGPT,文心一言,Bing等大模型后,初次对话Claude2的体验

文章目录 &#x1f33a;注意事项&#x1f916;什么是Claude2⭐与之前版本的进步&#x1f6f8;官网的讲解&#x1f354;功能介绍&#x1f384;使用体验&#x1f386;查看不知道如何才能打开的文档 的内容&#x1f386;日常需求✨Claude✨ChatGPT3.5 &#x1f916;总结 &#x1f…

CC1310F128系列 超低功耗低于1GHz射频 微控制器芯片

CC1310F128 是一款经济高效型超低功耗低于1GHz射频器件&#xff0c;凭借极低的有源射频和MCU电流消耗以及灵活的低功耗模式&#xff0c;CC1310F128可确保卓越的电池寿命&#xff0c;并能够在小型纽扣电池供电的情况下以及在能量采集应用中实现远距离工作。 改芯片有三个后缀&am…