视觉霸主SAM和文图霸主CLIP强强联合!苹果联合UIUC,发布统一视觉模型SAM-CLIP,或掀起多模态新浪潮

news2025/2/24 18:04:39

作者 | ZenMoore

相信大家对 SAM[1] 并不陌生,它是 Meta 此前发布的 Segment Anything Model (分割一切模型)。一经发布便火遍全网震惊世界,史称“视觉领域的 ChatGPT 时刻”。

大模型研究测试传送门

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
http://hujiaoai.cn

正如 ChatGPT 出现后,很多 NLP 的任务都离不开 ChatGPT 等 LLM 的辅助;视觉也是一样,很多 CV 的新工作都离不开 SAM 的辅助。

但笔者一直好奇,什么时候这位视觉霸主,可以和语言霸主 ChatGPT 碰一碰来个联姻?或许这会是多模态大模型的又一个里程碑?

FYI: 目前多模态大模型的瓶颈很大程度上来自于视觉编码器组件。

所以,当笔者看到 SAM-CLIP 的时候,眼前一亮!这是 SAM 进军多模态基础模型的第一步,也是关键的一步!

来!我们看看 SAM-CLIP 做了什么...

论文标题:SAM-CLIP : Merging Vision Foundation Models Towards Semantic and Spatial Understanding

论文链接:https://arxiv.org/abs/2310.15308

SAM 为何要与 CLIP 联姻?

SAM[1] 顾名思义,是一个专门用来进行图像分割的模型,如下图 1 所示:

图1:SAM 模型结构以及功能展示。

▲图1:SAM 模型结构以及功能展示。

SAM 在海量的分割数据集上进行了训练,具有极强的图像理解和分割能力,但是,SAM 因为没有太多文本信息的加成,学到的更多是**空间理解能力 (spatial understanding)**,会看不会想。

而 CLIP[2] 就不一样了。如图 2 所示,它是一个和文本编码器对齐的模型。也就是说,它的视觉组件学到的更多是**语义理解能力 (semantic understanding)**,会想不会看。

图2:CLIP 模型结构和原理 (对比学习预训练)。

▲图2:CLIP 模型结构和原理 (对比学习预训练)。

因此,两个模型虽然都具备图像理解能力,但却着重于不同的方面:SAM 更偏视觉一些,强调局部性和空间能力;CLIP 更偏语言一些,强调整体性和语义能力。通过两个模型的融合,取长补短,打造一个兼具两类特性的视觉编码器,便是本文联姻两大模型的最大动机。

更进一步地,目前火出圈的多模态大模型如 GPT-4V 的开源平替 LLaVA, Mini-GPT4, BLIP-2 等,其原理都需要依赖一个和文本语义特征空间对齐的视觉编码器充当眼睛,一般用的都是 CLIP 及其衍生模型。这也是为什么 SAM-CLIP 很可能给多模态基础模型带来新的增长的原因。

SAM-CLIP “联姻”方法

总的来说,本文基于持续学习 (continual learning) 和知识蒸馏 (knowledge distillation) 两个方法合并两个模型。如图 3 所示。

图3:SAM-CLIP 方法原理。

▲图3:SAM-CLIP 方法原理。

由于 CLIP 模型的既定图像分辨率的限制,本文不采取“向 CLIP 合并 SAM”的做法,而采用了“向 SAM 合并 CLIP”。

先准备好经过训练的 SAM 和 CLIP 各组件:

  • SAM:图像编码器,提示编码器,轻量的分割掩码解码器 ()。

  • CLIP: 图像编码器,文本编码器。

以及 SAM 模型 和 CLIP 模型之前训练时候的数据的小子集(<10%), 和 .

  • 使用 CC3M, CC12M, YFCC-15M, ImageNet-21k 中的图像构成 40.6M 无标签图像数据;

  • 使用 5.7% 的 SA-1B 数据。

这些数据作者称为 Merged-41M.

然后按照以下步骤执行:

  1. 本文的模型 的参数使用 SAM 的参数进行初始化。

  2. 使用 SAM 的掩码解码器初始化 SAM 头 ()参数。

  3. 随机初始化 CLIP 头 ()参数。

  4. 其他组件参数冻结不训练。

  5. Head Probing: 冻结 参数,只训练 . 使用余弦蒸馏损失在 上训练:.

  6. 多任务蒸馏:解冻所有头以及 进行训练。损失函数为:,其中,.

是 SAM 模型的几何提示 (geometric prompt),, 指的是使用的和的线性组合

论文中还有更多关于分辨率提升训练的技巧,推荐阅读原文的 Implementation Details.

SAM-CLIP 效果如何

从上表可见,合并 SAM 和 CLIP 之后的性能下降不是很明显,极大程度上在不损害各自能力的前提下,融合了两者的优势。

从上表可见,SAM-CLIP 的语义分割能力非常强劲。

上面的实验表明:

  • SAM-CLIP 学到了更加丰富的图像表示;

  • SAM-CLIP 在图像分类任务上,取得了和 CLIP 不相上下的结果;

  • 同时使用两个头的话,SAM-CLIP 的语义分割能力得到了进一步增强。

小结

SAM-CLIP 的出现可能标志着多模态基础模型的又一个重要技术节点。通过将 SAM(具有强大的空间理解能力)与 CLIP(具有强大的语义理解能力)相结合,该模型成功地整合了两者的优势,创造出了一个兼具图像和文本理解的强大模型。基于持续学习和知识蒸馏的融合策略使得这一结合不仅实现了两者能力的整合,还确保了性能的最大化。实验结果也进一步证实了 SAM-CLIP 在图像分类、语义分割等任务上都表现出色。这为多模态研究开辟了新的可能性,展示了融合空间与语义理解能力在实际应用中的潜力。

参考资料

[1]SAM: https://segment-anything.com/
[2]CLIP: https://openai.com/research/clip

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1159049.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Cargo Therapeutics】申请1亿美元纳斯达克IPO上市

来源&#xff1a;猛兽财经 作者&#xff1a;猛兽财经 猛兽财经获悉&#xff0c;美国生物制药公司【Cargo Therapeutics】近期已向美国证券交易委员会&#xff08;SEC&#xff09;提交招股书&#xff0c;申请在纳斯达克IPO上市&#xff0c;股票代码为(CRGX),Cargo Therapeutics…

大厂面试题-什么是服务网格?

概述 服务网格这个概念出来很久了&#xff0c;从2017年被提出来&#xff0c;到2018年正式爆发&#xff0c;很多云厂商和互联网企业都在纷纷向服务网格靠拢。像蚂蚁集团、美团、百度、网易等一线互联网公司&#xff0c;都有服务网格的落地应用。 服务网格是微服务架构的更进一…

借助AxProtector CTP,软件更能坚守抗盗版和逆向工程阵地

威步的软件保护机制采用了先进的混淆技术。 最新的编译时保护技术利用LLVM编译器框架&#xff0c;以实现高效的保护目标。 AxProtector CTP确保应用程序的安全性&#xff0c;同时符合特定平台的指导原则&#xff0c;无需运行时代码修改。 最近的CodeMeter保护套件更新已支持…

LeetCode----42. 接雨水

题目 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height = [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释:上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表示的高度图,在这种情况下,可以接 6 个单位的雨水(蓝…

vue-安装Vue开发者工具

极简插件&#xff1a;下载->开发者模式->拖曳安装->插件详情允许访问文件 网址&#xff1a;https://chrome.zzzmh.cn/index 搜索Vue Devtools 下载下来的安装包先解压 然后点击chrome浏览器的右上角三个点的按钮在里面找到扩展程序这个选项&#xff0c;然后点进去管理…

智力测试情商测试小程序源码/带流量主提升智力微信小程序源码

智力测试情商测试小程序源码&#xff0c;这是一个考验智力&#xff0c;心理上面的一个测试游戏&#xff0c;支持多种测试方法。 比如有: 智商测试丨情商测试 | 性格测试丨爱情测试 | 抑郁症测试丨焦虑症测试 | 心理压力测试丨生活满意度测试&#xff0c;通过不同的测试&#xf…

环境变量(图文详解)

Linux中的环境变量&#xff08;图文详解&#xff09; 1. 基本概念2. 常见环境变量PATH : 指定命令的搜索路径HOME : 指定用户的主工作目录(即用户登陆到Linux系统中时,默认的目录)SHELL : 当前Shell,它的值通常是/bin/bash 3. 查看环境变量方法4. 测试PATH5. HOME6. 和环境变量…

每日一练 | 华为认证真题练习Day124

1、OSPFv3使用哪个区域号标识骨干区域&#xff1f; A. 0 B. 3 C. 1 D. 2 2、某路由器OSPFv3邻接关系如下&#xff0c;则本路由器是ABR。 A. 对 B. 错 3、IPv6地址中不包括下面哪种类型的地址&#xff1f; A. 任播地址 B. 广播地址 C. 组播地址 D. 单播地址 4、如果一个…

中国人民大学与加拿大女王大学金融硕士项目——在繁忙的工作之余,坚持自我增值

’在这个快节奏的时代&#xff0c;我们常常被繁忙的工作和生活所牵绊&#xff0c;很难找到时间和精力去实现自己的梦想和追求。然而&#xff0c;我们不能让这些琐事成为我们前进道路上的障碍&#xff0c;应该在繁忙的工作之余&#xff0c;坚持自我增值。作为金融行业的专业人士…

linux下的程序环境和预处理(gcc演示)

1. 程序的翻译环境和执行环境 在ANSI C的任何一种实现中&#xff0c;存在两个不同的环境。 第1种是翻译环境&#xff0c;在这个环境中源代码被转换为可执行的机器指令。 第2种是执行环境&#xff0c;它用于实际执行代码。 2. 详解编译链接 2.1 翻译环境 组成一个程序的…

【深度学习】pytorch——实现CIFAR-10数据集的分类

笔记为自我总结整理的学习笔记&#xff0c;若有错误欢迎指出哟~ 往期文章&#xff1a; 【深度学习】pytorch——快速入门 CIFAR-10分类 CIFAR-10简介CIFAR-10数据集分类实现步骤一、数据加载及预处理实现数据加载及预处理归一化的理解访问数据集Dataset对象Dataloader对象 二、…

GWAS软件:GEMMA的安装和使用教程

GCTA和GEMMA是GWAS分析中应用最广泛的两款软件&#xff0c;GCTA可以在​Windows电脑下运行&#xff0c;而GEMMA软件只有Linux和Mac系统&#xff0c;这里介绍一下如何在Linux系统中安装GEMMA软件。 ​ 1. GEMMA名字来源 GEMMA名称来源&#xff1a; G&#xff1a; Genome-wid…

万字图文详细指导一步一步训练模型实现换-·脸,基于DeepFaceLab最新的DeepFakes实现视频换-·脸和直播换-·脸(全套资料免费下载)

万字图文详细指导一步一步训练模型实现换-脸,基于DeepFaceLab最新的DeepFakes实现视频换-脸和直播换-脸(全套资料免费下载)。 DeepFaceLab3:软硬件以及系统要求: DeepFaceLab3:软硬件以及系统要求By tony DeepFaceLab 0 Comments 5929,898 views。这段时间DeepFaceLab也…

HackTheBox-Starting Point--Tier 1---Tactics

文章目录 一 题目二 实验过程三 Psexec工具使用 一 题目 Tags Network、Protocols、SMB、Reconnaissance、Misconfiguration译文&#xff1a;网络、协议、中小企业、侦察、配置错误Connect To attack the target machine, you must be on the same network.Connect to the S…

表格没值显示 —

<el-table-columnprop"turnoverType"label"流水方式"align"center"><template slot-scope"scope"><!-- <span v-if"scope.row.turnoverType 1">全佣</span><span v-if"scope.row.turno…

Python---字符串输入和输出---input()、格式化输出:%,f形式,format形式

字符串输入: 在Python代码中&#xff0c;我们可以使用input()方法来接收用户的输入信息。记住&#xff1a;在Python中&#xff0c;input()方法返回的结果是一个字符串类型的数据。 如果之后使用输入的数据&#xff0c;一定要记得利用数据类型转换。 相关链接&#xff1a;Pyt…

mysql之基础语句

数据库的列类型 int&#xff1a;整型 用于定义整数类型的数据 float&#xff1a;单精度浮点4字节32位 准确表示到小数点后六位 double&#xff1a;双精度浮点8字节64位 char&#xff1a;固定长度的字符类 用于定义字符类型数据&…

Git 标签(Tag)实战:打标签和删除标签的步骤指南

目录 使用 Git 打本地和远程标签&#xff08;Tag&#xff09;删除本地和远程 Git 标签&#xff08;Tag&#xff09;开源项目标签&#xff08;Tag&#xff09;实战打标签删除标签 使用 Git 打本地和远程标签&#xff08;Tag&#xff09; 打本地标签&#xff1a; 首先&#xff0c…

重生奇迹MU天空之城简介

天空之城&#xff0c;一个极其美丽的名字&#xff0c;重生奇迹MU中的天空之城是一处高级游戏地图&#xff0c;里面的场景让人记忆犹新&#xff0c;接下来就一起看看吧 超高的等级限制 沙漠其实也有等级限制&#xff0c;只是那里稍微小一些&#xff0c;而且在沙漠地图中&#…

【2021研电赛】装载机物料智能识别系统

本作品介绍参与极术社区的有奖征集|分享研电赛作品扩大影响力&#xff0c;更有重磅电子产品免费领取! 团队介绍 参赛单位&#xff1a;Guangxi University of Science and Technology 参赛队伍&#xff1a;Sunshine 参赛队员&#xff1a;Taylor&#xff0c;Anais&#xff0c;S…