SEEM:微软基于 CV 大模型新作,分割“瞬息全宇宙”

news2024/9/20 6:32:06

cb254796aa4480847b380ad2c3685688.png

文 | 智商掉了一地

交互式视觉分割新作,具有语义感知的新模型~

自从 Meta 发布了“分割一切”的 SAM 之后,各种二创如雨后春笋般冒出,昨天微软的一篇论文又在推特上引起讨论,虽然最开始吸引小编的是它的名字——分割“瞬息全宇宙”(《Everything,Everywhere, All at Once》),看到后满脑子都是杨紫琼斩获奥斯卡最佳女主角的这个电影:

16e711361487bc299095d007dea28800.png
▲图1 用 SEEM 分割电影剧照(图源Twitter)

哈哈扯远了...回归正题:

这是个视觉理解方面的多模态 AI 交互研究,受到 LLM 基于 prompt 的通用界面开发的启发,作者提出了一个名为 SEEM 的模型,它能够在一次操作中完成各种分割任务,包括语义、实例和全景分割,同时也支持各种 prompt 类型和它们的任意组合

作者指出,SEEM 有以下 4 个亮点:

  1. 多功能性(Versatile):处理各种类型的 prompt ,例如点击、框选、多边形、涂鸦、文本和参考图像;

  2. 组合式(Compositional):处理 prompt 的任何组合;

  3. 交互性(Interactive):与用户多轮交互,得益于 SEEM 的记忆 prompt 来存储会话历史记录;

  4. 语义感知(Semantic-aware):为任何预测的掩码提供语义标签。

0c6f4f01051b9a8f3a8e353f0e919f64.png
▲图2 SEEM 可以执行任何细分任务

论文题目:
Segment Everything Everywhere All at Once

论文链接:
https://arxiv.org/abs/2304.06718

项目地址:
https://github.com/ux-decoder/segment-everything-everywhere-all-at-once

Demo地址:
https://36771ee9c49a4631.gradio.app/


图像分割:SAM 与 SEEM

在分割问题领域,Meta 几天前提出的 SAM 提供了一个通用且全自动的图像分割方法,它的创新之处在于可以同时执行交互式分割和自动分割,并且可以通过灵活的 prompt 界面来适应新任务和新领域。它解决了传统方法需要很多手动注释和对于特定对象的限制的问题,具有很高的适用性和可扩展性。

自从 SAM 开始,视觉 prompt 的一阵风便吹向了计算机视觉领域。作者比较了 SEEM 和 SAM 的在交互性和语义性方面的区别与联系,:

  • SEEM 在交互性和语义性方面的覆盖范围更广,支持更多类型的 prompt ,并理解语义;而 SAM 只支持受限的交互类型,比如点和框,同时也无法输出语义标签。这主要因为 SEEM 具有统一的 prompt 编码器,将所有视觉和语言 prompt 编码为一个联合表示空间,因此可以支持更具泛化性的用法,并有潜力扩展到自定义 prompt

  • SEEM 在文本到 Mask(grounding 分割)方面表现得很好,可以输出具有语义感知的预测。因此,作者指出 SEEM 的交互和语义性能力更强。

82aba9dd7d1ba7c755e83cf83021aaf3.png
▲图3 与 SAM 在三种任务上的比较

SEEM 模型采用了一种通用的编码器-解码器架构,主要关注 query 和 prompt 之间的复杂交互。模型由文本编码器和视觉采样器组成。文本和视觉 prompt 被编码成可学习的查询,然后送入 SEEM 模型中,并输出 Mask 和语义标签。视觉 prompt 被编码成池化图像特征,然后在 SEEM 解码器中使用 Self-Attention 和 Cross-Attention。如图 4(a) 所示:

f5e242972a8f1e416ea6f0e796683520.png
▲图4 (a)各种 prompt 被编码到一个联合的视觉-语义空间。(b)模型与人之间的多轮交互

SEEM 与人之间的多轮交互如图 4(b),主要包括以下 3 个步骤:

  1. 人给出 prompt;

  2. 模型向人发送预测结果;

  3. 模型更新记忆 prompt。

多功能性

主要利用视觉 prompt 来处理非文本输入(如点、框、涂鸦和另一张图像的指定区域),并将其统一以 token 的形式在同一视觉嵌入空间中表示。该模型采用均匀采样方式获取指定区域的最多 512 个图像特征,同时在语义分割和目标参照分割中,模型通过学习一个共同的视觉-语义空间来实现视觉 prompt 与文本 prompt 的自然对齐。该设计可以避免先前方法中因空间转换耗费大量计算资源以及难以泛化到未见过 prompt 的问题。

组合式

为了满足用户在实际应用中可能使用不同类型或组合输入的需求,组合式提示(prompt)方法必不可少。然而,模型训练过程中面临两个问题:

  1. 训练数据往往只包含单一类型的输入(如无、文本、视觉);

  2. 即使使用视觉 prompt 将所有非文本类型的 prompt 统一到一起与文本 prompt 对齐,它们嵌入的空间仍然不同。

为解决这些问题,提出了一种新的方法:使用不同类型的输出来匹配不同类型的 prompt。在训练过程中,通过匹配 Mask 嵌入 和类型嵌入 ,选择匹配的输出索引,以适应不同的 prompt 类型。实验结果表明,相较于只使用 或 并针对所有 prompt 类型进行匹配的方法,该方法更具优势。在训练后,模型能够熟悉所有 prompt 类型,支持多种组合方式,包括无 prompt 、单个 prompt 类型,或同时使用视觉和文本 prompt。特别的是,即使没有接受这样的训练,可以简单地连接视觉和文本 prompt 并输入到 SEEM 解码器中。

交互性

通常需要多次交互才能完成图像分割的细化,就像 ChatGPT 对话过程一样。在模型中提出了一种称为“记忆 prompt”的新型 prompt 方式,通过它们将来自先前迭代的 Mask 知识传递给当前迭代。与以前使用网络来编码 Mask 的模型不同,SEEM 模型只需要使用几个记忆 prompt 即可,它们使用 Mask 引导的交叉注意力结合特征图来编码历史信息。更新后的记忆 prompt 通过自注意力与其他的 prompt 进行交互,传递当前交互轮次的历史信息。不过这种设计虽然可以轻松扩展以支持同时交互分割多个对象,但还需要进一步的研究。

语义感知

这里的设计与之前的类别无关的交互式分割方法(如 Simple Click 和 SAM)不同,在联合视觉-语义空间中对齐了视觉 prompt 特征与文本特征,因此能够为来自各种 prompt 组合的 Mask 赋予语义标签,如图 4(a) 所示,计算了 Mask 嵌入和视觉采样之间的相似度矩阵。尽管没有为交互式分割训练任何语义标签,但由于联合视觉-语义空间的作用,计算出的 logits 已经较好地对齐了。

有趣的结果

作者提供了体验 Demo,访问链接已经放在了本文的开头,感兴趣的朋友可以自己试试看。在实验中展示了以下可视化的实验结果:

如图 5 所示,在点击分割中,SEEM 超越 SAM 的地方在于支持用户的任意格式点击或勾勒。此外,它同时给出了分割 Mask 的语义标签。

0e4f9ff776d14d59ebb1a795265459ab.png
▲图5 点击分割

如下图所示,参考的文本显示在 Mask 上,同时,SEEM 适用于卡通、电影和游戏领域的各种类型的输入图像。

ff34586c2880fe43d72661512c3f2b4d.pnga881fb49eaeea080ec568d2b67a589d0.png

图 7 中,给出一个具有简单空间提示的参考图像,SEEM 可以分割出不同目标图像中语义相似的内容。

a494caebf5484b92ac5a4ec7232b78af.png
▲图7 参考图像的分割

图 8 展示了即使面对由模糊或强烈形变引起的明显外观变化,也能精确地分割所需对象。

c85930ae97ea78ecec3adca50e1a5484.png
▲图8 使用“第一帧+一笔画”方法进行 zero-shot 视频目标分割

同时在 Demo 中还可以体验将音频转换为文本 prompt 来分割对象的操作,如图 9 所示:

1871a381b14a7b193e0130cb1d4c37c4.png
▲图9 用音频来分割图像

小结

对于 SEEM 模型,在交互和 prompt 方面可以总结如下:

  • 可以同时进行所有可能的 prompt 组合的语义分割,具有很好的泛化性能,能够处理多种词汇和多种视觉 prompt。

  • 可以与用户进行交互,接受多种视觉 prompt,包括点击、框选、多边形、涂抹、文本和参考图像分割。这使得模型对于不同的任务和用户需求有很好的适应能力。

  • 使用了一个 prompt 编码器将视觉 prompt 映射到一个联合的视觉-语义空间中,这使得模型可以适应不同类型的 prompt 并灵活地组合它们,从而提高分割的效果和精度。

相信未来会有更多基于交互式计算机视觉的研究涌现,这将使我们改变观念、重新审视该领域。这些研究可能涌现于图像理解和多模态学习领域,为智能交互的发展带来崭新的可能性。让我们拭目以待,期待更多的新研究与发现吧~

b86991a417afd67308280d9877ba922b.png

卖萌屋作者:智商掉了一地

北理工计算机硕士在读,近期沉迷于跟 ChatGPT 唠嗑,对一切新颖的 NLP 应用充满好奇,正在努力成为兴趣广泛的斜杠青年~

作品推荐

  1. 我是粉红猪佩奇,我要把粉色吹风机写进 IJCAI 论文!

  2. AI取代人类,可以自动生成prompt了

  3. ICLR 2023 最高分论文被锤抄袭??

  4. AI讲话总爱“结巴”?这篇NeurIPS论文找到了病因,结巴率已接近人类!

  5. 如何提升大规模Transformer的训练效果?Primer给出答案

  6. Yoshua Bengio:我的一生

8ed0b675b97d39c20c203cc4777c5ab5.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/417354.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

让技术造福残障人士,让开发助力无障碍

前言 随着互联网技术的快速发展,越来越多的领先技术运用到公益领域中来。运用科技来造福残障人士,比如前几年比较智能化的自动行走轮椅,盲人阅读器,以及聋哑人助听器等,都是通过科技来帮助残障人士方便生活的例子。作为…

OpenAI文档翻译——在不通的场景下如何更好的设计ChatGPT提示词

概述 OpenAI可以被广泛的应用于各种任务,他为各种模型提供使用简单而功能强大的API。你可以输入一些文本作为提示词,OpenAI则会生成对应的提示词补全,在使用过程中这就是会话形式以及能够记住上下文的体现。探索如何生成提示词的最好方法就是…

地图和规则来啦!全国大学生智能汽车竞赛百度创意组正式发布

‍‍「全国大学生智能汽车竞赛」是教育部倡导的大学生科技A类竞赛,是2022年全国普通高校大学生竞赛榜单内竞赛,中国高等教育学会将其列为含金量最高的大学生竞赛之一。在全国数百所高校的支持下,全国大学生智能汽车竞赛至今已成功举办了十七届…

2023AE软件、Adobe After Effects下载、安装教程

最后附下载地址 2023AE软件是一款由Adobe公司开发的视频编辑软件,也被称为Adobe After Effects。它在广告、电影、电视和网络视频等领域广泛应用,用于制作动态图形、特效、合成和其他视觉效果。该软件支持多种视频和音频文件格式,具有丰富的…

一文了解vue3的toRef和toRefs?

文章目录toRef / toRefs首先toRef的使用toRefs的使用&#xff1a;总结reactive定义对象类型<template><h3>姓名&#xff1a;{{ person.name }}</h3><h3>年龄&#xff1a;{{ person.age }}</h3><h3>薪资&#xff1a;{{ person.job.j1.salar…

微软发布了 97 个漏洞的补丁,包括主动勒索软件漏洞

今天是本月的第二个星期二&#xff0c;微软发布了另一组安全更新&#xff0c;修复了影响其软件的97 个漏洞&#xff0c;其中一个漏洞已被广泛用于勒索软件攻击。 97 个错误中有 7 个被评为严重&#xff0c;90 个被评为重要。有趣的是&#xff0c;其中 45 个缺陷是远程代码执行…

抽象简单web

由于js中for循环大致可以包含为 简单的遍历数组 遍历对象的属性 遍历字符串 多层循环 使用 break 和 continue 使用 for...of 遍历数组 使用 forEach 遍历数组 那么由于水平问题&#xff0c;将会一个个精通后才出一图流 简单的遍历数组 在进行实践前&#xff0c;需要简单了解…

Redis 7 事务、管道、发布订阅、主从、哨兵、集群

一、事务 1、简介 可以一次执行多个命令&#xff0c;本质是一组命令的集合。一个事务中的所有命令都会序列化&#xff0c; 按顺序地串行化执行而不会被其他命令插入&#xff0c;不许加塞一个队列中&#xff0c;一次性、顺序性、排他性的执行一系列命令 2、实战 常用命令 正…

(学习日记)2023.4.12

写在前面&#xff1a; 由于时间的不足与学习的碎片化&#xff0c;写博客变得有些奢侈。 但是对于记录学习&#xff08;忘了以后能快速复习&#xff09;的渴望一天天变得强烈。 既然如此 不如以天为单位&#xff0c;以时间为顺序&#xff0c;仅仅将博客当做一个知识学习的目录&a…

在线安装rancher2.4管理K8S集群并部署服务

条件&#xff1a; 1. 准备至少3台机器&#xff1b; 2. 三台机器需要有网络&#xff1b; 3. 安装rancher和K8S集群&#xff1b; # master节点 [rootlocalhost ~]# hostnamectl set-hostname k8s-master && bash [rootk8s-master ~]# hostname k8s-master [rootk8s-ma…

【面试】Mysql主键索引普通索引索引和唯一索引的区别是什么?

前言 在 MySQL 中, 索引是在存储引擎层实现的, 所以并没有统⼀的索引标准, 由于 InnoDB 存储引擎在 MySQL数据库中使⽤最为⼴泛, 下⾯以 InnoDB 为例来分析⼀下其中的索引模型.在 InnoDB 中, 表都是根据主键顺序以索引的形式存放的, InnoDB 使⽤了 B 树索引模型&#xff0c;所…

WAF攻防-信息收集识别被动探针代理池仿指纹白名单

文章目录信息收集常见检测&#xff1a;信息收集常见方法&#xff1a;信息收集-被动扫描-黑暗引擎&三方接口信息收集-工具扫描-Awvs&Xray&Goby内置信息收集常见检测&#xff1a; 1、脚本或工具速度流量快 2、脚本或工具的指纹被识别 3、脚本或工具的检测Payload 信…

013:Mapbox GL添加marker

第013个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+mapbox中添加marker。 直接复制下面的 vue+mapbox源代码,操作2分钟即可运行实现效果 文章目录 示例效果配置方式示例源代码(共70行)相关API参考:专栏目标示例效果 配置方式 1)查看基础设置:https://xiaozhu…

重装系统需要做的事

1 设置小鹤双拼 winr 输入regedit&#xff0c;定位到「计算机\HKEY_CURRENT_USER\Software\Microsoft\InputMethod\Settings\CHS」 右键新建新建字符串值 数值名称&#xff1a;UserDefinedDoublePinyinScheme0 数值数据&#xff1a;小鹤双拼2*iuvdjhcwfgxmlnpbksqszxkrltvyovt …

css 使用blur,实现背景色高斯模糊,但不影响背景上的内容

实现效果 实现原理 1.filter&#xff1a;blur() 2.伪元素设置&#xff0c;不影响子元素显示 <!-- 库位使用率 --><div class"bkPart statusPart"><div class"co-title">库位使用率</div><div class"pickPos"><…

【RocketMQ】顺序消息实现原理

全局有序 在RocketMQ中&#xff0c;如果使消息全局有序&#xff0c;可以为Topic设置一个消息队列&#xff0c;使用一个生产者单线程发送数据&#xff0c;消费者端也使用单线程进行消费&#xff0c;从而保证消息的全局有序&#xff0c;但是这种方式效率低&#xff0c;一般不使用…

CDH6.3.2大数据集群生产环境安装(九)之部署flink1.13.2客户端

添加flink用户(可选,这里是因为公司需要这个参数所以才添加;所有节点都添加上,省事) 29.1. 添加 useradd flink部署flink客户端 选择一个集群节点作为客户端部署节点,这里选择zcpt-prd-bigdata-worker-01节点 30.1. 上传资源 flink-1.13.2-bin-scala_2.12.tgz 30.2. 解压…

Docker容器的官方镜像仓库

一、 官方镜像仓库介绍 镜像仓库分类 公有仓库 私有仓库 官方镜像仓库属于公有仓库 网址: hub.docker.com 网站名称:dockerhub 注册邮箱 创建仓库 创建自己的仓库 登录仓库 web界面登录 linux命令行登录 直接docker login 输入用户名和密码 这个自己创建的存储库一…

PID控制算法基础知识

PID控制算法基础知识 本文为PID控制算法的基础介绍 文章目录PID控制算法基础知识一、算法概述二、控制器的P、I、D项总结一、算法概述 PID是一个闭环控制算法。要实现PID算法&#xff0c;必须在硬件上具有闭环控制&#xff0c;就是需要有反馈。例如控制一个电机的转速&#xf…

RabbitMQ基础核心概念

目标&#xff1a; 了解RabbitMQ的核心概念 学习步骤&#xff1a; 1、模型概念 2、Producer (生产者) 、 Consumer(消费者) 3、Exchange (交换机) 4、Queue (消息队列) 5、Broker&#xff08;服务节点&#xff09; 6、RabbitMQ的五种工作模式 一、模型概念 说白了&#xff0c;R…