SegGPT: Segmenting Everything In Context

news2025/1/12 12:17:55

目录

  • 摘要
  • 本文方法
    • 上下文着色
    • Context Ensemble
    • In-Context Tuning
  • 消融实验

摘要

最近基于大规模数据的模型越来越火了,chat GPT以及seg everything,感觉后面很多像目标检测,图像恢复等等都会出现这种泛化能力强,基于大规模数据的模型出现

回到本文:

  1. 提出了SegGPT,用于分割上下文中所有内容的通用模型,将各种分割任务统一到一个通用上下文学习框架中,将不同类型的分割数据转换为相同格式的图像来适应不同类型的分割数据
  2. SegGPT的训练被表述为每个数据样本的随机颜色映射的上下文着色问题。目标是根据上下文完成不同的任务,而不是依赖于特定的颜色。
    经过训练后,SegGPT可以在图像或视频中通过上下文推理执行任意分割任务。例如对象实例、素材、部件、轮廓和文本。
    SegGPT在广泛的任务上进行评估,包括小样本语义分割、视频对象分割、语义分割和泛视分割。我们的结果表明,无论是定性还是定量,在分割域内和域外目标方面都有很强的能力。

代码链接
论文链接
在这里插入图片描述
SegGPT能够仅使用一个模型就分割上下文中的所有内容,该模型使用上下文内的示例来指示不同的任务。对于每个示例,左边的橙色框显示示例/提示图像及其对应的MASK,而右边的蓝色框显示输入图像和由此产生的MASK输出。MASK表示附着在图像上的明亮区域。每个示例的标题(在黄色框中)仅用于解释。

值得注意的是,SegGPT可以执行任意对象分割(分割场景的不同组件,如大红色球体、所有球体、所有球体的轮廓、顶部表面和阴影)、多部分分割(标志性的自由女神像的专门部分)、彩虹分割、训练中没有视频的视频对象分割,以及具有可学习提示调准的近集语义分割。图5中显示了更多的示例。

本文方法

在这里插入图片描述
SegGPT整体训练框架:将不同的分割数据,包括部分、语义、实例、全景、人、医学图像和航空图像分割,并将其转换为相同的图像格式。生成动态共享相似上下文的上下文内样本,例如,每列中显示的重叠颜色,它们表示相同的类别或相同的实例。采用了一个通用的Painter框架,以上下文着色为训练目标,并采用随机着色方案,使训练更加灵活和泛化。

上下文着色

在传统的Painter框架中,每个任务的颜色空间都是预先定义好的。例如,对于语义分割,预先定义一组颜色,并为每个语义类别分配一个固定的颜色。从而得到模型只依靠颜色本身来确定任务,而不是利用片段之间的关系。
为了解决这一限制,本文提出了一种随机着色方案用于上下文着色。
首先随机采样与输入图像共享相似上下文的另一张图像,例如相同的语义类别或对象实例。
接下来,从目标图像中随机抽取一组颜色,并将每个颜色映射到一个随机的颜色。这将导致对应像素的重新着色。
结果,得到了两对图像,它们被定义为上下文内对。
此外,还引入了混合上下文训练方法,即使用混合实例训练模型。这涉及到用相同的颜色映射将多个图像拼接在一起。
然后,生成的图像被随机裁剪和调整大小,以形成混合上下文训练样本。通过这样做,模型学会关注图像的上下文信息,而不是仅仅依赖特定的颜色信息来确定任务。

Context Ensemble

在这里插入图片描述
空间集成(上)和特征集成(下)。空间集成策略包括将多个示例图像拼接在一起,并根据输入分辨率调整它们的大小。特征集成策略将查询图像在每个注意层之后的特征进行平均,从而使查询图像聚合所有参考示例。

SegGPT支持上下文中的任意分割,例如,单个图像及其目标图像的示例。目标图像可以是单一颜色(不包括背景),也可以是多种颜色,例如,在一个镜头中分割出几个类别或感兴趣的对象。具体来说,给定一个要测试的输入图像,我们将其与示例图像拼接,并将其提供给SegGPT以获得相应的上下文内预测。

为了提供更准确和具体的上下文,可以使用多个示例。例如,可以使用相同语义类别的几个例子,或者视频中前面的帧。为了有效地利用SegGPT模型的多个示例,我们提出了两种上下文集成方法。一种是空间集成(Spatial Ensemble),将多个样本拼接在n × n的网格中,然后下采样到与单个样本相同的大小。该方法符合上下文着色的直觉,可以在几乎没有额外成本的情况下提取多个示例的语义信息。另一种方法是功能集成。多个示例在批处理维度上进行组合,独立计算,但查询图像的特征在每个注意层之后平均。通过这种方式,查询图像在推理期间收集关于多个示例的信息。

In-Context Tuning

在这里插入图片描述
说明了不同任务规范上的上下文调优。对于上下文调优,我们冻结整个预训练的模型,只优化作为输入上下文的可学习图像张量。我们可以在特定的数据集(ADE-20K语义分割),特定的场景(你的公寓),甚至特定的人物(伯特的脸)上执行上下文内的提示调优

调优后,我们将学习到的图像张量取出,并将其用作特定应用的即插即用键。例如,给定一个具有固定对象类别集的数据集,例如ADE20K,我们可以为这个数据集训练一个定制的提示符,同时对模型的通用性没有损害。或者,我们可以优化一个特定场景的提示图像,例如,你的公寓,或一个特定的角色,例如,伯特的脸。这为广泛的应用提供了机会。

消融实验

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/410533.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[2019.01.24]JNI经验积累

[1 jobject<--->jclass|jstring](1)jobject向上转型jclass|jstring:jclass jcls static_cast<jclass>(jobject);jstring jstr static_cast<jclass>(jobject);(2)jclass|jstring向下转型jobject:默认情况下是自动转换的[2 jstring<--->const char*](1…

c++string相关内容

1. string基本概念本质:string是C风格的字符串&#xff0c;而string本质上是一个类string和 char *区别:char * 是一个指针string 是一个类&#xff0c;类内部封装了char *&#xff0c;管理这个字符串&#xff0c;是一个char*型的容器 特点:string类内部封装了很多成员方法例如…

当下的网络安全行业前景到底怎么样?还能否入行?

前言网络安全现在是朝阳行业&#xff0c;缺口是很大。不过网络安全行业就是需要技术很多的人达不到企业要求才导致人才缺口大常听到很多人不知道学习网络安全能做什么&#xff0c;发展前景好吗&#xff1f;今天我就在这里给大家介绍一下。网络安全作为目前比较火的朝阳行业&…

又一恐怖技能!卡耐基梅隆大学发布超强智能体,炸翻科研圈

文 | 小戏一名普通博士生的工作日常是什么&#xff1f;上网查查资料&#xff1f;读读文献&#xff1f;根据各种完善工具的 API 或者文档写两行代码&#xff0c;然后再输给实验机器完成高精度的实验&#xff1f;仔细思考一下我们这些所谓“科研工作者”的工作流&#xff0c;却细…

如何使用ChatGPT API 及 问题解决

如何使用ChatGPT API 及 问题解决1, 注册OpenAI账号2&#xff0c;获取OpenAI的API秘钥3&#xff0c;pip安装openai库3.1 pip安装openai库3.2 pip安装错误4&#xff0c;Chatgpt API连接测试4.1 Chatgpt API连接测试4.2 连接测试错误1, 注册OpenAI账号 关于注册账号&#xff0c;…

订单超时自动取消3种方案

文章目录 1.定时任务2.被动取消3.延时消息大家对电商购物应该都比较熟悉了,我们应该注意到,在下单之后,通常会有一个倒计时,如果超过支付时间,订单就会被自动取消。 今天,我们来聊聊订单超时未支付自动取消的几种方案。 1.定时任务 这是最容易想到的办法,定时任务去轮…

配电系统的线性三相潮流研究【IEEE123节点】(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

自媒体小六视野宣布公司倒闭

我是卢松松&#xff0c;点点上面的头像&#xff0c;欢迎关注我哦&#xff01; 自媒体的红利难道已经走到尽头了吗? 最近顶级网红小六视野宣布公司破产、海派团队散伙。自己崩溃大哭&#xff0c;表示很不舍&#xff0c;并且小六视野的账号也不属于自己&#xff0c;属于公司&a…

盐城北大青鸟:Java的四大就业方向,薪资也是一级棒

近几年&#xff0c;由于互联网的快速发展&#xff0c;有许多新兴的语言和技术逐渐进入我们的视野&#xff0c;导致唱衰Java即将“走下神坛”的声音不绝于耳&#xff0c;真的是这样吗&#xff1f; 数据是从来不会骗人的&#xff0c;根据官方发布的最新TIOBE 编程语言排行榜可知…

Vue03_vue属性_数据代理

Vue中 $ 开始的属性是供程序员开发使用的 _ 开始的属性是vue 框架底层使用的 可以直接访问data 中的属性 使用数据代理机制实现 数据代理机制: 通过访问代理对象的属性 间接 访问 目标对象的属性 数据代理机制 核心 Object.defineProperty 为对象添加一个属性 Object.defi…

从工厂普工到Python女程序员,聊聊这一路我是如何逆袭的?

我来聊聊我是如何从一名工厂普工&#xff0c;到国外程序员的过程&#xff0c;这里面充满了坎坷。过去我的工作是在工厂的流水线上&#xff0c;我负责检测电池的正负极。现如今我每天从早上6:20起床&#xff0c;6点四五十分出发到地铁站&#xff0c;7:40到公司。我会给自己准备一…

Wombat:93%ChatGPT性能!无需RLHF就能对齐人类的语言模型

文 | zzy文章地址: https://arxiv.org/abs/2304.05302v1训练代码&#xff1a;https://github.com/GanjinZero/RRHF模型权重&#xff1a;https://huggingface.co/GanjinZero/wombat-7b-delta文章提出RRHF一种无须强化学习的对齐方法训练语言模型。该文章利用chatGPT或者GPT-4作为…

浅析时间复杂度与空间复杂度

时间复杂度 何为时间复杂度 算法的时间复杂度&#xff0c;是一个用于度量一个算法的运算时间的一个描述&#xff0c;本质是一个函数&#xff0c;根据这个函数能在不用具体的测试数据来测试的情况下&#xff0c;粗略地估计算法的执行效率&#xff0c;换句话讲时间复杂度表示的…

GPT-4问世;LLM训练指南;纯浏览器跑Stable Diffusion

1.多模态GPT-4正式发布&#xff1a;支持图像和文本输入&#xff0c;效果超越ChatGPT OpenAI的里程碑之作GPT-4终于发布&#xff0c;这是一个多模态大模型&#xff08;接受图像和文本输入&#xff0c;生成文本&#xff09;。主要能力有&#xff1a; GPT-4可以更准确地解决难题&a…

【软件安装】图数据库_Neo4j下载与安装配置详解

【软件安装】图数据库_Neo4j安装下载详解 文章目录【软件安装】图数据库_Neo4j安装下载详解1. 前言2. 下载Neo4j3. 安装 配置3.1 解压3.2 配置4. 启动Neo4j5. 参考1. 前言 因为使用Neo4j时默认是需要java-jdk的支持&#xff0c;因此在下载neo4j之前&#xff0c;需要下载jdk&a…

7年,从功能测试到测试开发,我证明了自己

我感觉我是一个比较有发言权的人吧&#xff0c;我在测试行业爬模滚打7年&#xff0c;从点点点的功能测试到现在成为测试开发工程师&#xff0c;工资也翻了几倍&#xff1b; 个人觉得&#xff0c;测试的前景并不差&#xff0c;只要自己肯努力&#xff1b;我刚出来的时候是在鹅厂…

Android 高通Camera2 Camera Device Close

1、很多人看到这个日志第一感觉可能觉得哪里没有合理释放&#xff0c;于是带着这个思路去进行百度探索 2、一开始我去寻找 ImageReader.OnImageAvailableListener 这个问题 var afterBitmap: Bitmap? null/**监听拍照的图片 */private val imageAvailableListener ImageRead…

算法 贪心3 || 1005. K 次取反后最大化的数组和 134. 加油站 135. 分发糖果

1005. K 次取反后最大化的数组和 思路&#xff1a;给数组按照绝对值大小排序&#xff0c;优先将负数转成正数。如果此时 k % 2 1 。最后再将绝对值最小的值变成负数&#xff08;该值可能原本是负数&#xff09; 而不是直接从小到大排序。 例如-8&#xff0c;-5&#xff0c;-5…

Zebec Protocol 出席香港 Web3 峰会,带来了哪些信息?

梳理香港加密新政的细节&#xff0c;一个明确的脉络是&#xff0c;香港加密新政的整体目的是令虚拟资产交易明确化和合法化&#xff0c;通过不断完善的监管框架&#xff0c;促进香港虚拟资产行业的可持续和负责任地发展。 在加强合规和持牌经营的监管思路下&#xff0c;长期审…

JavaScript|JS修仙篇|一本就够了|笔记|(超详细|保姆级)

&#x1f648;作者简介&#xff1a;练习时长两年半的Java up主 &#x1f649;个人主页&#xff1a;老茶icon &#x1f64a; ps:点赞&#x1f44d;是免费的&#xff0c;却可以让写博客的作者开兴好久好久&#x1f60e; &#x1f4da;系列专栏&#xff1a;Java全栈&#xff0c;计…