【计算机视觉 | 语义分割】OVSeg：分割一切后，SAM又能分辨类别了，Meta/UTAustin提出全新开放类分割模型

news2026/2/10 8:14:19

文章目录

一、前言
二、研究背景
三、论文解读
- 3.1 动机
- 3.2 方法
- 3.3 结果

一、前言

前几日，Meta 推出了「分割一切」AI 模型 Segment Anything，令网友直呼 CV 不存在了？！

而在另一篇被 CVPR 2023 收录的论文中，Meta、UTAustin 联合提出了新的开放语言风格模型（open-vocabulary segmentation, OVSeg），它能让 Segment Anything 模型知道所要分隔的类别。

在这里插入图片描述
论文地址：

https://arxiv.org/pdf/2210.04150.pdf

从效果上来看，OVSeg 可以与 Segment Anything 结合，完成细粒度的开放语言分割。

比如下图 1 中识别花朵的种类：sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (绿石竹)。

在这里插入图片描述
即刻体验的地址：

https://huggingface.co/spaces/facebook/ov-seg

项目地址：

https://jeff-liangf.github.io/projects/ovseg/

二、研究背景

开放式词汇语义分割旨在根据文本描述将图像分割成语义区域，这些区域在训练期间可能没有被看到。最近的两阶段方法首先生成类别不可知的掩膜提案，然后利用预训练的视觉-语言模型（例如 CLIP）对被掩膜的区域进行分类。研究者确定这种方法的性能瓶颈是预训练的 CLIP 模型，因为它在掩膜图像上表现不佳。

为了解决这个问题，研究者建议在一组被掩膜的图像区域和它们对应的文本描述的收集的数据上对 CLIP 进行微调。研究者使用 CLIP 将掩膜图像区域与图像字幕中的名词进行匹配，从而收集训练数据。与具有固定类别的更精确和手动注释的分割标签（例如 COCO-Stuff）相比，研究者发现嘈杂但多样的数据集可以更好地保留 CLIP 的泛化能力。

除了对整个模型进行微调之外，研究者还使用了被掩膜图像中的「空白」区域，使用了他们称之为掩膜提示微调的方法。

实验表明，掩膜提示微调可以在不修改任何 CLIP 权重的情况下带来显著的改进，并且它可以进一步改善完全微调的模型。特别是当在 COCO 上进行训练并在 ADE20K-150 上进行评估时，研究者的最佳模型实现了 29.6％的 mIoU，比先前的最先进技术高出 8.5％。开放式词汇通用模型首次与 2017 年的受监督专家模型的性能匹配，而不需要特定于数据集的适应。

三、论文解读

3.1 动机

研究者的分析表明，预训练的 CLIP 在掩膜建议上表现不佳，成为两阶段方法的性能瓶颈。

在这里插入图片描述

CLIP 是使用很少的数据增强在自然图像上进行预训练的。
两阶段的开放词汇语义分割方法首先生成类别不可知的掩膜建议，然后利用预训练的 CLIP 进行开放词汇分类。CLIP 模型的输入是裁剪的掩膜图像，与自然图像存在巨大的领域差距。
我们的分析表明，预训练的 CLIP 在掩膜图像上表现不佳。

3.2 方法

研究者的模型包括一个分割模型（例如 MaskFormer）和一个 CLIP 模型。

在这里插入图片描述

他们首先训练修改后的 MaskFormer 作为开放词汇分割的基线（第 3.1 节），然后从图像标题中收集多样的掩膜-类别对（第 3.2 节），并适应 CLIP 用于掩膜图像（第 3.3 节）。

3.3 结果

研究者首次展示开放词汇的通用模型可以在没有数据集特定调整的情况下与受监督的专业模型的性能相匹配。

在这里插入图片描述
更多分类示例如下所示：

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/451589.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

《计算机网络——自顶向下方法》精炼——2.2.3-2.2.5

《计算机网络——自顶向下方法》精炼——2.2.3-2.2.5

文章目录引言正文HTTP报文请求行首部行实体体其他方法 HTTP响应报文实体体和初始状态行首部行 cookiecookie的运行过程Web缓存条件GET方法引言计算机网络在这一学科中的重要性毋庸置疑，而黑皮书又是这一学科的教科书级经典，因此本书是计算机从业者的…

阅读更多...

微服务学习之面试知识相关总结（Redis）

微服务学习之面试知识相关总结（Redis）

文章目录前言Redis常见面试知识1 Redis与Memcache的区别2 Redis的单线程问题3 Redis的持久化方案3.1 基础知识3.2 面试话术 4 Redis的集群方式4 Redis的常用数据类型5 Redis事务机制6 Redis的Key过期策略6.1 过期删除策略6.2 内存淘汰策略6.3 面试话术： 7 Redis在项…

阅读更多...

SpringBoot(7)消息处理

SpringBoot(7)消息处理

消息处理消息Java处理消息的标准规范JMSAMQPMQTTkafka 案例准备整合ActiveMQ整合RabbitMQ整合RocketMQ整合Kafka 消息对于消息的生产者与消费者的工作模式，还可以将消息划分成两种模式，同步消费与异步消息。同步消息就是生产者发送完消息&#xff0…

阅读更多...

SpringCloud入门实战（七）-Hystrix服务降级入门案例

SpringCloud入门实战（七）-Hystrix服务降级入门案例

📝 学技术、更要掌握学习的方法，一起学习，让进步发生 👩🏻 作者：一只IT攻城狮。 💐学习建议：1、养成习惯，学习java的任何一个技术，都可以先去官网先看看&…

阅读更多...

广州华锐互动：AR远程协作系统为电力设备状态监测提供有力支持

广州华锐互动：AR远程协作系统为电力设备状态监测提供有力支持

电力设备是电网运行的重要组成部分，对电网的安全稳定运行具有至关重要的作用。在电力设备状态监测中，如何快速、准确地诊断和解决设备故障，是电力企业和电力设备维护人员需要面对的重要问题。广州华锐互动将AR增强现实技术运用到电力设备维…

阅读更多...

美颜sdk是什么？探索美颜sdk的技术内幕

美颜sdk是什么？探索美颜sdk的技术内幕

目前，美颜sdk作为美颜功能的实现方式，已经成为了各大应用开发者的热门选择之一。那么，美颜sdk到底是什么？它的技术内幕又是怎样的呢？本文将会为您揭开它的神秘面纱。一、美颜sdk简述美颜sdk顾名思义，就…

阅读更多...

瑞萨开发环境搭建

瑞萨开发环境搭建

使用keil环境，开发瑞萨renase A4M2 下载MDK 下载MDK，5.37 其它版本最好使用5.30以上 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5k3XGSK5-1682182139410)(https://secure2.wostatic.cn/static/reEunrWa2vsfrcpVZC1nbo…

阅读更多...

关于存储那些事1-----基础篇

关于存储那些事1-----基础篇

目录一、SSD1、简介1.1 分类1.1.1 易失性存储器1.1.2 非易失性存储器 2、SSD接口2.1 SATA接口2.2 SATA Express接口2.3 SAS接口2.4 U.2接口2.5 mSATA接口2.6 M.2接口2.7 PCI-E接口二、闪存（Flash memory）1、简介1.1 NOR Flash1.2 NAND Falsh1.3 NOR Fl…

阅读更多...

二维码图片生成工具C#winform源码

二维码图片生成工具C#winform源码

二维码图片生成工具C#winform源码源码描述： 一、源码特点采用winform进行开发,生成二维码并保存，欢迎下载二、功能介绍本源码是一个可以自动生成二维码图片的小模块，可以添加自己的logo图片，可以保存在自己想要保存的地方 …

阅读更多...

ubuntu20.04+x86_64+virtualbox6.7 环境下编译xenomai内核和实时性测试[详解]

ubuntu20.04+x86_64+virtualbox6.7 环境下编译xenomai内核和实时性测试[详解]

下面是针对实时系统Xenomai使用的一些记录，实时系统在工业自动化，机器人等智能行业是必需会用到的。简述 xenomai是众多inux实时性解决方案中的一种，通过在linux的基础上添加一个RTOS内核cobalt，来提高linux的实时性。实时内核cobalt与非实时内核linux相结合，既能提供工…

阅读更多...

C/C++笔记-写一个Makefile并链接QtCore库使用QString，QDebug

C/C++笔记-写一个Makefile并链接QtCore库使用QString，QDebug

如下cpp代码，调用QDebug打印程序： #include <QDebug> #include <QString>int main(int argc, char *argv[]){QString testStr "hello";qDebug() << testStr;return 0; } 如下makefile： test: main.cppg -c -…

阅读更多...

‘gulp‘ 不是内部或外部命令，也不是可运行的程序

‘gulp‘ 不是内部或外部命令，也不是可运行的程序

出现问题： D:\git\renwey-web-mobile>gulp default gulp 不是内部或外部命令，也不是可运行的程序或批处理文件。两种原因原因一：环境变量没有设置原因二：没有安装全局的gulp，只安装了本地gulp，…

阅读更多...

CTFShow-Web篇详细wp

CTFShow-Web篇详细wp

CTFShow-Web篇详细wp web签到题web2web3web4web5web6web7web8 CTFShow 平台：https://ctf.show/ web签到题直接F12然后Base64解码 ctfshow{19bdf375-f974-481e-8c62-0f4c3d170fb4} web2 考点：联合查询先尝试使用万能密码登入 ‘ or 11# 登入成功&am…

阅读更多...

NFS共享服务

NFS共享服务

文章目录 1.NFS1.1 NFS简介1.2 RPC简介1.3 NFS网络文件系统1.4 NFS应用场景1.5 NFS通讯原理 2.NFS配置 1.NFS 1.1 NFS简介 NFS（Network File System）即网络文件系统，是FreeBSD支持的文件系统中的一种，它允许网络中的计算机之间通…

阅读更多...

产品的技术加油站

产品的技术加油站

作为产品经理的你，每次被喷不懂技术的时候，是否也曾想过暗暗发力，恶补一波技术，然后惊艳所有人？但冷静之后，又觉得无从下手？ 是不是还想过要不要学习一下编程？然后被人推荐了什么py…

阅读更多...

【致敬未来的攻城狮计划】— 连续打卡第十天：FSP固件库开发及FSP配置详解。

【致敬未来的攻城狮计划】— 连续打卡第十天：FSP固件库开发及FSP配置详解。

系列文章目录 1.连续打卡第一天：提前对CPK_RA2E1是瑞萨RA系列开发板的初体验，了解一下 2.开发环境的选择和调试（从零开始，加油） 3.欲速则不达，今天是对RA2E1 基础知识的补充学习。 4.e2 studio 使用教程 5.…

阅读更多...

Gnuplot绘图入门2——根据多列文本数据绘制图形

Gnuplot绘图入门2——根据多列文本数据绘制图形

Gnuplot绘图入门2——根据多列文本数据绘制图形 Gnuplot绘图入门1以绘制sin(x)的函数图形为例，对Gnuplot进行了简要介绍。这个教程将介绍如何使用Gnuplot对保存在文本文件（.txt、.dat文件）中的数据进行可视化。将下面的数据复制下了&#…

阅读更多...

Python高光谱遥感数据处理与机器学习实践技术

Python高光谱遥感数据处理与机器学习实践技术

目录第一章高光谱基础第二章高光谱开发基础（Python） 第三章高光谱机器学习技术（python） 第四章典型案例操作实践总结了高光谱遥感技术领域的基础原理与核心概念，采用编程语言复现经典数据处理和应用方法&am…

阅读更多...

OpenHarmony应用开发-ArkUI方舟开发框架简析

OpenHarmony应用开发-ArkUI方舟开发框架简析

方舟开发框架（简称ArkUI）为OpenHarmony应用的UI开发提供了完整的基础设施，包括简洁的UI语法、丰富的UI功能（组件、布局、动画以及交互事件），以及实时界面预览工具等，可以支持开发者进行可视化界…

阅读更多...

ChatGPT会被人工智能干掉吗？

ChatGPT会被人工智能干掉吗？

01 ChatGPT火爆全球 ChatGPT是美国“开放人工智能研究中心”2022年11月30日发布的聊天机器人程序，它是人工智能技术驱动的自然语言处理工具，能通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样…

阅读更多...

推荐文章

最新文章