《GroupViT: Semantic Segmentation Emerges from Text Supervision》论文解读

news2025/1/9 1:46:50

会议:CVPR

年份:2022

代码:https://github.com/NVlabs/GroupViT

研究背景与动机

  • 传统深度学习系统中,图像区域的Grouping通常是隐式通过像素级识别标签的自上而下监督来实现的。
  • 作者提出将Grouping机制重新引入深度网络,通过文本监督自动实现语义区域的Group。

主要贡献

  • 在深度网络中超越规则形状的图像网格,引入了一种新的GroupViT架构,以将视觉概念进行分层自底向上的分组为不规则形状的Group。
  • 没有任何像素级标签和训练,只有使用对比损失的图像级文本监督,GroupViT成功地学会了将图像区域分组在一起,并以零样本的方式迁移到几个语义分割词汇表。
  • 据我们所知,本文是在不使用任何像素标签的情况下,探索从文本监督单独到几个语义分割任务的零样本迁移的第一项工作,并为这项新任务建立了强大的基线。

网络架构

group简单说如果有一些聚类的中心点,从这些中心点开始发散,把周围相似的点逐渐扩散成一个group,最后这个group即相当于一个Segmentation mask。

Group ViT的贡献就是在现有的ViT模型中加入计算单元Grouping Block,同时加入了可学习的Group Tokens。这样模型在初期学习的时候就能慢慢一点点的将相邻的元素group起来,最后变成一个个segmentation mask

  • (a) GroupViT 的架构和训练管道。GroupViT 包含一个 Transformer 层的层次结构,分为阶段,每个层都在逐渐更大的视觉段上运行。右边的图像显示了出现在不同Group阶段的视觉片段。较低的阶段将像素Group为对象部分,例如大象的鼻子和腿;较高的阶段进一步将它们合并到整个对象中,例如整个大象和背景森林。
  • (b) 分组块的架构。每个分组阶段都以一个Group块结束,该Group块计算学习的组标记和段(图像)标记之间的相似性。该分配是通过组标记的 gumbel softmax 计算的,并转换为 one-hot 硬分配。分配给同一组的片段标记合并在一起,并表示输入到下一个分组阶段的新段标记。

(a) GroupViT架构和训练流程

  1. 输入图像:输入的图像首先被分割成多个图像块,每个图像块都被称为“Image Token”。
  2. 线性投影:这些图像块经过线性投影后,形成初始的表示。
  3. Transformer层:这些表示随后被输入到一系列的Transformer层中进行处理。
  4. Grouping Block:在Transformer层之间,有多个“Grouping Block”,每个Grouping Block通过Gumbel-Softmax方法进行分组。具体来说,Grouping Block接收来自上一层的特征表示,利用可学习的Group Token对这些表示进行分组,形成新的表示。
  5. 组表示和细分表示:在每个Grouping Block中,分组后的表示({g^l_i})和细分表示({s^l_i})会被送到下一个Transformer层中进行进一步处理。
  6. 文本编码器:同时,文本描述(如图中的“Two elephants in the jungle this morning”)会被输入到文本编码器中,生成文本的表示(z^T)。
  7. 对比损失:图像表示(z^I)和文本表示(z^T)通过多层感知机(MLP)进行处理,并利用对比损失进行训练,以便图像和文本表示在共享空间中靠近。

(b) Grouping Block

  1. 输入表示:每个Grouping Block接收来自上一层的细分表示({s^l_i})和组表示({g^l_i})。
  2. 线性变换:细分表示通过三个线性变换W_q、W_k和W_v,生成查询、键和值。
  3. Gumbel-Softmax:使用Gumbel-Softmax进行加权求和,以获得组表示的加权值。
  4. 线性变换:组表示经过线性变换W_o后,与原细分表示相加,生成新的细分表示({s^{l+1}_i})。
  5. 输出表示:新的细分表示会被传递到下一层Transformer中。

通过对比损失进行对齐

多标签图像-文本对比损失。给定一个输入图像-文本对,我们通过提取它的名词并用几个句子模板提示它们来从原始文本中生成新文本。对于对比学习,我们只将匹配的图像和文本对视为正样本。我们训练 GroupViT 和文本编码器来最大化正图像-文本对之间的特征相似度,并最小化负对之间的特征相似度。

GroupViT 零样本转移到语义分割

 GroupViT的每个输出段的嵌入对应于图像的一个区域。将每个输出段分配给嵌入空间中图像-文本相似度最高的对象类。

实验结果

GroupViT 大大优于其他分组方法。这表明,与使用 CLIP 训练的 ViT 相比,我们的 GroupViT 在 zeroshot 转移到语义分割方面更有效。

总结

我们迈出了仅使用文本学习语义分割的第一步,无需任何明确的人工监督。我们表明,使用 GroupViT,从大规模噪声图像-文本对学习的表示可以以零样本的方式转移到语义分割中。这项工作还表明,除了图像分类之外,文本监督还可以转移到更细粒度的视觉任务,这些任务以前没有探索过,并开辟了令人兴奋的研究方向。 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1924076.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

本地部署,AnimeGANv3: 将现实世界照片转化为动漫风格

目录 引言 技术背景 架构与原理 实验结果与分析 应用实例 本地部署 运行结果 Photo to Hayao Style Photo to Shinkai Style more suprise 支持多种风格 结论 参考文献 GitHub - TachibanaYoshino/AnimeGANv3: Use AnimeGANv3 to make your own animation works, …

在 PostgreSQL 里如何处理数据的跨库关联查询性能优化?

文章目录 一、了解跨库关联查询的挑战(一)网络延迟(二)数据量庞大(三)索引不一致(四)数据库配置差异 二、优化策略(一)合理设计数据库架构(二&…

【C++】:继承[下篇](友元静态成员菱形继承菱形虚拟继承)

目录 一,继承与友元二,继承与静态成员三,复杂的菱形继承及菱形虚拟继承四,继承的总结和反思 点击跳转上一篇文章: 【C】:继承(定义&&赋值兼容转换&&作用域&&派生类的默认成员函数…

亿康源用科技引领发展,开启大健康产业新篇章

(本台记者报)近日,杭州有一家公司凭借深厚的科技研发实力与卓越的创新能力在大健康领域屡受好评,其研发的新品一经推出便成为行业热议。为了探寻该公司的经营秘诀,我们找到了这家公司——亿康源,并有幸与亿…

C语言笔记34 •单链表经典算法OJ题-6.环形链表的约瑟夫问题•

环形链表的约瑟夫问题 1.问题 编号为 1 到 n 的 n 个人围成一圈。从编号为 1 的人开始报数,报到 m 的人离开。 下一个人继续从 1 开始报数。 n-1 轮结束以后,只剩下一个人,问最后留下的这个人编号是多少? 数据范围: 1…

postman录制设置

一、前言: ​ postman是一个很好接口调试或是测试工具,简单方便,不需要很复杂的流程与技术,并且也具备录制条件。对于接口不了解,没有明确对应的说明,但又想通过接口进行一些测试使用其录制是一个不错的办…

【YOLOv8系列】(四)YOLOv8使用自己的数据集进行模型训练,成就感满满

目录 一.数据集获取 1.使用开源数据集 2.自定义数据图片 二.数据集标注 1.标注工具介绍 2.labelme安装 3.数据标注 1.选择要标注的数据集文件夹 2.设置自动保存: 3.创建多边形标注 4.格式转换 1.安装labelme2yolo 2.格式转换 3.效果查看 4.其他格式…

腾讯开源 tlbs-map 地图组件库

腾讯宣布开源 tlbs-map,一个基于腾讯位置服务地图 API 开发的 web 端地图组件库,支持在网页绘制地图并在地图上绘制点、线、面、热力图等效果,支持 Vue2、Vue3、React 等业界主流技术栈,旨在帮助开发者低成本开发地图业务 Javascr…

大模型LLM 应用私有化部署项目

LLM 参数包含数十亿甚至万亿级的架构复杂,训练和推理涉及大量计算资源。企业客户训练资料少,在实际应用中可能表现出检索幻觉、精准度差,同时也带来了性能、安全性和效率等方面的挑战。 ChatGPT、LLaMa、Bard 等大语言模型(LLMs)取得了非常巨…

【前端】零基础学会编写CSS

一、什么是CSS CSS (Cascading Style Sheets,层叠样式表)是一种是一种用来为结构化文档(如 HTML 文档)添加样式(字体、间距和颜色等)的计算机语言,能够对网页中元素位置的排版进行像素级别的精…

论文解读--4D mmWave Radar for Autonomous Driving Perception:A Comprehensive Survey

用于自动驾驶感知的4D毫米波雷达:综合综述 摘要 自动驾驶技术的快速发展推动了感知系统的不断创新,其中4D毫米波(mmWave)雷达是关键的传感设备之一。利用其全天候操作特性和在具有挑战性的环境中的强大感知能力,4D毫米…

keil5新建stm32工程的基本

1、建立工程文件夹,keil中新建工程,选择型号; 2、工程文件夹里建立自己所需要的文件夹等,复制固件库里面的文件到工程文件夹里; 3、将工程里建立对应的同名的分组,并将文件夹内的文件添加到工程分组中。 点…

buuctf_RE(第三页)

[SWPU2019]ReverseMe 找到关键函数,但是很长,也只能分析出一些零碎的东西,看 wp 是通过动调来缕清程序的逻辑的。 一个是用ida,还有一个OD都试试吧 还看到一个大佬是用的 ponce 解的,这个先放放。 调的太难受了 0.0 还…

未来互联网的新篇章:深度解析Facebook的技术与战略

随着科技的飞速发展和社会的不断变迁,互联网作为全球信息交流的重要平台,正经历着前所未有的变革和演进。作为全球最大的社交媒体平台之一,Facebook不仅是人们沟通、分享和互动的重要场所,更是科技创新和数字化进程的推动者。本文…

什么是独立成分分析(ICA, Independent Component Analysis)

**独立成分分析(ICA, Independent Component Analysis)**是一种用于信号处理的统计技术,旨在将多变量信号分解为统计独立的非高斯信号成分。ICA广泛应用于各类信号处理领域,如脑电图(EEG)、语音信号处理、图…

概率论习题

泊松分布习题 假设你在医院值班,每天需要安保人员出动的次数N~P(1),则关于任一天安保人员出动次数: A:出动一次的概率是多少 B:出动次数小于等于一次的概率为 C:出动次数小于一次的概率为 D:若随机事件发生…

Python Cleanlab库:提升机器学习数据质量

更多Python学习内容:ipengtao.com 在机器学习和数据科学中,数据质量对模型的性能和可靠性有着至关重要的影响。清洗和纠正标签错误的数据是确保模型准确性和泛化能力的关键步骤。Python的Cleanlab库提供了一种便捷且强大的方式来检测和纠正数据中的标签错…

数列分块<1>

本期是数列分块入门<1>。该系列的所有题目来自hzwer在LOJ上提供的数列分块入门系列。 Blog:http://hzwer.com/8053.html sto hzwer orz %%% [转载] -----------------------------------------------------------------…

2024.7.12 暑期训练记录(4)

之后的训练方式是上午板刷2000的题&#xff0c;下午学新算法or vp&#xff0c;如果近期没有新算法要学也不vp就换成继续板刷&#xff0c;晚上补题&#xff0c;没有题要补就继续板刷在尝试新的做题方式&#xff0c;看完题先把主要信息写在纸上&#xff0c;如果有思路就顺着思路走…

分享浏览器被hao123网页劫持,去除劫持的方式

昨天看python相关的自动化工作代码时&#xff0c;发现谷歌浏览器被hao123劫持了&#xff0c;把那些程序删了也不管用 方法1&#xff1a;删除hao123注册表&#xff0c;这个方式不太好用&#xff0c;会找不到注册表 方法2&#xff1a;看浏览器快捷方式的属性页面&#xff0c;一…