论文阅读--GroupViT

论文阅读--GroupViT

news2025/4/14 22:57:49

视觉之前做无监督分割的时候，经常使用grouping方法：如果有一些聚类的中心点，从这写点开始发散，把周围相似的点逐渐扩充成一个group，这个group就相当是一个segmentation mask

右边是grouping block，左边的两个层之间的小东西表示可学习的group tokens，目的是想要模型在初始学习的时候能慢慢的把相邻的像素点group起来，变成一个又一个的segmentation mask

可以看到浅层时的group token分割效果还不是很好，但经过transformer layers和grouping block的学习，深层的group token的分割效果很好

输入来自原始图像的patch embedding和group tokens，group token的第一维代表聚类中心数量

group token可以理解为cls token，它想要代表整个图片，为什么多个token而不像cls token就一个，是因为分割有很多目标类别

transformer layers将patch embedding与group tokens联系起来

经过一些transformer之后，认为group token学得差不多了，聚类中心也学得差不多了，这时候利用grouping block将group token尝试合并成更大的group，学到一些更有语义的信息；另一个好处是它变相的把序列长度降低了

grouping block先利用类似自注意力的方式，计算量一个相似度矩阵，然后用这个相似度矩阵帮助原来的image token做一些聚类中心的分配，从而把image token降维到group token的维度；做聚类中心分配的过程不可导，所以用了gumbel softmax的trick

训练过程通过对比学习的loss，文本经过text encoder得到文本特征，但是图像经过group

token、group merging得到的是一个序列，第一维是聚类中心个数，第二位是深度，为了把序列的特征融合成整个图像的特征，使用平均池化，然后对比学习

背景类通过设置阈值来区分，这是CLIP的的局限性，背景类太抽象了，可以代表很多很多类

图片喂给GroupViT，文本喂给text encoder，对比学习计算相似度

聚类中心个数是超参数，需要人工设定，作者实验发现8个的效果最好，此时分割最多检测到8类

由图可知，group token确实起了作用

stage1的第五个token代表眼睛，第三十六个token代表四肢，且面积较小，因为此时未经过grouping block，聚类中心多

stage2中明显看到聚类中心减少后，token表示范围增大，且每个token代表不同类别

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1701652.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【外汇天眼】市场如战场：交易中的攻防艺术

【外汇天眼】市场如战场：交易中的攻防艺术

交易的成功如同生活，急功近利反而有害无益。在交易中，许多投资者常常面临亏损，急于挽回损失，频繁操作，结果却往往是越亏越多。交易需要耐心，不能急于一时，更不能与市场赌气。交易和生活一样&…

阅读更多...

本周日晚8点预约宣讲会 | 深入了解项目，开启你的开源之旅！

本周日晚8点预约宣讲会 | 深入了解项目，开启你的开源之旅！

引言社区的亲爱的同学们！为了帮助大家在这个夏天更好的参加“开源之夏”的活动，我们联合2位资深开源项目导师，给大家策划了这次“开源之夏”宣讲会。这不仅是一个了解如何参与开源项目的机会，更是一个直接与项目导师面对面交流…

阅读更多...

利用显著地面特征进行配送机器人定位的鲁棒方法

利用显著地面特征进行配送机器人定位的鲁棒方法

论文：Salience-guided Ground Factor for Robust Localization of Delivery Robots in Complex Urban Environments 作者：Jooyong Park，Jungwoo Lee，Euncheol Choi，Younggun Cho 收录：ICRA2024 利用显著…

阅读更多...

AI大模型探索之路-实战篇4：深入DB-GPT数据应用开发框架调研

AI大模型探索之路-实战篇4：深入DB-GPT数据应用开发框架调研

目录前言一、DB-GPT总体概述二、DB-GPT关键特性1、私域问答&数据处理&RAG2、多数据源&GBI3、多模型管理4、自动化微调5、Data-Driven Multi-Agents&Plugins6、隐私安全三、服务器资源准备1、创建实例2、打开jupyterLab 四、DB-GPT启动1、激活 conda 环境2、切…

阅读更多...

mysql5.7允许root远程访问

mysql5.7允许root远程访问

mysql客户端工具配置完成后，测试联通失败，客户端真正连接mysql时，也报错不允许rootip连接。这是由于mysql的root用户默认禁止远程访问，可以通过两种方式改表或者授权的方式开启远程访问。本文中使用改表的方法。按照如下操作即可…

阅读更多...

如何让大模型更聪明？提升AI智能的关键策略

如何让大模型更聪明？提升AI智能的关键策略

如何让大模型更聪明？提升AI智能的关键策略 🤖 如何让大模型更聪明？提升AI智能的关键策略摘要引言方向一：算法创新🚀1.1 自监督学习的崛起1.2 强化学习的应用方向二：数据质量与多样性📊2.1 数据…

阅读更多...

【EVI】Hume AI 初探

【EVI】Hume AI 初探

写在前面的话 Hume AI宣布已在B轮融资中筹集5000万美元，由前Google DeepMind研究员Alan Cowen创立并担任CEO。该AI模型专注于理解人类情感，并发布了「共情语音界面」演示，通过语音对话实现互动。从 Hume AI 官网展示的信息，EVI 能…

阅读更多...

飞书API（10）：通过阿里云MaxCompute数仓入库 - 转为阿里云 DataFrame 再入库

飞书API（10）：通过阿里云MaxCompute数仓入库 - 转为阿里云 DataFrame 再入库

一、引入上一小节介绍了怎么入库到阿里云的 MaxCompute 数仓，其中涉及到 2 种入库方式，一种是转为阿里云的 DataFrame，然后类似 pandas 的 DataFrame 直接写入 MySQL 的方法，将数据写入表中；另外一种是转为列表&…

阅读更多...

【openlayers系统学习】4.3VectorTile 功能交互（指针悬停在要素上时，绘制矩形框）

【openlayers系统学习】4.3VectorTile 功能交互（指针悬停在要素上时，绘制矩形框）

三、 VectorTile 功能交互（指针悬停在要素上时，绘制矩形框） 矢量切片的好处是我们可以与要素交互，因为我们在客户端上有数据。但需要注意的一件事是矢量切片针对渲染进行了优化。这意味着要素仅包含过滤和渲染所需的属性&#xf…

阅读更多...

如何知道huggingface/modelscope的大模型的模型层名字

如何知道huggingface/modelscope的大模型的模型层名字

下载模型后，有个文件叫model.safetensors.index.json，里面有。你下载的大模型位置在用户名/.cache/huggingface/hub/大模型名差不多这个路径。或者直接print(parameters.name)，但是这样打出来特别多，很难看。差不多这样写&am…

阅读更多...

Android 10.0 锁屏页面弹窗功能实现

Android 10.0 锁屏页面弹窗功能实现

1.前言在10.0的系统rom产品定制化开发中，在定制化开发中，需要在锁屏页面弹窗功能，当收到某些信息的时候，需要添加悬浮窗锁屏页面也同样需要弹窗功能，接下来就分析下相关功能，然后实现功能 2.锁屏页面弹窗功能实现的核心类 frameworks\base\core\java\android\view\Wi…

阅读更多...

【Chrono Engine学习总结】6-创建自定义场景-6.2-chrono中的光线设置

【Chrono Engine学习总结】6-创建自定义场景-6.2-chrono中的光线设置

由于Chrono的官方教程在一些细节方面解释的并不清楚，自己做了一些尝试，做学习总结。上一篇文章中，自己【用sketchup重建了三维场景】，但导入chrono中颜色很不正确，几乎都是白色的，但也不是完全白色。经过…

阅读更多...

2024年上半年软考什么时候查成绩？附查询流程

2024年上半年软考什么时候查成绩？附查询流程

考试一旦结束，并不意味着与考试相关的事情也就结束了。2024年上半年信息系统项目管理师等软考考试结束后，我们还需要关注考后和证书相关的事情，比如成绩查询、证书领取等等。 2024年上半年软考成绩查询查询时间：预计在2024年7月…

阅读更多...

优优嗨聚集团：快速摆脱个人债务束缚的秘诀

优优嗨聚集团：快速摆脱个人债务束缚的秘诀

在快节奏的现代生活中，个人债务问题时常困扰着许多人。面对日益增长的债务压力，如何快速有效地处理成为众多人的迫切需求。本文将为你提供一套实用的债务清零攻略，帮助你摆脱债务的束缚，重获财务自由。一、认清债务现状&#xff…

阅读更多...

艾体宝洞察 | Redis Enterprise对比ElastiCache

艾体宝洞察 | Redis Enterprise对比ElastiCache

选择缓存数据库时，如何在Amazon ElastiCache和Redis Enterprise之间做出选择，应当考虑哪些标准？ ElastiCache 通常可以满足基本的缓存需求，因此是一种适合初始阶段的解决方案。但随着使用量的增加，ElastiCache很快会变…

阅读更多...

Octo 精武门？：开源的通用机器人模型

Octo 精武门？：开源的通用机器人模型

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调重新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技…

阅读更多...

[RK3588-Android12] 关于ES8388 喇叭+PDM回采 4+2配置

[RK3588-Android12] 关于ES8388 喇叭+PDM回采 4+2配置

问题描述： ES8388 喇叭PDM回采 42配置如下： 解决方案： // MICpdmics: dummy-codec {status "okay";compatible "rockchip,dummy-codec";#sound-dai-cells <0>;};// MICpdm_mic_array: pdm-mic-array {status …

阅读更多...

【Linux002】cURL接口测试常用命令总结（已更新）

【Linux002】cURL接口测试常用命令总结（已更新）

1.熟悉、梳理、总结项目研发实战中的cURL接口测试常用命令，刚好是最近研发遇到的问题。 2.欢迎点赞、关注、批评、指正，互三走起来，小手动起来！ 文章目录 1.cURL简要介绍2. cURL常用命令清单3. 测试命令行4. 部分效果示例&#xf…

阅读更多...

教育新篇章：AI工具Sora引领学习新趋势

教育新篇章：AI工具Sora引领学习新趋势

Sora——这个让人在24年初引爆AI圈的新产品，它究竟会如何改变我们的教育领域呢？ 从gpt到Sora，从对话型的ai到游戏和短剧制作的新风口，我们从23年到24年一个接一个地被震惊！ Sora能够根据文本提示生成高质量的视频内容…

阅读更多...

哈工大操作系统—多进程图像

哈工大操作系统—多进程图像

操作系统管理cpu的时候引出多进程多进程为操作系统的核心把程序存放在内存里设置一个pc地址发出取指的命令 cpu工作把指令通过总线传到

阅读更多...

推荐文章

最新文章