lanuage-driven semantic segmentation

news2024/11/15 3:26:55

CLIP 改进工作串讲(上)【论文精读·42】_哔哩哔哩_bilibili更多论文:https://github.com/mli/paper-reading, 视频播放量 64310、弹幕量 274、点赞数 1939、投硬币枚数 1332、收藏人数 821、转发人数 438, 视频作者 跟李沐学AI, 作者简介 ,相关视频:CLIP 改进工作串讲(下)【论文精读·42】,CLIP 论文逐段精读【论文精读】,Chain of Thought论文、代码和资源【论文精读·43】,72 优化算法【动手学深度学习v2】,GPT,GPT-2,GPT-3 论文精读【论文精读】,Transformer论文逐段精读【论文精读】,DALL·E 2(内含扩散模型介绍)【论文精读】,我是如何快速阅读和整理文献,AlphaFold2论文精读预告【论文精读】,如何找研究想法 1【论文精读】https://www.bilibili.com/video/BV1FV4y1p7Lm/?spm_id_from=333.999.0.0&vd_source=4aed82e35f26bb600bc5b46e65e25c22这篇文章还是很简单的,还是通用监督分割的思路,但是融入了文本信息,其实本身在训练监督分割时也会输出类别和区域,但是这种方式就会使用文本输入产生分割区域,用text编码器给文本做强化。但是目标函数不是对比学习,也不是无监督训练的框架,并没有真正把文本当成一个监督信号来使用,还是依赖于标注的segmentation mask,数据集的稀少仍是个问题,如何摆脱标注真正的做到用文本做监督信号达到无监督训练才是最好的。

clip应用:

分割:Lseg、GroupVit

检测:VilD、Glipv1/v2

视频:Video Clip、Clip4Clip、Actionclip

图像生成:Clipasso、VQGAN-Clip、Clip-Draw

depthclip、pointclip、anudioclip

第一个例子,草地上有只狗,现在输入other和dog,就可以把狗分割出来,加上树之后,就可以把树分割出来,但是再给一个汽车的标签,图中是没有汽车的,图中确实没有分割出汽车,在给狗的超类pet,也能识别出狗,lanuage-guided的语义分割是做的挺好,虽然文章说自己是zero shot,但其实不是纯粹的自监督,还是监督标签训练的。

上图是本文的模型架构图,图像通过图像编码器,text经过文本编码器,先不看上面的文本编码,其实下面这个分支就是标准的语义分割,image encoder使用的是一个dpt结构,其实就是vit+decoder,decoder的作用就是把bottleneck feature慢慢的upscale上去,和之前的psp或者aspp是比较类似的层级结构,输出特征是HxWxC,其中c是512或者768,HxW可以是原来的1/4,1/16,视觉特征就抽完了。文本侧假设有n个标签,也就说people、table tennis等,把这些标签通过文本编码器,会得到n个文本特征,这里对n也是没有限制的,n是随便改变的,通过文本编码器之后,得到一个NxC矩阵,c是特征维度,是512或者768,文本和图像维特征相乘之后,得到一个HxWxN,到这里之后就和传统的监督学习一样了。拿到特征之后和gt去做cross entropy loss。

        这篇文章虽说是zero shot,但其实在训练过程中,有监督训练的,在7个分割数据集上训练出来的,目标函数就是和gt做cross entropy loss,而不是像clip一样对对比学习的loss,它不是一个无监督的工作。其实只是把文本加到有监督分割中,把文本和图像特征结合起来,模型在训练时,能学到一些language aware的这种视觉特征,从而最后在做推理时,能用文本这种prompt得到分割图。

        这里的文本编码器用的是clip中的文本编码器,这块是是锁住的,不参与训练,可能是分割数据集比较小,参与训练会带偏权重,图像编码器是vit+decoder,其中vit可以用clip的,也可以用预训练的vit或者deit的,后者效果要好一点,在最后输出上作者加了spatial regularization block,其实就是一些conv和depthwise conv,作者觉得在图像和文本特征相乘之后还应该有一些学习参数在后面,能够更好的学会文本和图像之间的交互,这个2个block最好,这是实验得到的。

看一下这篇文章中的badcase,文本给的是toy和grass,最终把狗判成了toy,一切使用clip的工作本质上还是计算图像和文本之间的相似性,并不是在真正做一个分类,小狗肯定不是草,因此把狗分成了玩具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/453051.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

window安装cplex20.1.0启动报错: ilog.odms.ide.opllang.IloOplLangPlugin

通过0-1背包问题看穷举法、贪心算法、启发式算法(JAVA) 模拟退火(SA)算法实例介绍(JAVA) 遗传算法(GA)实例介绍(JAVA) CPLEX求解器入门案例 java集成Cplex:Cplex下载、IDEA环境搭建、docker部署 windo…

线性链表 反转 -(递归与非递归算法)_20230420

线性链表 反转 -(递归与非递归算法)_20230420 前言 线性链表反转是非常有趣的算法,它可以采用多种方式实现,比较简洁的方法是递归反转;传统的方式是利用迭代反转,设定三个变量,采用类似滚动数组的方式,实…

React Hooks生命周期

文章目录 前言一、类组件的生命周期1、什么是类组件2、生命周期钩子 二、函数组件生命周期1、什么是函数组件2、模拟类组件生命周期钩子 三、为什么要使用生命周期1、我们能在钩子里面干什么2、PureComponent和React.memo区别 总结 前言 最近在写react项目,所以一直…

【Java网络编程】Socket套接字

哈喽,大家好~我是你们的老朋友: 保护小周ღ,本期为大家带来的是网络编程的前提概念 Socket 套接字,操作系统提供Socket 用于封装底层的协议细节和通信逻辑,使应用程序可以通过简单直观的API与网络进行交互。所以客观的…

在poetry虚拟环境下打包exe

本博客介绍了在poetry虚拟环境下打包exe的流程,包含两个部分 打包的基本流程打包过程中遇到的问题 打包的基本流程 copy打包工具到本地,(share:\公用共享\芯片部\乔羽\img_generate\系统部提供的打包exe工具) 用poetry搭建虚拟环境 在打包…

微积分入门

文章目录 前言初期积分微分微积分问题 后期极限 ε \varepsilon ε- δ \delta δ极限勒贝格积分 结语 前言 微积分总共走过了两个时期。首先是牛顿和莱布尼茨利用无穷小量定义微分和积分,并且发现了微分和积分的关系,这是第一个时期,这时的…

如何在元宇宙中促进品牌增长:消费者喜好的热点调查

欢迎来到Hubbleverse 🌍 关注我们 关注宇宙新鲜事 📌 预计阅读时长:5分钟 本文仅代表作者个人观点,不代表平台意见,不构成投资建议。 音乐和旅游是用户被元宇宙虚拟体验所吸引的前两个领域。根据Reach 3 Insights的…

ArrayList 的特点及优缺点

前面讲过,数组有很多缺点且使用不太方便,但是我们存储数据的时候很多情况又不得不使用它,那么有没有对数组封装一下的类,让我们更方便呢?答案是有的,他就是 ArrayList,他是一个基于数组的集合&a…

Ceph入门到精通- storcli安装

storcli 是LSI公司官方提供的Raid卡管理工具,storcli已经基本代替了megacli,是一款比较简单易用的小工具。将命令写成一个个的小脚本,会将使用变得更方便。 安装简单,Windows系统下解压出来以后可以直接运行。 Linux系统默认位置…

CGI, FastCGI, WSGI, uWSGI, uwsgi一文搞懂

1. CGI # 1、通用网关接口(Common Gateway Interface/CGI)是一种重要的互联网技术,可以让一个客户端,从网页浏览器向执行在网络服务器上的程序请求数据。CGI描述了服务器和请求处理程序之间传输数据的一种标准。 # 2、CGI程序可以…

今儿咱就看看redis的淘汰策略你知道多少

一、前言 Redis在我们日常开发中是经常用到的,Redis也是功能非常强大,可以进行缓存,还会有一些排行榜、点赞、消息队列、购物车等等;当然还有分布式锁Redisson,我们使用肯定少不了集群!小编最近学习到一些…

AI-ISP:手机相机是如何将风景变成图片的?

文章目录 前言1. ISP芯片2. Sensor知识3. RAW数据4. ISP Pipeline5. AI-ISP结束语 前言 本篇文章只干一件事:AI-ISP:手机相机是如何将风景变成图片的? 1. ISP芯片 一颗小小的SoC芯片(10mm x 10mm)上集成了一百多亿个晶体管(Kirin 9000有153亿…

【pandas】Python读取DataFrame的某行或某列

行索引、列索引、loc和iloc import pandas as pd import numpy as np # 准备数据 df pd.DataFrame(np.arange(12).reshape(3,4),indexlist("abc"),columnslist("WXYZ"))行索引(index):对应最左边那一竖列 列索引(columns):对应最…

建筑数据破解JS逆向爬虫

建筑数据破解JS逆向爬虫 地址:https://jzsc.mohurd.gov.cn/data/project GitHub地址:https://github.com/NearHuiwen/JzscCrawler RequestsPyExecJS JS文件:req_aes.js 目标 抓包,抓取建筑市场数据(注:用于学习&am…

multi-scale training多尺度训练

文章目录 背景参考1:[输入不同长度的向量,输出相同长度](https://www.zhihu.com/question/569406523/answer/2780168200):参考2:[多种尺寸的图像数据训练没有全连接层的卷积神经网络模型](https://www.zhihu.com/question/533481647)参考3&am…

展开说说:Adobe XD 哪个版本好用?

工具还是得顺着自己的习惯才是最好 即时设计 - 可实时协作的专业 UI 设计工具即时设计是一款支持在线协作的专业级 UI 设计工具,支持 Sketch、Figma、XD 格式导入,海量优质设计资源即拿即用。支持创建交互原型、获取设计标注,为产设研团队提…

如何快速将PDF文件转换为Word文档

PDF文件是一个广泛使用的电子文档格式,其被广泛应用于各种领域,包括教育、商业和政府。虽然PDF文件非常实用,但有时你需要将其转换为Word文档,以便更方便地编辑和处理。以下是几种快速将PDF文件转换为Word文档的方法。 1. 使用在…

Linux Shell 实现一键部署http+用户名密码登录

Apache 前言 Apache(音译为阿帕奇)是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上,由于其跨平台和安全性被广泛使用,是最流行的Web服务器端软件之一。它快速、可靠并且可通过简单的API扩充,将Perl/Python等…

【python】采集天气数据并作可视化,怀念一下之前得好天气

前言 这几天,长沙得天气突然爆冷,每天上班跟渡劫一样 生怕一不小心,风就把伞吹跑了,人湿点无所谓,但是我得伞不能有事 现在得我无比怀念之前得好天气,今天我就来采集一下天气数据并作个可视化怀念一下它…

C# 特性(Attribute)

一、特性(Attribute)定义 特性(Attribute)是用于在运行时传递程序中各种元素(比如类、方法、结构、枚举、组件等)的行为信息的声明性标签。您可以通过使用特性向程序添加声明性信息。 特性使用中括号…