CLIMS:弱监督语义分割的跨语言图像匹配

news2025/1/16 16:10:45

文章目录

  • CLIMS: Cross Language Image Matching for Weakly Supervised Semantic Segmentation
    • 摘要
    • 方法
      • 语言图像匹配框架
    • 实验结果

CLIMS: Cross Language Image Matching for Weakly Supervised Semantic Segmentation

摘要

存在的问题
CAM(类激活图)通常只激活有区别的对象区域,并且错误地包含了大量与对象相关的背景,由于WSSS(弱监督语义分割)模型只有一组固定的图像级对象标签,因此很难抑制由开放集对象组成的不同背景区域。
本文方法
提出了一个跨语言图像匹配(CLIMS)框架,基于最近引入的CLIP模型,用于WSSS。
引入自然语言监督来激活更完整的目标区域,抑制密切相关的背景区域。
设计了目标区域、背景区域和文本标签匹配损失,引导模型为每个类别的CAM激发更合理的目标区域。
此外,还设计了一个共存背景抑制损失,以防止模型激活密切相关的背景区域,并使用预定义的类相关背景文本描述集。
在这里插入图片描述
代码链接
论文链接

方法

在这里插入图片描述
(a)用于预测初始cam的主干。σ表示sigmoid激活函数。W为卷积层的权值矩阵
(b)文本驱动的评价器。由三个基于clip的损失函数组成,即对象区域和文本标签匹配损失,背景区域和文本标签匹配损失和共现背景抑制损失

语言图像匹配框架

与传统的CAM解相似,不同之处是去掉了GAP层,在W后直接应用sigmoid函数σ:
在这里插入图片描述
文本驱动的评估器由来自CLIP模型的图像编码器fi(·)和文本编码器ft(·)组成。首先,Pk和(1−Pk)分别乘以X来屏蔽前景对象和背景像素。然后通过fi(·)将结果映射到表示向量viok和vibk:
在这里插入图片描述
在这里插入图片描述
可以取了解一下CLIP模型

给定第k个前景对象表示viok及其对应的文本表示vtok,我们首先计算图像和文本表示之间的余弦相似度,然后使用提出的对象区域和文本标签匹配损使其最大化:
在这里插入图片描述
生成的初始CAMs将在上面损失函数的监督下逐渐接近目标物体。但是,仅使用LOTM并不能促使模型探索非判别目标区域并抑制激活的背景区域
为了提高激活对象区域的完整性,我们设计了背景区域和文本标签匹配损失LBTM,以包含更多的对象内容。已知背景表示法vibk及其对应的文本表示法vtok(注意,LBTM的文本标签与LOTM的文本标签相同),则LBTM的计算方法如下:
在这里插入图片描述
上述两个损失函数只保证了P完全覆盖目标对象,没有考虑到共现类相关背景的假激活。同时出现的背景可能会显著降低生成的伪标签掩模的质量。然而,对这些背景进行像素级标记非常耗时且耗费人力,并且通常在WSSS中无法提供。由于背景的集合比前景的集合更加多样化,使用ImageNet训练的分类网络可能看不到其中的许多背景。然而,根据相应的文本描述,使用预训练的CLIP来识别这些背景要容易得多。为了解决这一问题,我们设计了以下共现背景抑制损失。给定目标对象表示形式viok及其对应的与类相关的背景文本表示形式vtbk,l,损失计算为:
在这里插入图片描述
在训练过程中,网络会逐渐抑制Pk中类相关背景区域的假激活,使LCBS最小化。

在只有LOTM、LBTM和LCBS的情况下,如果激活图中同时包含不相关的背景和目标对象,CLIP模型仍然可以正确预测目标对象。因此,我们设计了一个像素级区域正则化项来约束激活图的大小,以确保不相关的背景在激活图Pk中被排除:
在这里插入图片描述
总的训练目标:
在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/423130.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第二章 数据类型与变量

文章目录1. 字面常量2. 数据类型3. 变量3.1 变量概念3.2 语法格式3.3 整形变量3.3.1 int整型变量(4 个字节)3.3.2 long长整型变量(8 个字节)3.3.3 short短整型变量(2 个字节)3.3.4 byte字节型变量(1个字节)3.4 浮点型变量3.4.1 do…

图片的四个角怎么做成圆弧形,2种方法分享

图片的四个角怎么做成圆弧形?今天来说一说直角和圆弧,小伙伴们可能会疑惑了,怎么今天讲的内容和之前不一样啊,不要着急干货在后面,听我娓娓道来。相信很多小伙伴们都使用过iphone手机,每年的产品发布会都会…

用高中生的思维写一篇MATLAB入门

文章目录一、简介二、MATLAB的工作界面三、基本语句1、if语句2、switch语句3、try语句4、for语句和while语句5、break语句和continus语句四、数值运算1、基本算术运算2、format命令3、关系运算4、逻辑运算5、特殊变量和常数6、数学函数五、二维平面绘图1、关于颜色和数据标记点…

微积分——用积分定义自然对数的动机

第6章 对数函数&#xff0c;指数函数和反三角函数 目录 第6章 对数函数&#xff0c;指数函数和反三角函数 6.1 引言 6.2 用积分定义自然对数的动机 内容来源&#xff1a;<> Tom M. Apostol 6.1 引言 每当有人将他的注意力集中到数量关系的时候&#xff0c;他要么是…

NIFI大数据进阶_实时同步MySql的数据到Hive中去_可增量同步_实时监控MySql数据库变化_操作方法说明_02---大数据之Nifi工作笔记0034

然后我们继续来看,如果需要同步,当然需要先开启mysqlbin log日志了 可以看到开启操作 在windows和linux上开启binlog日志 然后看一下 在windows上开启mysql的binlog的方法

ES X-Pack密码认证与用户管理

用户数据的安全性一直被人诟病且默认没有密码认证&#xff0c;Elasticsearch在6.8之前官方的X-pack安全认证功能都是收费的&#xff0c;所以很多人都采用Search Guard或者ReadOnly REST这些免费的安全插件对Elasticsearch进行安全认证。从Elasticsearch 6.8开始&#xff0c;Sec…

Java集成工作流经典案例(多个项目优化精华版)

前言 activiti工作流引擎项目&#xff0c;企业erp、oa、hr、crm等企事业办公系统轻松落地&#xff0c;请假审批demo从流程绘制到审批结束实例。 一、项目形式 springbootvueactiviti集成了activiti在线编辑器&#xff0c;流行的前后端分离部署开发模式&#xff0c;快速开发平…

爆款来袭!刷屏的Auto-GPT与ChatGPT区别,GPT成为AI领域最受关注的技术,你还在等什么?(狂飙 啊。。。Github 80k star了)

最近全网火爆刷屏的热门词auto-gpt&#xff0c;在全网站频频出现: "ChatGPT 过时了&#xff0c;Auto-GPT才是未来" "它所具备的能力主打的就是一个“自主”&#xff0c;完全不用人类插手的那种&#xff01;" 到底什么是auto-gpt? 1、Auto-GPT和ChatGP…

zabbix创建自定义监控模板之自动注册,代理服务器

目录 第一章zabbix 自动注册&#xff08;对于 agent2 是主动模式&#xff09; 1.1.环境准备 1.2.修改 zabbix-agent2 配置文件 1.3.在 Web 页面配置自动注册 第二章部署 zabbix 代理服务器 2.1.环境部署 2.2.安装 zabbix 所需的数据库yum install -y mariadb-server mar…

ChatGPT应用场景与工具推荐

目录 写在前面 一、关于ChatGPT 二、应用实例 1.写文章 2.入门新的知识 3.解决疑难问题 4.生成预演问题 5.文本改写 6.语言翻译 7.思维导图 8.PDF阅读理解 9.操作格式化的数据 10.模拟场景 11.写代码 三、现存局限 写在前面 本文会简单介绍ChatGPT的特点、局限以…

Baumer工业相机堡盟工业相机如何通过BGAPI SDK获取每张图像的微秒时间和FrameID(C#)

BGAPI SDK获取图像微秒级时间和FrameID Baumer工业相机Baumer工业相机FrameID技术背景一、FrameID是什么&#xff1f;二、使用BGAPI SDK获取图像微秒时间和FrameID步骤 1.获取SDK图像微秒级时间2.获取SDK图像FrameIDBaumer工业相机使用微秒级时间和FrameID保存的用处Baumer工业…

深度理解Vuex的用法及实例讲解

背景&#xff1a; 在项目里面写一个公共的方法&#xff0c;只要有需要的table的column需要变色就直接调用这个方法就好了&#xff0c;不需要在自己的子页面写方法。 如下图&#xff0c;写一个column变色的公共方法。 源代码&#xff1a; 下面的源代码将以上面背景需求为例子…

HTTP协议状态码大全 | 汇总HTTP所有状态码

&#x1f50a; HTTP 状态码 当浏览者访问一个网页时&#xff0c;浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前&#xff0c;此网页所在的服务器会返回一个包含 HTTP 状态码的信息头&#xff08;server header&#xff09;用以响应浏览器的请求。 HTTP…

统计软件与数据分析Lesson8----HTML初识

统计软件与数据分析Lesson8----HTML初识1.什么是 HTML&#xff1f;2.查看HTML源代码3.HTML 标签4.HTML 文档5.编写 HTML6.HTML 标签6.1 HTML 标题6.2 HTML 段落6.3 HTML 链接7.HTML 元素7.1HTML 嵌套元素7.2 HTML空元素8.HTML 属性9. HTML <div> 元素10.其它10.1 HTML 水…

七、网络安全

&#xff08;一&#xff09;网络安全设计 1、网络安全体系设计 &#xff08;1&#xff09;物理安全 通信线路的可靠性、硬软件设备的安全性、设备的备份、防灾害防干扰能力、设备的运行环境、不间断电源 eg机房安全 &#xff08;2&#xff09;系统安全 操作系统本身的缺陷…

MySQL数据库,表的增删改查详细讲解

目录 1.CRUD 2.增加数据 2.1创建数据 2.2插入数据 2.2.1单行插入 2.2.2多行插入 3.查找数据 3.1全列查询 3.2指定列查询 3.3查询字段为表达式 3.3.1表达式不包含字段 3.3.2表达式包含一个字段 3.3.3表达式包含多个字段 3.4起别名 3.5distinct(去重) 3.6order …

如何恢复回收站?数据恢复,这4招就够了!

案例&#xff1a;恢复回收站 【谁能帮帮我这个电脑小白呀&#xff1f;回收站里的文件被删除了还能恢复吗&#xff1f;怎么恢复回收站文件呢&#xff1f;求解答&#xff01;】 电脑的回收站给我们带来了很多的便利&#xff0c;我们可以将删除的数据放入回收站&#xff0c;也可…

OnnxRuntime----Lite-Mono单目深度估计ONNX推理

题目要求&#xff1a;学习了解单目深度估计模型Lite-Mono&#xff0c;根据上篇VSCode配置之OnnxRuntime(CPU) && YOLOv7验证&#xff0c;实现深度估计模型Lite-Mono推理&#xff0c;并集成到现有ONNX系列模型中。 Lite-Mono论文&#xff1a;Lite-Mono:A Lightweight CN…

运算放大器的内部结构-运放

运算放大器的内部结构 算放大器的内部电路&#xff0c;对于使用者在遭遇应用上的极限而导致无法达成系统设计规格时&#xff0c;非常有帮助。而虽然各家厂商推出的运算放大器性能与规格互有差异&#xff0c;但是一般而言标准的运算放大器都包含下列三个部分&#xff1a; 差动…

走进小程序【一】什么是小程序?

文章目录&#x1f31f;前言&#x1f31f;发展史&#x1f31f;什么是[微信小程序](https://developers.weixin.qq.com/miniprogram/dev/framework/)&#xff1f;&#x1f31f;微信小程序能做什么&#xff1f;&#x1f31f;小程序发展前景和优势&#x1f31f;写在最后&#x1f31…