CVPR 2023 | 语义分割新范式:点监督遇上隐式场

news2024/11/24 19:11:02

密集预测(dense prediction)网络是解决诸如语义分割和图像本征分解(intrinsic decomposition)等场景理解问题的基本框架。现有工作[1-2] 通常使用像素级标注作为训练密集预测模型的监督。但是像素级别的密集标注非常昂贵, 对一些任务也无法给出精准的像素标注,如在图像本征分解中为野外(in-the-wild)图像标注特定的反射率。这促使我们转而利用廉价的稀疏点监督来训练密集预测网络。

为利用点监督的自身特性,我们提出了一种基于坐标点查询的密集预测网络,它可以预测图像空间中每个连续二维坐标点的对应值,该方法被命名为密集预测场(Dense Prediction Field, DPF)。受最近成功的隐式表示[3-4]的启发,我们使用隐式神经函数来实现 DPF。DPF 为连续的二维空间位置生成可解析的视觉特征,从而允许输出任意分辨率的预测结果。

论文题目:

DPF: Learning Dense Prediction Fields with Weak Supervision

论文链接:

https://arxiv.org/abs/2303.16890
代码链接:

https://github.com/cxx226/DPF

一、解决方案

网络架构

本文所提出的DPF的总体框架如图1所示。我们的网络由三个组件组成:密集预测主干

、guidance编码器 和隐式密集预测场 。总体框架可以被公式化为:

其中  和  分别是从

和 中提取的潜在编码(latent code), 是点查询坐标。

密集预测主干 此前的工作[5]通常将基于图像的隐式场公式化为:

其中  是一个编码器网络,用于提取低级视觉特征作为潜在编码。然而,考虑到在密集预测任务中由专门设计的密集预测网络提取的高级语义信息的重要性,我们提出了一种新的范式,该范式结合了密集预测主干和隐式场。具体地,给定输入图像  ,我们首先将图像馈送到密集预测主干中:

是 的预测头, 是基线密集预测值, 是从 的中间层的输出中提取的高级特征。在训练过程中,我们对  施加损失作为辅助监督,从而对隐式场的预测值提供了约束,并促进潜在编码  学习相应的高级视觉信息。上述范式可以应用于任何即插即用的密集预测模型之上

guidance编码器受此前的工作启发[6],为了使密集预测的结果更加平滑,我们还引入了一个额外的guidance图像  。我们认为,guidance图像的内容可以有利于密集预测场中插值参数的学习(下一小节中介绍),并使DPF输出更好地与高分辨率guidance图像对齐。我们直接使用不同分辨率的输入图像作为guidance图像,而非引入需要特定预处理的图像(例如,[6]中使用边缘检测结果作为引导)。我们使用EDSR网络作为guidance编码器,并从guidance图像中提取特征:

 也用作潜在编码,它包含与  互补的低级局部特征。EDSR模型由16个的残差块组成,我们使用最后一个残差块的输出作为g。潜在编码  与 都提供了重要信息来支持DPF的学习。它们的效果和差异将如实验中图3所示。在下一小节中,我们将详细描述我们的隐式密集预测场。

隐式密集预测场

给定图像平面上一个点的坐标  ,我们的目标是在密集预测场中查询其对应的值 。值得注意的是, 可以是从连续空间采样的随机坐标值,因此我们不能直接从离散密集预测图中提取相应的值。获得  的一种简单方法是对相邻像素的密集预测值进行插值,如图1所示(Implicit Interpolation)。具体地,对应的密集预测值  被定义为:

其中  是  的相邻像素集合, 是像素 的密集预测值, 为  和  之间的插值权重。对于具有多个语义类别的场景解析任务,密集预测值是长度 的向量,其中  是类别的数量。对于图像本征分解中的反射率预测,这些值是标量。在实践中,我们以图像中心为原点,将所有坐标归一化为  ,从而使我们能够方便地组合不同分辨率的潜在编码(  和  )。

受隐式表达的影响,我们使用深度神经网络来获得插值权重和密集预测值。给定输入图像特征  和引导特征  ,我们利用MLP来学习坐标  与其相邻像素  之间的插值权重和值:

其中  是从  和  中提取的像素  的对应潜码。 是相对坐标, 是像素  的坐标。相对坐标能够表示查询点  与其相邻像素  之间的空间相关性。此外,受[7]启发,我们引入了位置编码

,以利用更高频率的空间信号:

在实践中,我们设置 。在Eq.6之后,插值权重通过softmax层进行归一化:

综合积分插值和权重与值的计算,我们的隐式密集预测场的公式可以表示为:

其中 

 是网络参数。

二、实验结果

我们分别在语义分割数据集PASCALContext、ADE20K和图像本征分解数据集IIW上进行了定量和定性实验,分别如下所示:

表1 DPF在IIW上的定量结果

表2 DPF在PASCALContext上的定量结果

表3 DPF在ADE20K上的定量结果

DPF对不同backbone的影响,包含使用CNN-based网络(FASTFCN[8])与Transformer-based网络(DPT[1])两组baseline,均有大幅提升:

表4 DPF使用不同backbone的定量结果

对PASCALContext(第一行)、ADE20K(第二行)和IIW(最后一行)进行定性比较的结果:

图2 DPF使用不同backbone的定量结果

为探究backbone与guidance encoder的影响,我们还对latent code z与g分别进行了t-SNE可视化:

图3 latent code的t-SNE可视化

三、总结

在本文中,为解决像素级标注的昂贵代价,我们专注于点监督密集预测,并提出了一种针对点坐标查询进行密集值预测的新范式——密集预测场 (DPF)。我们使用隐式神经函数对 DPF 进行建模,从而与点监督进行兼容,并生成更加平滑的预测结果。为在语义分割和图像本征分解任务上验证 DPF 的有效性,我们以三个大型公共数据集PASCALContext、ADE20K和IIW为benchmark,DPF在上述数据集上均达到SOTA的实验结果,相比baseline有显著提升。

参考文献

1. Vision transformers for dense prediction. In ICCV (2021)

2. Cerberus transformer: Joint semantic, affordance and attribute parsing. In CPVR (2022)

3. Deepsdf: Learning continuous signed distance functions for shape representation. In ICCV (2019)

4. LODE: Locally Conditioned Eikonal Implicit Scene Completion from Sparse LiDAR. In ICRA (2023)

5. Joint implicit image function for guided depth super-resolution. In ACMMM (2021)

6. Revisiting deep intrinsic image decompositions. In CVPR (2018)

7. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. In ECCV (2020)

8. Fastfcn: Rethinking dilated convolution in the backbone for semantic segmentation. In CVPR (2019)

作者:陈小雪

Illustration by IconScout Store from IconScout

-The End-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/460318.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux-初学者系列3——虚拟光驱使用mount挂载操作

虚拟光驱使用mount挂载操作 一、mount挂载操作1、利用图形将光盘镜像文件,放入光驱设备中2、找到Linux光驱设备(青色) 1、挂载光盘和分区mount命令语法:示例:卸载(注意事项) 二、Linux快捷键 一…

Vue(绑定样式、条件渲染、列表渲染)

一、绑定样式 1. class绑定样式名 标签中使用 :class"xxx" xxx可以是字符串,对象,数组 字符串:适用于类名不确定,动态获取 数组:适用于绑定多个样式,个数不确定,字数不确定 对象&…

ProteinGAN扩展蛋白质序列空间

为了更广泛的医学应用,为催化任何所需的化学反应而重新设计蛋白质是蛋白质工程的重点。因此作者开发了ProteinGAN,这是一种基于自注意力的生成对抗网络,能够学习自然蛋白质序列的多样性,并生成功能性蛋白质序列。 来自&#xff1…

基于GEE平台的植被覆盖度(FVC)像元二分法计算

一、植被覆盖度计算方法 植被覆盖度FVC(Fractional Vegetation Cover)定义为单位面积内绿色植被冠层垂直投影面积所占比例。FVC是衡量地表植被状况的重要指标之一,也是区域生态系统环境变化的重要指示,对水文、生态、区域变化等都…

线程同步方式之一互斥锁

线程同步的4种方式:互斥锁、条件变量、读写锁、信号量 了解概念-临界资源、互斥、临界区、原子性 回想一下在信号量那部分提起过的几个概念,将多个执行流串行安全访问的共享资源称为临界资源,多个执行流中访问临界资源的代码所在的地址空间…

第4章 数据结构之“队列”

队列简介(queue) 1.一个先进先出的数据结构 2.javascript中没有这个数据结构,但是可以使用array实现队列的所有功能。 3.队列常用操作:push,shift,获取队列头部的元素:queue[0] const queue []// 入队: …

网络基础之网络传输基本流程

网络基础 此小节介绍网络基础概念 首先要明确的是 网络是层状结构!分层->OP->解耦 网络发展:最早的时候,每台计算机之间是相互独立的。后续发展到网络互联,就是将多台计算机连接在一起,完成数据共享。 协议&…

Jmeter配置元件之csv数据文件配置

一、csv简介 csv是非常通用的一种文件格式,适用于批量导入数据到接口参数中,或者保存测试结果都可以使用csv数据文件(jmeter不仅仅支持这一种读取文件的方式),csv数据一行即为数据表的一行,多个字段用逗号隔开。 登录接口 …

A+CLUB管理人支持计划第四期 | 香农投资

免责声明 本文内容仅对合格投资者开放! 私募基金的合格投资者是指具备相应风险识别能力和风险承担能力,投资于单只私募基金的金额不低于100 万元且符合下列相关标准的单位和个人: (一)净资产不低于1000 万元的单位&…

Vue3技术7之toRaw与markRaw、customRef、provide与inject、响应式数据的判断、组合式API的优势分析

Vue3技术7 toRaw与markRawtoRawApp.vueDemo.vue markRawDemo.vue 总结 customRefApp.vue总结 provide与inject目录结构App.vueChild.vueSon.vue总结 响应式数据的判断App.vue总结 组合式API的优势配置式的API存在的问题组合式API的优势 toRaw与markRaw toRaw App.vue <te…

HDR tone mapping介绍

文章目录 HDR and tone mapping1.什么是HDR&#xff1f;2.为什么需要HDR&#xff1f;3.hdr文件格式4.tone mapping4.1 aces tone mapping4.2 Fast Bilateral Filtering for the Display of High-Dynamic-Range Images 5 参考 HDR and tone mapping 1.什么是HDR&#xff1f; 就…

nginx + springboot 实现限流

1.spring项目打成jar包后&#xff0c;运行起来 &#xff1a;例如我启动项目 ip 端口号&#xff1a;172.168.0.217:8090 2.修改nginx配置&#xff0c;增加如下配置 nginx 中有两个主要的指令可以用来配置限流&#xff1a;limit_req_zone 和 limit_req upstream myserver{serve…

面试篇:Redis

一、缓存穿透 1、缓存穿透 查询一个不存在的数据&#xff0c;mysql查询不到数据也不会直接写入缓存&#xff0c;就会导致每次请求都查数据库。即&#xff1a;大量请求根本不存在的key 2、查询流程 3、出现原因 业务层误将缓存和库中的数据删除了&#xff0c;也可能是有人恶…

3台服务器+StarVCenter,搭建“超融合云平台”-完美体验-跑100台虚拟机

3台服务器StarVCenter&#xff0c;搭建“超融合云平台”-完美体验-跑100台虚拟机 我们通常讲的“超融合&#xff08;HCI&#xff09;”是一种云平台基础架构方案&#xff0c;它无需专用的存储设备&#xff0c; 每台服务器既承担计算又存储数据&#xff0c; 只需增加服务器&…

SpringMVC-RESTful架构风格

目录 RESTful架构风格 1、RESTful概述 2、RESTful的六大原则 3、RESTful的实现 4、HiddenHttpMethodFilter RESTful风格的CRUD 1、环境搭建 2、功能需求 3、功能&#xff1a;访问首页 4、功能&#xff1a;查询所有数据 5、功能&#xff1a;删除一条数据 6、功能&…

Web服务

安装 WEB 服务&#xff1b; ~ 服务以用户 webuser 系统用户运行&#xff1b; ~ 限制 web 服务只能使用系统 500M 物理内存&#xff1b; ~ 全站点启用 TLS 访问&#xff0c;使用本机上的“CSK Global Root CA”颁 发机构颁发&#xff0c;网站证书信息如下&#xff1a; C…

财报解读:涅槃重生之后,新东方还想再造一个“文旅甄选”?

新东方逐渐走出了“微笑曲线”。 图源&#xff1a;新东方2023财年Q3财报 2023年4月19日&#xff0c;新东方披露了2023财年Q3财报&#xff08;截至2023年2月28日止&#xff09;&#xff0c;营收7.5亿美元&#xff0c;同比增长22.8%&#xff1b;归母净利润为8165万美元&#xff…

2023年4月份上新的视频领域分割模型设计系列论文(附下载链接)

来源&#xff1a;投稿 作者&#xff1a;王老师 编辑&#xff1a;学姐 论文1 论文标题&#xff1a; Boosting Video Object Segmentation via Space-time Correspondence Learning 论文链接&#xff1a; https://arxiv.org/pdf/2304.06211v1.pdf代码链接&#xff1a;暂未开源 …

QGIS数据可视化学习笔记02——CSV数据和表连接

在其他的GIS软件中&#xff0c;表的连接操作是十分常用的操作&#xff0c;在QGIS中也是一样的&#xff0c;接下来我们介绍QGIS中属性表之间的连接以及如何添加CSV数据到属性表中。 1、表的连接 &emsp如关系型数据库一样&#xff0c;两表连接的前提是&#xff0c;两个表中都…

使用大模型进行代码阅读——关于LLaMA模型代码的一些思考

使用大模型进行代码阅读 关于LLaMA模型代码的一些思考 关于这个模型的代码其实挺简单的&#xff0c;如果了解transformer decoder的代码&#xff0c;这个代码理解起来相对会比较容易一些&#xff0c;但是在这个代码里面有几个问题&#xff0c;是自己的一些思考或者是疑问点吧…