【论文速递】ECCV2022 - 开销聚合与四维卷积Swin Transformer_小样本分割

news2024/9/20 8:05:28

【论文速递】ECCV2022 - 开销聚合与四维卷积Swin Transformer_小样本分割

【论文原文】:Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot Segmentation

获取地址:https://arxiv.org/pdf/2207.10866.pdf

博主关键词: 小样本学习,语义分割,Transformer,聚合

推荐相关论文:

【论文速递】CVPR2022 - 学习 什么不能分割:小样本分割的新视角
- https://blog.csdn.net/qq_36396104/article/details/128658168

摘要:

本文提出了一种新的开销聚合网络,称为体积聚合Transformer(VAT),用于小样本分割。Transformer的使用可以通过对全局接受域的自注意力而有利于相关映射聚合。但是,用于Transformer处理的相关映射的标记化可能是有害的,因为标记边界上的不连续减少了标记边缘附近可用的本地上下文,并减少了归纳偏差。 为了解决这个问题,我们提出了一个4D卷积Swin Transformer ,其中高维Swin Transformer之前是一系列小核卷积,将局部上下文传递给所有像素,并引入卷积归纳偏差。我们还通过在金字塔结构中应用transformers来提高聚合性能 ,在金字塔结构中,较粗级别的聚合引导较细级别的聚合。然后,在查询的外观嵌入的帮助下,在后续的解码器中过滤变压器输出中的噪声。有了这个模型,一种新的最先进的技术在小样本分割被设置为所有的标准基准。结果表明,VAT在语义对应方面也达到了最先进的性能,其中开销聚合也起着核心作用。代码和训练过的模型可以在https://seokju-cho.github.io/VAT/上找到。

简介:

语义分割是一项基本的计算机视觉任务,旨在为图像中的每个像素标记相应的类。在深度神经网络和包含ground-truth分割注释的大规模数据集的帮助下,这一方向已经取得了实质性进展[37,46,3,4,61]。然而,手动标记按像素划分的地图需要大量的劳动,因此很难添加新的类。为了减少对标记数据的依赖,人们越来越关注小样本分割[49,55],其中只有少数支持图像及其相关掩码被用于预测查询图像的分割。

在这里插入图片描述

Fig. 1. 我们的VAT重新制定小样本分割为语义对应。VAT在小样本分割方面达到了最新水平,在语义对应方面也达到了最新水平。

小样本分割的关键是有效利用少的支持样本。许多工作尝试从样本中提取原型模型,并将其用于与查询的特征比较[58,10,35,78]。然而,这种方法忽略了支持特征和查询特征之间像素级的成对关系或特征的空间结构,可能会导致次优结果。

为了解释这种关系,我们观察到,小样本分割可以重新表述为语义对应,其目的是在语义相似的图像之间找到像素级对应,这些图像可能包含大量的类内外观和几何变化[13,14,43]。 最近的语义对应模型[50,25,51,53,42,44,34,65,41]遵循了特征提取、开销聚合和流量估计的经典匹配管道[54,47]。在开销聚合阶段,匹配分数被细化以产生更可靠的对应估计,这是特别重要的,也是许多研究的焦点[53,42,52,22,34,29,41,6]。最近CATs[6]提出使用视觉transformers[11]进行开销聚合,但其对输入令牌数量的二次复杂度限制了其适用性。它还忽视了匹配成本的空间结构,这可能会损害其绩效。

在小样本分割领域,也有一些方法试图通过交叉注意(cross-attention)[83]或图注意(graph attention)[81,68,75]来精炼特征,从而利用成对信息。然而,它们只依赖原始相关图,而不聚合匹配分数。因此,它们的对应可能会因重复的模式或背景杂散而产生歧义[50,25,27,65,17]。为了解决这个问题,HSNet[40]使用4D卷积聚合匹配分数,但其有限的接受字段阻止了远程上下文聚合,并且由于使用固定内核而缺乏适应输入内容的能力。

在本文中,我们介绍了一种新的开销聚合网络,称为Volumetric aggregation with Transformer (VAT),它通过提出的4D卷积Swin Transformer解决了小样本分割任务。 具体来说,我们首先扩展Swin Transformer[36]及其补丁嵌入模块,以处理高维相关映射。通过引入4D卷积来进一步扩展补丁嵌入模块,缓解了补丁嵌入引起的问题,即补丁边界附近有限的局部上下文和低归纳偏差。高维补丁嵌入模块被设计为一系列重叠的小核卷积,为每个像素带来局部上下文信息,并赋予卷积归纳偏差。为了进一步提高性能,我们使用金字塔结构组合我们的体系结构,该结构将较粗级别上的聚合相关映射作为较细级别上的额外输入,从而提供分层指导。然后,我们的亲和感知解码器以一种利用查询外观嵌入给出的更高分辨率空间结构的方式细化聚合匹配分数,并最终输出分割掩码预测。

我们在几个基准上证明了该方法的有效性[55,31,30]。我们的工作在所有的基准上都达到了最先进的性能,用于few-shot分割,甚至用于语义对应,突出了开销聚合对这两个任务的重要性,并显示了其一般匹配的潜力。我们还包括消融研究,以证明我们的设计选择。

在这里插入图片描述

Fig. 2. 整体网络架构。我们的网络包括特征提取和开销计算,一个金字塔式transformer编码器和一个亲和感知transformer解码器。

【社区访问】

img 【论文速递 | 精选】

img阅读原文访问社区

https://bbs.csdn.net/forums/paper

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/165801.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

紧聚焦涡旋光束app设计-VVB2.0

紧聚焦涡旋光束app设计-VVB2.0前言界面预览功能演示写在最后前言 时隔几个月,花了点时间,将之前用matlab设计的app紧聚焦涡旋光束matlab gui设计进行一次修改,这次发布2.0版本,本次修改的范围主要是将原来的界面进行重做&#xf…

软件设计师中级复习小总结

软件设计师中级复习小总结 计算机与体系结构 K 1024 k 1000 B 字节 b 位 1字节 8位 8bit(位)1Byte(字节) 1024Byte(字节)1KB KB,MB,GB之间的换算关系是:1024KB1MB,1024MB1GB,1024GB1TB K,M&#x…

DevOps 实战概述

一、背景越来越多的团队使用DevOps,个人觉得原因有二,其一市场需求,从瀑布到敏捷的过程能看出市场就是需要团队响应快,小步快跑,风险低效率高,但是敏捷只解决了开发团队的问题并没有解决运维团队的问题&…

16、Javaweb_ajax的JSjQuery实现方式JSON_Java对象互转用户校验案例

AJAX: 1. 概念: ASynchronous JavaScript And XML 异步的JavaScript 和 XML 1. 异步和同步:客户端和服务器端相互通信的基础上 * 客户端必须等待服务器端的响应。在等待的期间客户端不能做其他操作。 * 客户端不需要…

[LeetCode周赛复盘] 第 328 场周赛20230115

[LeetCode周赛复盘] 第 328 场周赛20230115 一、本周周赛总结二、 [Easy] 6291. 数组元素和与数字和的绝对差1. 题目描述2. 思路分析3. 代码实现三、[Medium] 6292. 子矩阵元素加 11. 题目描述2. 思路分析3. 代码实现四、[Medium] 6293. 统计好子数组的数目1. 题目描述2. 思路分…

文献阅读总结--合成生物学工程促进大肠杆菌中莽草酸的高水平积累

题目:Systems engineering of Escherichia coli for high-level shikimate production (ME 2022) 0 前言 本版块内容为记录阅读的文献内容总结经典方法手段。本文内容来自相关文献,在文末做来源进行详细说明对文献中内容不做真实性评价。 1 具体内容 …

标准化和归一化概念澄清与梳理

标准化和归一化是特征缩放(feature scalingscaling)的主要手段,其核心原理可以简单地理解为:让所有元素先减去同一个数,然后再除以另一个数,在数轴上的效果就是:先将数据集整体平移到有某个位置,然后按比例…

【C进阶】动态内存管理

家人们欢迎来到小姜的世界&#xff0c;<<点此>>传送门 这里有详细的关于C/C/Linux等的解析课程&#xff0c;家人们赶紧冲鸭&#xff01;&#xff01;&#xff01; 客官&#xff0c;码字不易&#xff0c;来个三连支持一下吧&#xff01;&#xff01;&#xff01;关注…

Spring 中最常用的 11 个扩展点

目录 1.自定义拦截器 2.获取Spring容器对象 2.1 BeanFactoryAware接口 2.2 ApplicationContextAware接口 3.全局异常处理 4.类型转换器 5.导入配置 5.1 普通类 5.2 配置类 5.3 ImportSelector 5.4 ImportBeanDefinitionRegistrar 6.项目启动时 7.修改BeanDefiniti…

MySQL高级【MVCC原理分析】

1&#xff1a;MVCC1.1&#xff1a;基本概念1). 当前读 读取的是记录的最新版本&#xff0c;读取时还要保证其他并发事务不能修改当前记录&#xff0c;会对读取的记录进行加 锁。对于我们日常的操作&#xff0c;如&#xff1a;select ... lock in share mode(共享锁)&#xff0c…

技术人员和非技术人员如何写出优质博客?-涵子的个人想法

大家好&#xff0c;我是涵子。今天&#xff0c;我们来沉重的聊聊一个大家都很关心的一个问题&#xff1a;技术人员和非技术人员如何写出优质博客&#xff1f; 目录 前言 初写博客&#xff0c;仰望大师 中段时期&#xff0c;无粉无赞 优质博客&#xff0c;涨粉涨赞 优质内容…

前端编写邮件html各邮箱兼容及注意事项

近期由于项目需要&#xff0c;第一次编写邮件html模板&#xff0c;发现各种邮箱兼容问题&#xff0c;尤其是windows自带的邮箱outlook兼容性极差&#xff0c;在此简单做下记录。 注意事项&#xff08;全局样式规则&#xff09; 使用越垃圾的样式越好&#xff0c;绝大部分css3…

Spring面试题

Spring概述&#xff08;10&#xff09; https://blog.csdn.net/zhang150114/article/details/90478753 什么是spring? Spring是一个轻量级JavaEE开发框架&#xff0c;最早有Rod Johnson创建&#xff0c;目的是为了解决企业级应用开发的**业务逻辑层和其他各层的耦合问题。*…

Eclipse 连接 SQL Server 数据库教程

&#x1f388; 作者&#xff1a;Linux猿 &#x1f388; 简介&#xff1a;CSDN博客专家&#x1f3c6;&#xff0c;华为云享专家&#x1f3c6;&#xff0c;Linux、C/C、云计算、物联网、面试、刷题、算法尽管咨询我&#xff0c;关注我&#xff0c;有问题私聊&#xff01; &…

JUC面试(一)——JUCJMMvolatile 1.0

JUC&JMM JMM JUC&#xff08;java.util.concurrent&#xff09; 进程和线程 进程&#xff1a;后台运行的程序&#xff08;我们打开的一个软件&#xff0c;就是进程&#xff09;&#xff0c;资源分配单位线程&#xff1a;轻量级的进程&#xff0c;并且一个进程包含多个线程…

Docker部署Nexus通过Maven推送及拉取代码

&#x1f60a; 作者&#xff1a; 一恍过去&#x1f496; 主页&#xff1a; https://blog.csdn.net/zhuocailing3390&#x1f38a; 社区&#xff1a; Java技术栈交流&#x1f389; 主题&#xff1a; Docker部署Nexus通过Maven推送及拉取代码⏱️ 创作时间&#xff1a; 2023…

如何利用ChatGPT帮你写代码?

最近爆火的ChatGpt相信大家都不陌生&#xff0c;听说它还能写代码&#xff0c;而且能力不凡。作为合格的嵌入式软件工程师&#xff0c;必须得充分利用起来&#xff01; 获取系统IP地址 先写一个脚本&#xff0c;获取系统IP地址吧&#xff0c;没想到还有详细的注释&#xff01…

华亚转债上市价格预测

华亚转债基本信息转债名称&#xff1a;华亚转债&#xff0c;评级&#xff1a;A&#xff0c;发行规模&#xff1a;3.4亿元。正股名称&#xff1a;华亚智能&#xff0c;今日收盘价&#xff1a;62.84&#xff0c;转股价格&#xff1a;69.39。当前转股价值 转债面值 / 转股价格 * …

juc系列(1)---进程,线程,并行,并发

目录概述进程线程关系并发并行&#xff1a;同步异步&#xff1a;对比概述 进程 程序由指令和数据组成&#xff0c;但这些指令要运行&#xff0c;数据要读写&#xff0c;就必须将指令加载至CPU,数据加载至内 存。在指令运行过程中还需要用到磁盘、网络等设备。进程就是用来加载…

Databend 内幕大揭秘第一弹 - minibend 简介

minibend &#xff0c;一个从零开始、使用 Rust 构建的查询引擎。这里是 minibend 系列技术主题分享的第一期&#xff0c;来自 PsiACE 。 前排指路视频和 PPT 地址 视频&#xff08;哔哩哔哩&#xff09;&#xff1a;https://www.bilibili.com/video/BV1Ne4y1x7Cn PPT&#x…