突破经典网格特征?AutoFocusFormer: Image Segmentation off the Grid 论文阅读笔记

news2024/11/16 12:55:13

突破经典网格特征?AutoFocusFormer: Image Segmentation off the Grid 论文阅读笔记

  • 一、Abstract
  • 二、引言
  • 三、相关工作
    • 视觉 Transformer Backbones
    • 基于聚类的注意力
    • 自适应下采样
    • 点云网络
  • 四、方法
    • 4.1 聚类和区域
      • 4.1.1 平衡聚类
      • 4.1.2 聚类的区域

写在前面

  这一周赶上五一五天假了,朋友们出去 happy 了吗?有没有赶上人山人海的热闹?反正我只是在 5.1 那天出去走走,哈哈。
  这是一篇关于实例分割的文章,所解决的问题在于实例分割中需要的小目标像素分辨率太低,于是本文提出一种自适应下采样的方法来解决这一之前没有人想到要做的隐藏问题。

  • 论文地址:AutoFocusFormer: Image Segmentation off the Grid
  • 代码地址:暂未开源
  • 收录于:CVPR 2023
  • 温馨提示:这篇论文写作废话太多,抓不住重点,此篇写到一半结束了,但可作为反面教材学习避免一些糟糕的表达。
  • TiP:2023 每周一篇博文,主页更多干货输出,欢迎浏览、关注。粉丝量破 3K,期待您的参与~

一、Abstract

在这里插入图片描述
  真实世界的图像内容总是密度不平衡分布,即大块的蓝天白云,小块的目标物体,如上图所示。经典的卷积网络对所有图像内容一视同仁。但由于小目标占据的空间位置非常小,以至分割等任务比较糟糕。于是,在下采样中保留更多的表示小目标的像素能够有助于留存重要的信息。本文提出一种局部注意力 Transformer 图像识别 Backbone,即 AutoFocusFormer (AFF) 方法,执行自适应下采样来学习保留最重要的像素信息。由于自适应下采样会产生一些不规则的像素分布,因此放弃了经典的grid结构,而提出了一种新的基于点的局部注意力 block,由一个平衡聚类模块和一个可学习的聚类融合模块组成。实验表明 AFF 的性能很棒。

二、引言

  首先指出现实世界图像内容分布通常不平衡,经典的卷积网络平等地对待图像上的内容,而忽视了不同目标的重要性。最近的 Transformer 方法虽然并不是严格依赖于 grid 结构,但是仍采用基于 grid 的技术,例如步长为 16 的卷积和 7 × 7 7\times7 7×7 的局部注意力滑动窗口。
  尽管卷积网络被普遍使用,但均匀下采样对于需要像素水平的细节信息例如分割任务,就力不从心了。于是首先想到的解决方法是提高输入图像分辨率,这样下采样后的特征图分辨率也随之提高,但是计算内存和计算量也随之增加。还有一些方法在分割解码器中采用不规则的采样点来尝试解决这一问题,但是仍然依赖于均匀下采样编码器,留下了一些均匀采样的隐患。
  为解决这一问题,需要模型能够在每张图像上非均匀采样,即 保留重要的细节信息同时压缩那些不太重要的区域。有一些方法简单的应用全局注意力机制进行自适应下采样,但全局注意力不会放缩到远高于 ImageNet 的分辨率,从而无法适应于类似图像分割的任务。
  为满足上述要求,本文提出提出第一个端到端的、连续自适应下采样阶段的网络,AutoFocusFormer (AFF)。为缩放高分辨率图到分割的要求,AFF 采用局部注意力 Block。为定义不规则采样 tokens 的局部注意力区域,提出一种平衡聚类算法,利用空间填充曲线将这些不规则的位置分组到区域,提出一种自适应下采样模块通过可微分的区域融合过程来学习不同图像位置的重要性。最终,修改分割头以使得能够适应 backbone 生成的不规则空间表示。
  本文提出的方法通过保留任意数量的token从而能拥有大量的计算预算,总体而言,贡献如下:

  • 第一个引入端到端的、有着弹性下采样率的连续自适应下采样;
  • 提出一组平衡聚类算法将 tokens 分组到区域内;提出一组聚类融合模块来启用端到端的自适应下采样学习;
  • 应用本文提出的算法到一些 SOTA 的框架内,验证了方法的泛化性;
  • 实验结果表明本文提出的方法能够显著地识别实例分割任务中的小目标。

三、相关工作

视觉 Transformer Backbones

  ViTs 模型缺乏稠密预测任务所需要的级联特征图,于是 MViT、PVT 出世了。但仍然是在全局注意力图上进行操作,因此所需要的计算成本随着输入图像的尺寸增大而增加。解决办法之一是应用低分辨率的特征图,例如 BoT、LeViT 等。另外一些方法修改注意力操作:Seg-Former、PoolFormer、AFT、Swin Transformer、SASA。

基于聚类的注意力

  基于稀疏注意力的聚类方法已经应用在视觉语言领域了,但是这些方法并未涉及自适应下采样。大多数方法尝试聚类学习到的特征,而本文提出基于 token 位置的聚类。有一些方法将聚类应用在解码器中,不同于这种,本文将聚类应用在编码器中。

自适应下采样

  有很多尝试结合自适应下采样与 ViTs 的方法,例如 AdaViT、DynamicViT、A-ViT、Dynamic Grained Encoder、EViT、PS-ViT。但这些方法仍然基于全局注意力图,因此不能缩放到高分辨率的分割任务,而是仅关注与加速 ImageNet 上的分类。有一些方法关注于自适应下采样策略的设计,总体趋势则是发现 tokens 的融合比 tokens 的减少似乎更自然。相应的,本文提出一种区域融合模块,能够自适应地选择融合位置,直接从损失中获得重要 tokens 的得分。

点云网络

  有一些 3D 点云方法,直接在一系列不规则的点上进行操作,例如:PointNet++、PointConv、Point Transformer。这些方法总是选择 K 个最近邻的或者为每个点找到若干个最近聚类中心。本文利用 PointConv 作为解码器模型来代替 3 × 3 3\times3 3×3 卷积。

四、方法


  如上图所示:本文提出的 Backbone 模型主要由 patch embedding 模块和 4 个阶段以及一个特定任务头组成。其中每个阶段由一个聚类算法、一些局部注意力 Transformer 块、自适应下采样模块组成。

4.1 聚类和区域

  原始的聚类方法有着平方复杂度,于是一些方法通过引入对给定的点进行初次 k-means 聚类来加速 KNN。本文同样采用聚类来定义局部区域,即将 tokens 划分为类,将区域定义为包含多个邻近的聚类。但是传统的聚类方法不能直接完成这一目标,原因在于这类方法通常需要迭代或者多轮采样导致速度太慢,并且聚类中心有着不同数量的赋值点,于是在计算时只能用 0 填充到同一维度从而进行批量运算,这就占据了大量的内存和时间上的浪费。
  于是本文提出一种新颖的平衡聚类方法。

4.1.1 平衡聚类

  通过空间填充曲线将 2D 坐标转化为 1D 坐标,同时保留 2D 距离信息,然后将这些坐标划分到等大小的组内从而得到一个平衡的聚类,于是在线上靠近的点在 2D 空间中也相当接近。然而从 2D 转为为 1D 的过程中,很难完整地保存 2D 的信息。为减轻这一丢失问题,本文采用一种两阶段的处理过程。这一想法实质上是尽在粗糙的层次上利用空间填充曲线来获得稀疏且规则的 2D 样本位置,然后基于 2D 距离来排列 tokens 的位置。
  确切来说,首先将图像划分为粗糙且规则的 Patch 块,其数量与打算聚类的类别数量相同。每一个 patch 的中心记为空间填充锚点,空间填充曲线在锚点之间创建序列。于是在这序列上位置为 p ∈ R 2 p\in\mathbb{R}^2 pR2 处,且属于锚点 a i ∈ R 2 a_i\in\mathbb{R}^2 aiR2 的 token,同时定义前面的锚点 a i − 1 a_{i-1} ai1 a i + 1 a_{i+1} ai+1。计算 token p 到这两个锚点的距离比 r r r 如下:
r ( p ) = d i − 1 ( p ) d i + 1 ( p ) = ∥ p − a i − 1 ∥ 2 ∥ p − a i + 1 ∥ 2 r(p)=\dfrac{d_{i-1}(p)}{d_{i+1}(p)}=\dfrac{\|p-a_{i-1}\|_2}{\|p-a_{i+1}\|_2} r(p)=di+1(p)di1(p)=pai+12pai12在每个 pathc 上,通过对 r r r 进行降序排列,就能得到一组有序的 tokens。如下图所示:
在这里插入图片描述
注意这一聚类算法在每个阶段开始时仅需要执行一次,而所有注意力 bolock 和结尾使用的下采样模块在这一阶段中共享聚类信息,但这一平衡聚类算法仅适用于低维度的点。

4.1.2 聚类的区域

  为鼓励信息在整个图像上流动,那么注意力就不能仅仅局限于相同的聚类上,例如 Swin-Transformers 通过滑动窗口使得注意力能够关注不同层上的不同区域。但是在本文中,每一层的重聚类会增加计算量。于是采用更小的聚类,并使得每个 token 关注周围 R R R 个邻近的聚类。
在这里插入图片描述
结语

  这可能是第一篇写到最后没太完成的博文,论文中的写作一言难尽,废话太多,抓不住重点,遂到此为止,及时止损。这篇论文的写作可以算得上反面教材了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/487209.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【五一创作】Visual Studio常用调试技巧的温习

当你在编写C程序时,难免会遇到代码出现错误的情况。这时候就需要用调试工具来定位问题并解决它。以下是一些在Visual Studio中使用调试器时常用的技巧,权当作温故总结罢~ 1. 断点 断点是调试中最为基本但也最常用的技巧之一。通过在需要定位的代码行上打…

一文搞懂 x64 IA-64 AMD64 Inte64 IA-32e 架构之间的关系

想要搞清楚 x64、IA64、AMD64 指令集之间的关系,就要先了解 Intel 和 AMD 这两家公司在生产处理器上的发展历史。 x86 处理器 1978年 Intel 生产了它的第一款 16bit 处理器8086,之后几款处理器名字也都以86结尾,包括80186,80286&a…

五一长假暴露了电动爹的真面目,而新能源汽车市场似乎也到了转折点

4月份国内市场汽车销量数据已经出炉,同比来说仍然保持了很高的增长,不过环比数据却显示出新能源汽车市场似乎已到了转折点,繁荣期似乎已经结束,淘汰赛开始了。 一、五一长假再次暴露了电动爹的真面目 新能源汽车长途旅行首先就是怕…

部署LVS-DR集群

引言 一、LVS-DR工作原理 LVS-DR(Linux Virtual Server Director Server)工作模式,是生产环境中最常用的一 种工作模式。 LVS-DR 模式,Director Server 作为群集的访问入口,不作为网关使用节点 Director Server 与 …

推荐算法实战项目:DeepFM 原理以及案例实战(附完整 Python 代码)

本文要介绍的是由哈尔滨工业大学联合华为发表论文《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》中提出的DeepFM模型。其实根据名字可以看出来,此模型包含Deep和FM两个部分。其中Deep部分就是普通的深度神经网络,FM是因子…

【图像处理】墨西哥小波和带通滤波

一、说明 在连续小波的家族当中,埃尔米特小波是个非常特别的存在(应用在连续小波转换称作埃尔米特转换)。Ricker子波计算电动力学的广谱源项。它通常只在美国才会被称作墨西哥帽小波,因为在作为核函数处理2维图像时,形…

推荐算法实战项目:NFM 原理以及案例实战(附完整 Python 代码)

本文要介绍的是由新加坡国立大学的研究人员在论文《Neural Factorization Machines for Sparse Predictive Analytics∗》中提出的NFM模型。 NFM模型全称是Neural Factorization Machines,通过名字也可以看出,这又是一个基于FM模型改进得到的网络。无论…

SpringBoot+vue文件上传下载预览大文件分片上传文件上传进度

文章目录 学习链接上传文件前端后端代码 下载文件a标签下载前端代码后台代码 动态a标签下载前端代码 axios 动态a标签前端代码 浏览器直接输入 预览文件前端代码后端代码 分片上传前后端分别md5加密spark-md5commons-codec 分片上传实现前端代码后端代码 学习链接 Blob &…

zynq基于XDMA实现PCIE X8视频采集卡 提供工程源码和QT上位机程序和技术支持

目录 1、前言2、我已有的PCIE方案3、基于zynq架构的PCIE4、总体设计思路和方案视频输入通路视频输出通路PCIE输出上位机通路 5、vivado工程详解6、SDK 工程详解7、驱动安装8、QT上位机软件9、上板调试验证10、福利:工程代码的获取 1、前言 PCIE(PCI Exp…

智能无人蜂群作战系统适应性进化模型仿真研究

源自:系统仿真学报 作者:李志强, 李元龙, 殷来祥, 马向平 摘 要 智能无人蜂群作战系统主要由有限行为能力的大规模作战个体组成,一般不具备应对复杂战场环境和作战对手变化的适应能力。采用遗传算法与增强学习相结合的方法探索构建基于个体…

Apache Flink (最新版本) 远程代码执行

路虽远&#xff0c;行则将至&#xff1b;事虽难&#xff0c;做则必成 Apache Flink < 1.9.1(最新版本) 远程代码执行 CVE-2020-17518 漏洞描述 近日,有安全研究员公开了一个Apache Flink的任意Jar包上传导致远程代码执行的漏洞. 漏洞影响 Apache Flink < 1.9.1(最新…

通过频谱规划软件摆脱频谱监测硬件限制

背景 随着无线通信技术的发展,电磁频谱被逐渐扩充&#xff0c;从几kHz到1THz的频段慢慢被各种技术填充与覆盖。在任意时刻任意地点&#xff0c;5G、WiFi、GNSS、广播电台、航空通信等&#xff0c;都离不开无线通信。 电磁频谱&#xff08;EMS&#xff09;被广泛用于生活中&am…

基于matlab使用均匀矩形阵列进行电子扫描

一、前言 本示例模拟定期扫描预定义监视区域的相控阵雷达。该单基地雷达使用900元件矩形阵列。介绍了根据规范推导雷达参数的步骤。合成接收到的脉冲后&#xff0c;进行检测和距离估计。最后&#xff0c;利用多普勒估计得到每个目标的速度。 二、雷达定义 首先&#xff0c;我们…

M301H-BYT代工-支持Hi3798 MV300H/MV300/MV310芯片-当贝纯净桌面-强刷卡刷固件包

M301H-BYT代工-支持Hi3798 MV300H&#xff0f;MV300&#xff0f;MV310芯片-当贝纯净桌面-强刷卡刷固件包 特点&#xff1a; 1、适用于对应型号的电视盒子刷机&#xff1b; 2、开放原厂固件屏蔽的市场安装和u盘安装apk&#xff1b; 3、修改dns&#xff0c;三网通用&#xff…

算法学习-图像的数据格式BGR

OpenCV学习——图像的BGR格式解读 1. opencv读取的图片数据格式2. BGR含义 1. opencv读取的图片数据格式 opencv读取的图片数据格式为numpy的nparray格式。 一张二维图片是由像素点构成&#xff0c;如下图所示&#xff1a; 其中行与列确定了像素点的位置&#xff0c;值确定了…

美团企业版:地利尚可,天时不足

配图来自Canva可画 近年来入局B端逐渐成为各家互联网大厂的必然选项&#xff0c;美团自然不甘心落于人后。 4月13日&#xff0c;美团企业版正式上线&#xff0c;面向企业客户推出一站式企业消费管理服务&#xff0c;覆盖团餐、差旅等场景&#xff0c;同时推出“企航计划”&am…

电脑视频删除了怎么恢复回来?很着急

案例分享&#xff1a;“电脑视频删除了怎么恢复回来&#xff1f;我是一名影楼的摄像师&#xff0c;我的主要工作就是拍摄婚礼视频&#xff0c;最近拍了一场婚礼视频&#xff0c;当时由于相机的内存不足&#xff0c;于是将宣传片等视频都导入进了电脑里面&#xff0c;清空摄像机…

自定义控件 (?/N) - 颜料 Paint

参考来源 一、颜色 1.1 直接设置颜色 1.1.1 setColor( ) public void setColor(ColorInt int color) paint.setColor(Color.RED) paint.setColor(Color.parseColor("#009688")) 1.1.2 setARGB( ) public void setARGB(int a, int r, int g, int b) paint.se…

多商户商城系统-v2.2.3版本发布

likeshop多商户商城系统-v2.2.3版本发布了&#xff01;主要更新内容如下 新增 1.用户端退出账号功能 优化 1.平台添加营业执照保存异常问题 2.平台端分销商品优化-只显示参与分销的商品 3.优化订单详情显示营销价格标签 4.平台交易设置增加默认值 5.种草社区评论调整&a…

如何下载安装驱动

1 打开浏览器 这里以Edge浏览器举例 第一步打开桌面上的Edge浏览器 如果您的桌面上没有 那么找到搜索栏 搜索Edge 然后打开 打开之后一般是这样 然后把我发送您的地址 驱动下载地址 https://t.lenovo.com.cn/yfeyfYyD &#xff08;这个网址只是一个例子&#xff09; 删除掉前…