【ICCV2023】Adaptive Frequency Filters As Efficient Global Token Mixers

news2024/11/16 5:25:22

Adaptive Frequency Filters As Efficient Global Token Mixers

论文:https://arxiv.org/abs/2307.14008

代码:暂未开源

解读:ICCV23|轻量级视觉主干网络AFFNet:频域自适应频段过滤=空域全局动态大卷积核 - 知乎 (zhihu.com)

摘要

最近的vision transformer、大核CNN和MLP由于其在全局范围内的有效信息融合,在视觉任务中取得了显著的成功。然而,由于自注意机制、大内核或全连接层的高昂计算成本,它们的高效部署,特别是在移动设备上的高效部署仍然面临着值得注意的挑战。这项工作,将传统的卷积定理应用于深度学习,以解决这一问题,并揭示自适应频率滤波器可以作为有效的全局令牌混频器。

基于此,论文提出了自适应频率滤波(AFF)令牌混频器:Adaptive Frequency Filtering token mixer。通过傅里叶变换 (Fourier transform) 将特征变换到频域,并利用下面关系在数学上的等价:

  • 在频域中 "通过逐位置的乘法操作过滤不同频段的特征"。
  • 在空域中 "用一个动态卷积核执行特征混合操作,卷积核的大小为特征的大小"。

AFF令牌混合器作为主要的神经算子来构建一个轻量级的神经网络,称为AFFNet。

实验结果表明,与其他轻量级网络设计相比,AFFNet 在大多数视觉任务 (包括视觉识别和密集预测任务) 上实现了更好的精度和效率的权衡。

动机

AFFNet 设计了一种自适应频段过滤算子:Adaptive Frequency Filtering token mixer。

利用卷积定理, 即:在一个域中的卷积在数学上等于其对应的傅里叶域中的 Hadamard 积 (也称为 Elementwise 乘积)。它的特点力求和 Self-Attention 对齐,包括:

  • 全局信息建模 (Large Scope):在频域中进行 Hadamard 积运算等价为在空域中进行大卷积核运算。
  • 输入自适应 (Instance-Adaptive):Self-Attention 的另一个性质是输入自适应,即计算出的 Attention 权重与输入图片的内容有关。动态卷积满足这一性质,但是同样存在计算代价高昂的问题,尤其是大核卷积的情况。直接加大卷积核很难直接满足这个需求。

方法

Token Mixing 过程表示

对于特征 x^q, 经过 token mixing 后得到N(x^q) 的过程可以统一描述为下式:

对于 CNN 模型,如果使用大卷积核,卷积的计算复杂度随总的 token 数呈O(N^2)的关系,对于 Transformer 模型,Self-Attention 的计算复杂度随总的 token 数也呈O(N^2)的关系。MLP-Mixer 模型如果实现全局感受野需要大量的权重参数。因此自适应频段过滤算子希望借助频域设计高效,全局,以及输入自适应的算子。

自适应频段过滤算子的原理

卷积过程可表表达为: 

AFFNet网络 & 自适应频段过滤算子 

图2:自适应频段过滤算子,左侧:把空域特征转换到频域进行操作,右侧:直接在空域中进行动态卷积的操作相互等价

AFFNet 网络架构:每一层包括一个 MBConv 模块和一个自适应频段过滤算子。遵循 Transformer 架构的一般范式使用 Layer Normalization 归一化。整体架构可以写成下式:

堆叠多个 AFF 块来构建轻量级骨干网络,即 AFFNet,AFFNet 使用惯例做法 Convolution Stem 来处理输入图片,每个 Stage 之间使用一个 Fusion 模块来融合特征。

自适应频段过滤算子流程:

  1. 首先把输入特征做快速傅里叶变换 (Fast Fourier Transform, FFT) 转换到频域X_F=\mathcal{F}(X), 其中\mathcal{F}(X)为:

 快速傅里叶变换的计算复杂度是O(NlogN).

  2. 通过可学习的频域滤波器 \mathcal{M}(\mathcal{F}(X))点乘输入的频域特征:

其中,\mathcal{M}(\mathcal{F}(X)) 是可学习的频域滤波器, 和频域特征有相同的形状。为了使网络尽可能轻量化, \mathcal{M}(\cdot)由 1×1 卷积层, 即线性层, ReLU 激活函数和一个线性层实现。

  3. 通过快速傅里叶逆变换 (Inverse Fast Fourier Transform, IFFT) 转换回到空域:

至此,\hat{X}在数学上等价于采用大核动态卷积作为 Token Mixer 的权重得到的输出结果。 ​​​​

等价关系如下

 其中, \mathcal{F}^{-1}[\mathcal{M}(\mathcal{F}(X))]是与 X 形状相同的张量, 可以看作是大核动态卷积的卷积核 (满足性质 a : 全局信息建模), 这个 Kernel 与输入内容有关 (满足性质 b : 输入自适应)。因此, \hat{X} 在数学上等价于采用大核动态卷积作为 Token Mixer 的权重得到的输出结果。根据傅里叶变换的性质, 对X 采用 circular padding。

自适应频段过滤算子使用极轻量级的网络构建一个可学习的频域滤波器 \mathcal{M}(\cdot), 然后计算 \mathcal{M}(\cdot)与频域特征之间的 Hadamard 积进行自适应频率滤波。最后再将特征通过傅里叶逆变换, 变换到空域。至此, 频域自适应频段过滤就相当于是空域全局动态大卷积核。

使用不同频率操作操作算子的比较: 

实验

ImageNet-1K 图像识别 

 

COCO 目标检测  & ADE20k 语义分割

消融实验

为了验证频域中混合信息的有效性,作者比较了在原始域和频域应用相同的自适应过滤操作,即进行了下面的实验:丢弃所有的傅里叶和傅里叶反变换,并保持其他与 AFFNet 相同,命名为 "Base.+AFF w/o FFT"。在相同的模型复杂度下,AFFNet 明显高出 1.4% 的 Top-1 精度。在原始域中应用自适应滤波甚至比仅仅用 Conv 作为 Token Mixer 弱 (取得了 78.6% 的 Top-1 精度,命名为 "Base.+Conv-mixer (3×3)"),这表明只有自适应频率滤波器可以作为有效的全局 Token Mixer. 

使用不同的频率操作比较 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/907074.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

热烈祝贺贵州董程酿酒成功入选航天系统采购供应商库

经过航天系统采购平台的严审,贵州董程酿酒有限公司成功入选中国航天系统采购供应商库。航天系统采购平台是航天系统内企业采购专用平台,服务航天全球范围千亿采购需求,目前,已有华为、三一重工、格力电器、科大讯飞等企业、机构加…

基于讯飞开放平台API服务构建集成大模型能力

在前面的一篇文章中实测体验了讯飞开放平台发布的V2.0版本大模型的能力,感兴趣的话可以自行移步阅读即可: 《科大讯飞发布星火认知大模型2.0版——体验实测》 这里一并发布的还有API接口,如下所示: 点击【API测试申请】即可自动…

PHP服饰文化网站系统Dreamweaver开发mysql数据库web结构php编程计算机网页项目

一、源码特点 PHP 服饰文化网站系统是一套完善的web设计系统,对理解php编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。 源码下载 https://download.csdn.net/download/qq_41221322/88236778 PHP服饰文化网站…

【哈希表】HashSet HashMap LeetCode习题

目录 136.只出现一次的数字 137.只出现一次的数字 || 217.存在重复元素 219.存在重复元素 || 771.宝石与石头 旧键盘(牛客) 首先需要导包 import java.utli.*; 表中常用的是前两个&#xff0c;时间复杂度低。O(1) Set<E> set new HashSet<>(); set.conta…

使用VSCode配置简单的vue项目

由于最近要使用的项目框架为前后端分离的&#xff0c;采用的是vue.jswebAPI的形式进行开发的。因为之前我没有接触过vue.js&#xff0c;也只是通过视频文档做了一些简单的练习。今天技术主管说让大家熟悉下VSCode开发vue&#xff0c;所以自己摸索了好久&#xff0c;才算是把简单…

2023年7月京东扫地机器人行业品牌销售排行榜(京东数据产品)

伴随消费者解放双手的消费需求&#xff0c;我国清洁电器行业快速发展。且随着消费回暖&#xff0c;我国扫地机器人市场也开始慢慢走出寒冬&#xff0c;止跌回升。 根据鲸参谋电商数据分析平台的相关数据显示&#xff0c;今年7月份&#xff0c;京东平台扫地机器人的销量为16万&…

正中优配:港股迎来估值“黄金坑” 哪个点位介入胜率高?

近两周&#xff0c;港股向下突破了一切技能短线支撑信号。在新的技能信号构成前&#xff0c;港股有望迎来估值压力的开释&#xff0c;带来一个估值“黄金坑”。当估值回到“轻视”区间时&#xff0c;咱们信任港股对全球资本的吸引力将再次凸显。详细而言&#xff0c;咱们用两种…

eDP接口的PCB布局布线要求

eDP接口是一种基于DisplayPort架构和协议的一种全数字化接口&#xff0c;传递高分辨率信号只需要较简单的连接器以及较少的引脚就可以实现&#xff0c;同时还能够实现多数据同时传输。 图1 EDP接口 eDP接口的PCB设计布局布线注意事项&#xff1a; 1、远离干扰源&#xff0c;防…

让eslint的错误信息显示在项目界面上

1.需求描述 效果如下 让eslint中的错误&#xff0c;显示在项目界面上 2.问题解决 1.安装 vite-plugin-eslint 插件 npm install vite-plugin-eslint --save-dev2.配置插件 // vite.config.js import { defineConfig } from vite import vue from vitejs/plugin-vue import e…

vue3 中wangEditor富文本编辑器上传图片功能

前端代码&#xff1a; wangEditor中要实现上传图片功能需要在editorConfig中添加一个对象属性。 const editorConfig { placeholder: "请输入内容...", MENU_CONF: {} }; 然后根据官方文档上的方法&#xff0c;填写uploadImage的上传地址 editorConfig.MENU_CONF[&q…

安卓主板定制_电磁屏/电容屏安卓平板基于MTK联发科方案定制

定制化行业平板 在各行各业中的地位越来越重要&#xff0c;甚至在行业转型和发展中发挥着不可替代的作用。随着工业化社会的快速发展&#xff0c;工业生产对智控设备要求越来越高&#xff0c;运用的范畴也越来越普遍广泛&#xff0c;工业级平板就是其中一种应用广泛的设备。 新…

什么是CSS中的BFC?

①什么是BFC BFC 全称&#xff1a;Block Formatting Context&#xff0c; 名为 “块级格式化上下文”。 W3C官方解释为&#xff1a;BFC它决定了元素如何对其内容进行定位&#xff0c;以及与其它元素的关系和相互作用&#xff0c;当涉及到可视化布局时&#xff0c;Block Forma…

Python2 和Python3的共存和切换

1、电脑中安装python2和python3&#xff0c;将python2,python3的路径都添加到环境变量中 2、修改python2目录中的Python.exe为python2.exe&#xff0c;使用python2命令启动 3、修改python3目录中的python.exe为python3.exe&#xff0c;使用python3命令启动 4、更新pip命令 修…

item_search_seller-搜索店铺列表

一、接口参数说明&#xff1a; item_search_seller-搜索店铺列表&#xff0c;点击更多API调试&#xff0c;请移步注册API账号点击获取测试key和secret 公共参数 请求地址: https://api-gw.onebound.cn/taobao/item_search_seller 名称类型必须描述keyString是调用key&#x…

哪些人适合参加大数据培训班?

互联网加速职场变革&#xff0c;大数据浪潮席卷全球。日前&#xff0c;Python、大数据、人工智能是当今最热门的话题。大数据存储、大数据分析、 人工智能等开发人才需求旺盛。 大数据培训班有大数据分析培训班、大数据开发培训班&#xff0c;JAVA培训班 大数据班适学人群…

单点登陆案例实现

一 单点登陆系统简介 单点登录&#xff08;Single Sign On&#xff09;&#xff0c;简称为 SSO&#xff0c;是目前比较流行的企业业务整合的解决方案之一。SSO的定义是在多个应用系统中&#xff0c;用户只需要登录一次就可以访问所有相互信任的应用系统。 例如&#xff1a;QQ、…

exe指定自带jre环境执行--exe4j使用注意点

不要打钩,允许使用jre运行而不仅仅是jdk 将jre复制粘贴到exe目录下,和我吗的exe在同一文件夹

Flowable学习[一]

一、参考CSDN博主[水中加点糖]的博客[采用springbootflowable快速实现工作流]&#xff0c;文章地址&#xff1a;https://puhaiyang.blog.csdn.net/article/details/79845248&#xff0c;下载其发布在github上的代码 二、本地解压代码&#xff0c;并加载到idea中 三、使用docke…

使用three.js与WebGL相比有什么优势?

推荐&#xff1a;使用 NSDT场景编辑器 助你快速搭建可二次编辑的3D应用场景 特点 WebGL和Three.js是两个与网页3D图形渲染相关的技术。以下是它们的一些特点&#xff1a; WebGL: 基于OpenGL ES标准&#xff0c;为网页提供了一种基于GPU加速的图形渲染API。具有高性能的图像处…

期权攻略:手续费、保证金、期权账户租赁、零门槛开户哪家强?

期权开户的手续费和保证金收取方式可能因不同的券商和期权分仓平台而异。一般来说&#xff0c;期权手续费是根据交易的类型和数量张数来计算的&#xff0c;可以是固定费用或按比例收取&#xff0c;下文介绍期权攻略&#xff1a;手续费、保证金、期权账户租赁、零门槛开户哪家强…