验证attention是否在图像分类问题上起决定性作用

news2025/1/10 1:30:21

来源:投稿 作者:摩卡
编辑:学姐

Motivation

现阶段出现了大量的Transformer-style图像分类模型,并且这些模型在ImageNet上取得了不俗的成绩,这些Transformer-style模型将取得高性能的功劳归功于Multi-head attention注意力机制,但是是否由于attention而取得好效果目前还不明确。故本文为了验证该想法Is the attention necessary? 进行了研究。

Method

为了验证attention是否在图像分类问题上起决定性作用,本文使用Feed-Forward Network (single-layer MLP)替换Multi-head attention,模型图如下所示:

然后选取了当下流行的ViT(2020年提出的纯Transformer的图像分类网络)和DeepViT(2021年提出,在几乎不扩充ViT占用内存的情况下提升ViT性能的图像分类模型)作为baseline,将ViT/DeepViT中的Transformer模块替换为上图所示的类Transformer的Feed-Forward模块,在保证任何参数都与baseline相同的情况下进行实验。

Result

实验结果如下图所示:

由上表可知,在Base的参数设置下FFN-only模型在使用0.72%ViT/DeepViT参数的情况下,效果达到了74.9%。而在Large的参数设置下FFN-only模型在使用0.67ViT/DeepViT参数的情况下效果与ViT不相上下。

作者还验证了Attention-only模型的效果(即将Transformer模块中的FFN替换为Multi-head attention),使用ViT-BASE的设置,在ImageNet上的效果仅仅为28.2%。

Conclusion

上述结果表明,虽然FFN-only模型没有刷新ImageNet的指标,但是相比较于Attention-only模型已经是质的飞跃,由此引发研究者的思考:到底是哪一部分使得Transformer-style模型的性能提升?

作者认为是patch-embedding和train procedure。因为patch-embedding对图像特征进行了很强的归纳,而train procedure中的trick会变相的进行数据增强。

个人体会

该论文出自Oxford University,与重新让研究者关注MLP的论文有异曲同工之妙,Feed-Forward Network(FFN)作用在patch上,可以将其看作一个特殊的convolution,只不过该卷积只作用于单通道。

而FFN作用在image features上时实际上就是一个1*1 convolution。由此引发我的思考,可以将该思想迁移到其他任务之上,研究在该任务中Multi-head attention的作用。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“CVPR”获取顶会必读论文合集

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/650187.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【软件设计】模块设计耦合的其中类型

一.什么是高内聚、低耦合? 在结构化分析与模块设计方法中,模块化是一个很重要的概念,它是将一个待开发的软件分解成为若干个小的模块,每个模块可以独立地开发、测试。使得复杂问题的“分而治之”,令程序的结构清晰、易…

vue3+router4的基本使用

一、安装router npm i vue-router二、路由跳转 2.1 创建路由实例 在src目录下创建router文件夹,在其中创建一个index.js文件,创建路由实例。 通过vue-router的createRouter方法创建一个router对象。其中有history和routes 1.history: histo…

微机保护的数据采集系统(2)

(二)采样保持电路(S/H)和模拟低通滤波器(ALF) 1.采样保持电路(S/H) (1)采样保持原理。 S/H电路的作用是在一个…

Linux进程间通信 - 共享内存

之前的文章中我们讲述了匿名管道与命名管道相关的知识点,在本文中我们将继续讲述一种进程间通信的方式:共享内存。 systemV共享内存 共享内存区是最快的IPC形式。一旦这样的内存映射到共享它的进程的地址空间,这些进程间数据传递不再涉及到…

Downie 4 4.6.18 MAC上最新最好用的一款视频下载工具

Downie for Mac 简介 Downie是Mac下一个简单的下载管理器,可以让您快速将不同的视频网站上的视频下载并保存到电脑磁盘里然后使用您的默认媒体播放器观看它们。 Downie 4 下载 Downie 4 for Mac Downie 4 for Mac软件特点 支持许多站点 -当前支持1000多个不同的…

间接采购管理中常见的五大挑战

间接采购,有时也被称为间接费用或尾部支出,这些商品或服务不是制造产品直接必需的,而是日常运营所需的。 ● 办公室和行政用品 ● 商店地点的消耗品(例如,清洁用品) ● 设施管理费用 ● 专业服务 ● 旅行…

Linux 服务器重启之后执行指定脚本文件

有些时候,我们部署服务、中间件、数据库等应用的机器可能会因为机房停电、断电而宕机,这样大部分服务就随之关闭了,可能会需要手动去进行重启,我们可以通过 Linux 的开机启动来实现服务自动重启。 一、配置 /etc/rc.d/rc.local 文…

VOSviewer软件的基础与应用

VOSviewer是一款免费且专业的文献计量分析软件,也是一个知识图谱可视化工具,由荷兰莱顿大学开发,主要用于构建和查看文献计量知识图谱,基于文献的共引和共被引原理,具有可视化能力强、适合于大规模样本数据的特点&…

抖音矩阵系统源代码开发部署--源码搭建

抖音矩阵系统是一个具有强大功能的开放性平台,通过数据挖掘技术能够实现精准的用户画像和个性化推荐,这也是抖音成为国内最受欢迎的短视频平台之一的原因之一。矩阵系统的开发需要大量的技术支持和数据分析,同时也需要综合运用大数据、机器学…

Mysql主从复制及读写分离

🍓 简介:java系列技术分享(👉持续更新中…🔥) 🍓 初衷:一起学习、一起进步、坚持不懈 🍓 如果文章内容有误与您的想法不一致,欢迎大家在评论区指正🙏 🍓 希望这篇文章对你有所帮助,欢…

华为OD机试 JavaScript 实现【密码验证合格程序】【牛客练习题 HJ20】,附详细解题思路

一、题目描述 密码要求: 长度超过8位包括大小写字母.数字.其它符号,以上四种至少三种不能有长度大于2的包含公共元素的子串重复 (注:其他符号不含空格或换行) 二、输入描述 一组字符串。 三、输出描述 如果符合要求输出:OK&…

A stochastic parrot in every pot 每口锅里都会有一只随机鹦鹉? | 经济学人社论双语精翻

本期双语文章来自《经济学人》2023年5月13日周报社论:《人工智能经济学》(The economics of AI) A stochastic parrot in every pot? 每口锅里都会有一只随机鹦鹉? What does a leaked Google memo reveal about the future of A…

软文营销,如何写出优质的新闻稿

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 一,什么是软文营销? 软文营销是一种通过撰写和发布具有信息性、有趣性和可读性的文章,来推广产品、服务或品牌的营销策略。软文是指以一种较为隐晦、…

【默认端口】市面上各种中间件、软件、服务的默认端口汇总

常用软件,中间件,服务的默认端口汇总 常用软件默认端口汇总 市面上各种中间件、软件和服务的默认端口众多,下面列举一些常见的默认端口: SSH(Secure Shell):22 Telnet:23 FTP…

AI在零售行业的应用

原创 | 文 BFT机器人 如今,零售商已经体验到使用人工智能 (AI) 的诸多好处,随着行业不断创新,人工智能的重要性只会越来越大。随着人工智能越来越被广泛接受,它的实施也越来越广泛。 查看这些用例,了解零售业中的 AI如…

一文掌握linux基本操作命令

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和…

Selenium元素定位的八种方法(建议收藏)

自动化一般需要四步操作:获取元素,操作元素,获取返回结果,断言(返回结果与期望结果是否一致),最后自动出测试报告。Selenium提供8种元素定位的方法:id,name,class name,link text,xp…

三维点云机器学习检测定位圆心,三维圆检测,拟合轴线(基于open3d和python)

0.任务描述 背景:从端面拍摄大型圆筒工件,该工件周向尺寸大于相机视野,只能拍摄到1/3左右的圆周,且无法保证相机与端面垂直拍摄 任务:需要拟合圆周与轴线位置 难点:三维圆拟合与检测都很复杂&#xff0c…

fscan安装配置(windows、linux系统)

fscan安装配置(windows、linux系统) 1、简介 fscan一款内网综合扫描工具,方便一键自动化、全方位漏扫扫描。 它支持主机存活探测、端口扫描、常见服务的爆破、ms17010、redis批量写公钥、计划任务反弹shell、读取win网卡信息、web指纹识别、web漏洞扫描、netbios探…

程序员面试必备的 Java 八股文,适合所有的 Java 求职者

说明 本文分享 Java 后端真实高频面试题,有详细答案,保你稳过面试。题目包括:Java 基础、多线程、JVM、数据库、Redis、Shiro、Spring、SpringBoot、MyBatis、MQ、ELK、SpringCloud、设计模式等。 包含从简单到困难、从高频到低频的题目&…