轻量级模型解读——轻量transformer系列

news2024/9/21 19:48:19

先占坑,持续更新 。。。

文章目录

  • 1、DeiT
  • 2、ConViT
  • 3、Mobile-Former
  • 4、MobileViT


Transformer是2017谷歌提出的一篇论文,最早应用于NLP领域的机器翻译工作,Transformer解读,但随着2020年DETR和ViT的出现(DETR解读,ViT解读),其在视觉领域的应用也如雨后春笋般渐渐出现,其特有的全局注意力机制给图像识别领域带来了重要参考。但是transformer参数量大,训练/推理耗时也是它的一大特点,NLP领域中,一个模型的参数量基本都是十亿量级。如何将transformer应用在图像领域并且轻量化是本篇博客的重点。我收集了近期4篇论文,DeiT(2020),ConViT(2021),Mobile-Former(2021)和MobileViT(2021)。它们的参数量及在ImageNet数据集上top1性能对比情况如下:
在这里插入图片描述


1、DeiT

DeiT是Fackbook在2020年底发表的一篇利用Transformer来进行图像识别的网络模型,是基于ViT的一种改进,之前训练Transformer需要数亿张图像进行预训练,但是作者通过改进,利用ImageNet数据就可以进行训练,而且只需要利用一台电脑在训练不到3天的时间,可以达到ImageNet top1为83.1%的精度。而且作者还提出了一种模型蒸馏策略。
论文地址:https://arxiv.org/abs/2012.12877

总之,该论文的主要贡献有如下三点:
1 、仅使用 Transformer,不引入 Conv 的情况下也能达到 SOTA 效果。
2、 提出了基于 token 蒸馏的策略,针对 Transformer 蒸馏方法超越传统蒸馏方法。
3、 DeiT 发现使用 Convnet 作为教师网络能够比使用 Transformer 架构效果更好。

Distillation through attention
模型蒸馏,需要一个教师模型指导学生模型学习,作者将强图像分类器作为教师模型,它可以是纯卷积模型,也可以是同时包含卷积和transformer的混合模型。作者列出了两种可选的蒸馏对比方式,hard distillation和soft distillation,经典方式蒸馏和token蒸馏。


2、ConViT

论文地址:https://arxiv.org/abs/2103.10697


3、Mobile-Former

论文地址:https://arxiv.org/abs/2108.05895


4、MobileViT

论文地址:https://arxiv.org/abs/2110.02178

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2134358.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YOLOv9改进策略【卷积层】| SCConv:即插即用,减少冗余计算并提升特征学习

一、本文介绍 本文记录的是利用SCConv优化YOLOv9的目标检测网络模型。深度神经网络中存在大量冗余,不仅在密集模型参数中,而且在特征图的空间和通道维度中。SCConv模块通过联合减少卷积层中空间和通道的冗余,有效地限制了特征冗余&#xff0…

领夹麦克风哪个品牌好,哪种领夹麦性价比高,无线麦克风推荐

在音频录制需求日益多样化的今天,无线领夹麦克风作为提升音质的关键设备,其重要性不言而喻。市场上鱼龙混杂,假冒伪劣、以次充好的现象屡见不鲜。这些产品往往以低价吸引消费者,却在音质、稳定性、耐用性等方面大打折扣&#xff0…

突发!OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平

梦晨 衡宇 发自 凹非寺量子位 | 公众号 QbitAI 参考ChatGPT:点击使用 来了来了!刚刚,OpenAI新模型无预警上新: o1系列,可以进行通用复杂推理,每次回答要花费更长时间思考。 在解决博士水平的物理问题时&a…

034-GeoGebra中级篇-关于geogebra的版本以及如何下载本地geogebra

目前,geogebra常用的有geogebra5和geogebra6,本文旨在对比GeoGebra 5和GeoGebra 6两个版本,以揭示它们在功能、用户体验和性能上的主要差异。GeoGebra 5作为一款成熟的数学软件,已经为用户提供了丰富的功能来进行几何、代数、统计…

太牛了!顺丰丰语大语言模型:已应用于20余个场景

9月8日,顺丰科技在深圳国际人工智能展上发布了物流行业的垂直领域大语言模型——丰语,并展示了大模型在顺丰的市场营销、客服、收派、国际关务等业务板块的二十余个场景中的落地实践应用。 发布会现场,中国科学院院士姚建铨、美国医学与生物…

JVS逻辑引擎:如何实现复杂业务逻辑的邮件自动化

大家好,我是软件部长,今天给大家介绍JVS逻辑引擎的发送邮件节点功能。 JVS提供低代码、物联网、规则引擎、智能BI、逻辑引擎、无忧企业文档(在线协同)、无忧企业计划、无忧企业邮筒等平台,欢迎关注微信公众号: 【软开企…

C# WinForm 中 DataGridView 实现单元格cell 能进编辑状态但是不能修改单元格的效果

在Windows Forms(WinForms)开发中,DataGridView 控件是一个功能强大的组件, 用于显示和管理表格数据。无论是展示大量数据,还是实现交互式的数据操作, DataGridView 都能提供多样的功能支持,比如…

基于姿态估计的运动打卡健身系统-AI健身教练-3d姿态估计-摔倒检测应用-姿态估计与计数

基于姿态估计的运动系统 引言 随着计算机视觉技术的发展,人体姿态估计(Pose Estimation)已成为一种广泛应用的技术,特别是在健身、康复训练、体育等领域。姿态估计旨在从图像或视频中检测和定位人体的关键点,如关节位…

【深度学习】【图像分类】【OnnxRuntime】【Python】VggNet模型部署

【深度学习】【图像分类】【OnnxRuntime】【Python】VggNet模型部署 提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论 文章目录 【深度学习】【图像分类】【OnnxRuntime】【Python】VggNet模型部署前言Windows平台搭建依赖环境模型转换--pytorch转onnxONN…

Understanding the model of openAI 5 (1024 unit LSTM reinforcement learning)

题意:理解 OpenAI 5(1024 单元 LSTM 强化学习)的模型 问题背景: I recently came across openAI 5. I was curious to see how their model is built and understand it. I read in wikipedia that it "contains a single l…

计算机网络29——Linux基本命令vim,gcc编译命令

1、创建新用户 2、给用户设置密码 3、切换到新用户 切换到root用户 4、删除用户 5、查看ip 6、ping 查看物理上两台主机是否联通 7、netstatus 8、nslookup 查看网址的地址 9、负载均衡与容灾备份 负载均衡:指将负载(工作任务)进行平衡、分…

为什么mac打不开rar文件 苹果电脑打不开rar压缩文件怎么办

你是否遇到过这样的情况,下载了一个rar文件,想要查看里面的内容,却发现Mac电脑无法打开。rar文件是一种常见的压缩文件格式,它可以将多个文件或文件夹压缩成一个文件,节省空间和传输时间。如此高效实用的压缩文档&…

JavaEE:网络初识

文章目录 网络初识网络中的重要概念IP地址端口号认识协议(最核心概念)OSI七层模型TCP/IP五层(或四层)网络模型网络设备所在分层封装和分用 网络初识 网络中的重要概念 网络互联的目的是进行网络通信,也是网络数据传输,更具体一点,是网络主机中的不同进程间,基于网络传输数据.…

论文解读《LaMP: When Large Language Models Meet Personalization》

引言:因为导师喊我围绕 “大语言模型的个性化、风格化生成” 展开研究,所以我就找相关论文,最后通过 ACL 官网找到这篇,感觉还不错,就开始解读吧! “说是解读,其实大部分都是翻译哈哈哈&#x…

域控操作十七点五:域用户无管理员权限下安装IT打包的软件

1,需要软件Runasspcadmin三件套和winrar压缩软件 2,将需要打包的软件放进这个文件夹内,使用播放器举个例子 3,打开runasspcadmin.exe 按图片写就行了 文件夹现在是这样的然后全选右击,用WinRAR添加到压缩包 这个可以自…

量化交易backtrader实践(一)_数据获取篇(4)_通达信数据应用

在第2节实践了从金融数据接口包例如tushare.pro或akshare获取数据,在第3节实践了直接从网页上爬取股票数据。其实,我们的电脑上怎么可能没有几个股票软件,在这些股票软件里,历史行情,实时行情都有,我们能否…

Windows环境本地部署Oracle 19c及卸载实操手册

前言: 一直在做其他测试,貌似都忘了Windows环境oracle 19c的部署,这是一个很早很早的安装记录了,放上来做个备录给到大家参考。 Oracle 19c‌:进一步增强了自动化功能,并提供了更好的性能和安全性。这个版本在自动化、性能和安全性方面进行了重大改进,以满足现代企业对数…

运维人员转行 AI 大模型全攻略:史上最详尽总结,一篇在手,转行无忧!

前言 做运维的苦,谁做谁懂。有时候真感觉自己就像个杂役,在公司都快成修电脑的了。不装了,我要转行!在此给大家分享点经验,希望能帮到你们。 运维工程师若要转行至大模型领域,需要学习一系列全新的技能与…

开放式耳机原理?五款超强单品推荐!

开放式耳机的原理其实挺直观的,它们不像那些把耳朵完全罩住或者塞住的封闭式耳机。开放式耳机通常就是轻轻地挂在耳朵上,声音通过空气传播,直接送到你的耳朵里。 这种设计有几个好处。首先,因为耳朵没有被完全封闭,所…

【开源项目】数字孪生公园~云南某湿地公园—开源工程及源码

飞渡科技数字孪生湿地公园管理平台,基于园林行业定制硬件以及传感器、摄像头等终端采集数据,借助自主研发国产渲染引擎,以人工智能、物联网、数字孪生技术作为核心,还原公园内外的真实场景,同时实现海量数据处理、系统…