李沐——论文阅读——VIT(VIsionTransformer)

news2024/12/26 11:49:54
一、终极结论:

        如果在足够多的数据上面去做预训练,那么,我们也可以不用 卷积神经网络,而是直接用 自然语言处理那边搬过来的 Transformer,也能够把视觉问题解决的很好

(tips:paperswithcode.com——查看各个机器学习领域的State of art)

二、标题信息:

        一张图像 == 很多16*16大小的单词序列

三、摘要:

        在NLP中无论是Bert,GPT还是T5,其中的transformer已经成为了标配,但是,计算机视觉中tranformer用得还有限,即使是使用了transformer,也只是在整个model的一个stage中用到了自注意力机制。而VIT会告诉你,这些都不用,直接照搬NLP的model就可以了

四、引言:

        首先,transformer的应用,使得GPT那些大模型还没有性能饱和,

        其次,直接用原始像素的话太大了,不可行,而已有的工作呢,比如,有把网络中间的feature map作为transformer的输入的,也有分横轴、纵轴作为transformer的输入的(这个的硬件加速没有实现,所以很难做大模型)

        之后,就是VIT的工作,就是将图像看作1个个16*16大小的“单词序列”,直接输入到NLP的model中即可

        最后,结果显示,只要预训练的数据够多,就能够取得比原来卷积神经网络更好的效果

五、结论:

        反正,就是这个VIT能够把分类任务做得很好,然后,在图像分割等视觉也应该能够做得很好(挖坑),并提出了一些展望什么的。

六、相关工作:

        和introduction中的前期工作相似,多了一个利用图像生成(imageGPT)进行图像分类,当时只是达到72%的正确率,但是,后来何凯明团队提出的MAE却能够利用图像生成在各个图像任务上面取得很好的效果

七、主题:VIT模型的结构

        

主要就是这个patch embedding的部分,整个transformer Encoder就是 重复了L次的上面右图的结构,同时,这个视频也讲到整个 “前向流程”——包括1D的位置编码。。。参见视频即可,需要用的时候再去了解

(对了,这里明白了一个新的点,就是消融实验,一般放到附录中,有点像 单一变量原则)

八、实验部分:

        就是 展示了这个VIT的正确率情况等等。。。反正就是表现得非常nice,还有它里面每一层特征学到的结果,还有改用自监督的方式训练得到的结果正确率只有80%。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1128970.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【刷题-PTA】堆栈模拟队列(代码+动态图解)

【刷题-PTA】堆栈模拟队列(代码动态图解) 文章目录 【刷题-PTA】堆栈模拟队列(代码动态图解)题目输入格式:输出格式:输入样例:输出样例: 分析题目区分两栈解题思路伪代码动图演示代码测试 题目 题目描述 : 设已知有两个堆栈S1和S2,请用这两个堆栈模拟出一个队列Q。 …

新华三路由器+华为交换机,实现华为交换机指定端口访问外网

需求背景: 多台服务器使用华为交换机组建了局域网,需要让交换机的指定端口可以访问外网。 需求分析: 交换机组建的局域网是二层组网,需借助路由器接入外网,然后通过DHCP分配内网IP地址给交换机指定端口连接的设备。 …

[资源推荐] 关于计算机毕设的方法论(重庆大学吕昱峰)

第一次刷到这个up主的视频是之前搜cpu设计的时候 视频链接:https://www.bilibili.com/video/BV1j7411P7gt?p1&vd_source0e8431ba6fd78bb2215c36307a75ac1a 最近学校毕设要开题了,但是感觉对毕业设计这个东西还是比较模糊,应该做到什么…

QML自定义电池状进度条

效果: 百分比显示保留两位小数,通过iValue的数值来显示当前进度,注意为了保留小数总值取的是10000,所以你的iValue值也要乘上100 变量说明: cBorderColor:进度条外框的颜色 cContentColor:表示进度的小方块颜色 cTextColor:显示进度百分比的文字颜色 iValue:当前进度,为整数(…

低代码软件的价格考量:成本效益与投资回报

数字化转型的今天,我们常听到“低代码”这个概念,那低代码软件价格到底如何呢?很多厂商并没有公布软件价格情况,让很多企业在采购的时候也是一头雾水。当然,市场上也存在一些厂商公开透明价格,比如Zoho Cre…

皮卡丘靶场——暴力破解

暴力破解 1. 基于表单的暴力破解 在登陆界面随便使用账号密码进行登录,使用bp抓包发送Intruder 我们需要破解账号(username)和密码(password),就应当选择ClusterBomb(集束炸弹)的攻击…

Java基础篇 | Java8流式编程

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏: Java从入门到精通 ✨特色专栏&#xf…

pytorch_lightning:Validation sanity check: 0%| | 0/2 [00:00<?, ?it/s]

在使用Lighting架构辅助训练时,对于出现的下述情况的原因: 解释: 注意到“ Validation sanity check ”。这是因为Lightning在开始训练之前进行了两批验证。这是一种单元测试,以确保如果你在验证循环中有一个bug,你不…

微信小程序开发之投票管理及小程序UI的使用

目录 一、小程序UI 1.讲述 2. 介绍vantWeapp 3. 使用vantWeapp 安装 构建 依赖 引用 二、后端 1. 后端实体对象 2. 后端接口 3. 实现类 4. 请求处理类 三、前端 1. 定义路径 2. 页面引用 3. 页面 4. 页面美化 5. 数据 6. 效果展示 一、小程序UI 1.讲述 小…

IMU预积分的过程详解

一、IMU和相机数据融合保证位姿的有效性: 当运动过快时,相机会出现运动模糊,或者两帧之间重叠区域太少以至于无法进行特征匹配,所以纯视觉SLAM对快速的运动很敏感。而有了IMU,即使在相机数据无效的那段时间内&#xff…

python网络爬虫实例

目录 1、访问百度 2、输入单词百度翻译 3、豆瓣电影排行榜 4、豆瓣电影top250 5、下载美女壁纸 1、访问百度 from urllib.request import urlopen url"http://www.baidu.com" respurlopen(url)with open("mybaidu.html",mode"w") as f:f.wr…

Java面试(JVM篇)——JVM 面试题合集 深入理解JVM虚拟机

关于什么是JVM? 作用: 运⾏并管理Java 源码⽂件所⽣成的Class⽂件,在不同的操作系统上安装不同的JVM ,从⽽实现了跨平台的保证。 ⼀般情况下,对于开发者⽽⾔,即使不熟悉JVM 的运⾏机制并不影响业务代码的…

【Java 进阶篇】Java XML解析:从入门到精通

XML(可扩展标记语言)是一种常用的数据格式,用于存储和交换数据。在Java中,XML解析是一项重要的任务,它允许您从XML文档中提取和操作数据。本篇博客将从基础开始,详细介绍如何在Java中解析XML文档&#xff0…

进程中的权限是如何操作的

任何一个进程都有父进程。所以,整个进程其实就是一棵进程树。而拥有同一父进程的所有进程都具有兄弟关系。 struct task_struct __rcu *real_parent; /* real parent process */ struct task_struct __rcu *parent; /* recipient of SIGCHLD, wait4() reports */ s…

超市商品管理系统 JAVA语言设计实现

目录 一、系统介绍 二、系统下载 三、系统截图 一、系统介绍 基于VueSpringBootMySQL的超市商品管理系统,超市区域模块、超市货架模块、商品类型模块、商品档案模块,分为用户网页端和管理后台,基于角色的访问控制,可将权限精确…

c++ qt连接操作sqlite

qt连接操作sqlite qt客户端编程,用到数据库的场景不多,但是部分项目还是需要数据库来保存同步数据,客户端用到的数据库,一般是sqlite。 Qt提供了数据库模块,但是qt本身的数据库模块并不好用,会有各种问题, 建议大家不要,可以自己封装数据库的操作。本篇博客介绍qt连接操…

AVS3:双向光流BIO

AVS3引入了双向光流(BI-directional Optical flow,BIO)技术,和H.266/VVC中的BDOF类似,BIO用于解决基于块的预测会存在块内某些区域仍会有偏差的现象导致需要划分更小的块。通过补偿小的像素区域的位移,BIO可以使用更大…

Leetcode刷题详解——最小覆盖子串

1. 题目链接:76. 最小覆盖子串 2. 题目描述: 给你一个字符串 s 、一个字符串 t 。返回 s 中涵盖 t 所有字符的最小子串。如果 s 中不存在涵盖 t 所有字符的子串,则返回空字符串 "" 。 注意: 对于 t 中重复字符&#xf…

VSCode 自动格式化

1.打开应用商店,搜索 prettier code formatter ,选择第一个,点击安装。 2.安装完成后,点击文件,选择首选项,选择设置。 3.在搜索框内输入 save ,勾选在保存时格式化文件。 4.随便打开一个文件&a…

FineReport制作任务日历

文章目录 概要整体架构流程技术名词解释技术细节小结 概要 博主接触FineReport帆软报表有一段时间了,正好前几天做了一个任务日历的需求,把每天完成的任务量直观的展示在日历上,方便管理者更好的监控各业务的完成情况,做完后想着…