Vision Transformer论文阅读笔记

news2024/12/23 22:19:14

目录

    • An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale -- Vision Transformer
      • 摘要
      • Introduction—简介
      • RELATED WORK—相关工作
      • METHOD—方法
        • VISION TRANSFORMER (VIT)—视觉Transformer(ViT)
      • 分析与评估
        • PRE-TRAINING DATA REQUIREMENTS—预训练数据要求
        • INSPECTING VISION TRANSFORMER—检查vision transformer
      • 总结与展望
      • VIT详细网络结构

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale – Vision Transformer

论文链接:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

摘要

(1)本文证明了图像对CNN的依赖不是必要的,将纯Transformer直接用于图像patch序列可以很好地执行图像分类任务。

(2)和最先进的CNN相比,vision transformer(ViT)可以获得出色的结果,同时训练所需的计算资源也相对较少(仍然需要很多资源,只是相对更耗资源的网络而言的)

Introduction—简介

问题:如何将transformer应用到视觉问题上?

Bert序列长度也就500左右,如果要将图片的每个像素展开变成一个序列,就算224 × 224 = 50176 (≈ 500 × 100)图片输入计算量也十分大。

解决方向:

1、把原图的局部当作一个输入(类似卷积也是局部操作)

2、把处理过的特征图作为输入(下采样降低分辨率)

本文方法

(1)将图像拆分为patches(比如输入为224 × 224,每个patch就是 16 × 16,224 / 16 = 14,输入序列长度就是 14 × 14 = 196 ),并提供这些patches的线性embeddings序列作为 Transformer 的输入。(图像patches和在NLP应用中的token相似)

(2)采用了有监督的方式对图像分类模型进行训练。

不足:在不充足数据下训练,会导致模型泛化性不足。

注意:在中型大小数据集上,如果不加以其他比较强的约束Vit跟同等大小的残差网络相比是比较弱的。

原因:因为卷积神经网络中有归纳偏置,在VIT中没有。归纳偏置其实就是一种先验知识,或者说一种提前做好的假设。

最常见的两个归纳偏置(inductive bias):

locality:图片中相邻区域通常会有相邻的特征(比如桌子和椅子一般都挨在一起),靠的越近的东西相关性就越强。

translation equivariance(平移等变性):公式表达为g(f(x)) = f(g(x)),把g理解为卷积,f理解为平移,就是不管先做哪个操作,结果都是一样的,在卷积神经网络里面只要输入的图片不变,经过同一个卷积核的结果是一定的。

通过这两个归纳偏置,卷积神经网络就有了很多先验信息,可以通过相对少的数据,去学习到一个比较好的模型。

Vit没有这些先验知识,因此往往基于之前的大规模预训练来训练可以获得较好的结果。

Translation Equivariance (平移等变性)和Translation Invariance(平移不变性)

Translation Equivariance (平移等变性):

定义: 一个系统或算法在输入数据经历平移(或移动)时,保持输出相对于输入的相对位置的性质。
示例: 在图像处理中,一个具有平移等变性的算法可以在图像中检测或处理特征,而不受这些特征在图像中的位置变化的影响。它会产生相应的移动,但不会改变特征的识别或提取结果。

Translation Invariance (平移不变性):

定义: 一个系统或算法在输入数据经历平移时,保持输出不变的性质。
示例: 在图像处理中,一个具有平移不变性的算法可以在图像中检测或识别特征,而不受这些特征在图像中的位置变化的影响。无论特征的位置如何变化,该算法都会产生相同的识别结果。

简而言之,平移等变性表示系统对于输入数据的平移保持输出相对位置的相对性,而平移不变性表示系统对于输入数据的平移保持输出完全不变。

RELATED WORK—相关工作

(1)Transformer: 用于机器翻译的方法,被广泛用于NLP领域

(2)BERT: 使用去噪自我监督的训练前任务

(3)局部多头点积自我注意块: 只在每个查询像素的局部社区中应用自注意力,可以完全取代卷积

(4)稀疏Transformer: 采用了对全局自关注的可扩展近似,以便适用于图像

(5)在不同大小的块中应用: 在极端情况下,只沿着个别轴线应用

(6)iGPT: 无监督的方式,在降低图像分辨率和色彩空间后将Transformers应用于图像像素

无监督对比:BERT类似完型填空,GPT是预测后续的单词

METHOD—方法

VISION TRANSFORMER (VIT)—视觉Transformer(ViT)

(1)第1部分:将图形转化为序列化数据

image-20240620163813939

  • 首先输入为一张图片,将图片划分成9个patch,然后将每个patch重组成一个向量,得到所谓的flattened patch(上图红框内)。

  • 如果图片是H×W×C维的,就用P×P大小的patch去分割图片可以得到N个patch(实际处理通过卷积操作实现,然后卷积核的尺寸个数根据[num_token,token_dim]设置),那么每个patch的大小就是P×P×C,将N个patch 重组后的向量concat在一起就得到了一个N×P×P×C的二维矩阵,相当于NLP中输入Transformer的词向量。

  • patch大小变化时,重组后的向量维度也会变化,作者对上述过程得到的flattened patches向量做了Linear Projection(线性投射层操作,其实就是一个全连接层),将不同长度的flattened patch向量转化为固定长度的向量(记作D维向量)

    综上,原本H×W×C 维的图片被转化为了N个D维的向量(或者一个N×D维的二维矩阵)。

(2)第2部分:Position embedding

图像是一个整体,因此patch之间是有位置信息的,打乱顺序后就不是原来的图片了。

但是在自注意力中两两计算不会涉及位置信息(即便打乱了结果也一样),因此需要加入位置信息。

image-20240620171207816

由于Transformer模型本身是没有位置信息的,和NLP中一样,我们需要用position embedding将位置信息加到模型中去。

如上图所示,编号有0-9的紫色框表示各个位置的position embedding,而紫色框旁边的粉色框则是经过linear projection之后的flattened patch向量。

position embedding也是一个可训练的参数,它其实可以看作一个N(patch) × dimension (patch的维度也就是token_dim)的矩阵,然后是可以学习得到的。

原文采用相加(add)的方式将position embedding(即图中紫色框)和patch embedding(即图中粉色框)结合position信息,最终的宽、高、深度都不会改变

对于position采用1D、2D还是相对位置编码表示,作者进行了消融实验(如下表),相比没有位置信息的效果要好3个百分点,至于用哪种方式表示位置信息,差别不大,只要用了就行。

举例:一张图片划分成九宫格

1D:1,2,3,4,…,8,9

2D:相当于xy轴,11,12,13,21,22,23,31,32,33

relative:比如1D中2和9相差7个单位距离,用7(offset)来表示

image-20240620171921293

(3)第3部分:Learnable embedding

image-20240620165032586

patch + position embedding = token,tokens包含position信息以及图像信息。

在一系列 token 的前面加上加上一个新的 token,叫做class token(上图带星号),它并不是某个patch产生的,增加class token是参考bert网络,它的位置信息永远是0,它的维度(dimension)需要和patch的维度一致。

Class token的作用是作为一个分类字符(也是一个可训练的参数),经过encoder后对应的结果这个token的输出当作整个transformer模型的输出,也就是当作整个图像的特征输出。(个人理解:这个token是附加的,对于全图中其他任何patch的关注都是公平的关注,因此相当于是个全局平均池化的过程,但是如果采用某个patch的token作为输出,受到自身位置信息和相对位置信息的影响,关注度肯定是不平均的,因此不能作为输出)

类比传统卷积神经网络,经过几个block之后得到一个feature map,在分类之前会先对这个feature map执行GAP(全局平均池化)得到一个向量(1 × n),然后这个向量代表全局对于这个图片的特征,就可以把向量拿去做分类。

在transformer(如下示意图)中,VIT是使用红色框内的输出(cls token的输出)作为分类的输入;

但其实也可以把每个patch对应token(绿色框内)的输出进行GAP,然后作为分类的输入。

image-20240620174018845

本文也对两种方法进行了对比,可以从下图看出,学习率设置好,采用GAP的方式比采用cls token的方式准确率更高。

image-20240620174347768

以上的操作其实就是对图像进行预处理得到token,对于位置信息的表示和输出分类的特征表示,为了和原来的transformer保持一致所以采取了1D和class token。

(4)第4部分:Transformer encoder

image-20240620170451834

最后输入到 Transformer Encoder 中,对应着右边的图,将 block 重复堆叠 L 次,整个模型也就包括 L 个 Transformer。Transformer Encoder结构和NLP中Transformer结构基本上相同,我们只是需要对它进行一个分类,只提取针对class token所对应的输出,经过 MLP Head 进行类别判断,得到最终分类的结果。

下图是Encoder Block和 MLP Block的内部结构图

image-20240620180354242

分析与评估

PRE-TRAINING DATA REQUIREMENTS—预训练数据要求

image-20240620175524932

图3展示了模型在 ImageNet 数据集上的性能,图4展示了在 JFT300M 数据集的随机子集以及完整数据集上进行了模型训练的结果。

结论:卷积归纳偏置对于规模较小的数据集较为有用,但对于较大的数据集而言,学习相关模式就足够了,甚至更加有效。同时VIT在小样本的训练可能是一个不错的研究方向。

INSPECTING VISION TRANSFORMER—检查vision transformer

image-20240620180712102

上图为ViT-L/32 的position embedding的相似性。

位置编码:相似性(余弦相似度),所以相似性越高接近1,越低越接近-1。

跟自己相似性最高,同行同列相似性也比较高,虽然是1D编码但是学习到了2D图像的概念(所以使用1D和2D表示位置准确率相差不大)。

image-20240620180811410

上图按heads和网络深度划分的参与区域大小。

红框部分表示像素点相近的自注意力学习到的信息,黄色框部分表示像素点距离远的自注意力学习到的信息。

横坐标为网络层数,可以看出在浅层网络就能学习到全局(距离远)的信息了,但是在传统卷积网络中,浅层感受野小只能学习到局部信息。

在深层网络基本上就是高层语义信息(像素点之间距离远)。

下图中右边Attention列出来的图,就代表了高层的语义信息。

image-20240620181243065

结论:

(1)模型使用了全局集成信息的能力。其他注意力head在低层中始终具有较小的注意力距离。

(2)该模型关注与分类语义相关的图像区域。

总结与展望

将图片处理成 patch 序列,然后使用 Transformer 去处理,取得了接近或超过卷积神经网络的结果,同时训练起来也更快。

在提取patch和进行位置编码时使用了一些图像特有的归纳偏置,其他和transformer一致。 ( 简单、扩展性好)

将ViT应用于其他计算机视觉任务,如检测和分割。

自监督也行,但是目前还没有监督效果好,继续探索自我监督的预训练方法。

可以进一步扩大ViT的规模,随着模型尺寸的增加,参数越多,性能似乎还没有饱和。(后续原作者的论文证实了这一点)

通过只用transformer实现多模态大一统。

VIT详细网络结构

img

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1885579.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于小波分析的纹理和颜色反射对称性检测(MATLAB R2018A)

对称物体在自然图像和合成图像中普遍存在。作为对称物体最重要的全局特征之一,对称性检测长期以来都是计算机视觉领域的研究热点,并在图片的语义提取、图像语义理解以及情感识别等任务上具有广泛的应用。对称物体的检测技术,就是将图片中所蕴…

大淘客api实现多多进宝的商品查询PHP版

大家好,我是网创有方,今天教大家如何使用大淘客的api实现拼多多商品详情信息查询。这里用到的多多进宝,如果没有多多进宝的,先去多多进宝注册个账号吧! 第一步:进入大淘客官方创建应用,并且下载…

易编橙·终身成长社群:帮助编程小伙伴少走弯路

🍊 目录 🍊 自我介绍 🍊 如何加入? 🍊 【擅长的技术】 🍊 星主介绍 🍊 星球天团 🍊 易编橙终身成长社群介绍及权益~ 🍊 受众群体 🍊 如何…

ERP系统中有哪些模块?有哪些具体实现方案呢?

对于许多初次接触ERP系统的企业来说,可能会对系统中包含的模块和功能感到困惑。本文将详细介绍ERP系统中的主要模块,需要明确的是,ERP系统是一个庞大的系统,包含了多个模块,每个模块都有其独特的功能和作用。这些模块涵…

CCAA:认证通用基础 10(审核的概念、审核有关的术语、审核的特征、审核原则)

10.审核的概念、审核有关的术语、审核的特征、审核原则 10.1审核的基本概念 第一章 审核基础知识 第一节 概述 1.什么是审核 审核是认证过程中最基本的活动,是审核方案的重要组成部分,其实施效果直接影响到审核方案的意图和审核目标的达成。 在认证…

新手教学系列——【Python开发】不同系统更换pip源的方法

在使用Python进行开发时,你可能会发现使用pip安装包的速度较慢,尤其是在国内进行操作时。为了提高安装速度,我们可以将pip的默认源更换为国内的一些镜像源。本文将详细介绍如何在不同操作系统上进行这一操作,并给出常用的国内镜像源。 为什么要换源 pip默认使用的是官方的…

Python入门 2024/7/1

目录 第一个程序hello world 数据类型 注释 变量 用type类型查看数据类型 ​编辑 数据类型转换 ​编辑 标识符 运算符 字符串的三种定义方式 字符串拼接 ​编辑​编辑 字符串格式化 第一个程序hello world 区分c和python c是printf python是print print("h…

QT Creator生成uml类图

先说方法,使用Doxygen工具,笔者用的虚拟机linux系统下的qt5.7,没找到自带的uml生成类的工具。 1、Doxygen 安装 在 Ubuntu 系统中,执行下面命令安装 doxygen 和 graphviz 软件包。 sudo apt install graphviz # 用于生成代码…

汇凯金业:投资交易如何才能不亏损

投资交易中永不亏损是一个理想化的目标,现实中无法完全避免亏损。然而,通过科学的方法、合理的策略和严格的风险管理,投资者可以大幅减少亏损,并提高长期盈利的概率。以下是一些关键策略和方法,帮助投资者在交易中尽量…

国内品牌成功入驻美国线下商超的五大要诀

海外市场拥有巨大资源,许多国内品牌寻求海外市场拓展,美国市场尤为吸引。但入驻美国线下商超非易事,需明确目标定位、周密策略及强大执行力。下面探讨入驻技巧。 一、明确目标与定位 进入美国市场前,品牌方需明确目标&#xff1a…

【C语言】常见的字符串函数

©作者:末央& ©系列:C语言初阶(适合小白入门) ©说明:以凡人之笔墨,书写未来之大梦 目录 strlen函数模拟实现 strstr子串查找函数模拟实现 strtok字符串分割 strlen函数 strlen函数是一个用于求字符串长度的库函数。它的参数是被求长度的字…

React+TS前台项目实战(二十三)-- 基于属性自定义数值显示组件Decimal封装

文章目录 前言Decimal组件1. 功能分析2. 代码详细注释3. 使用方式4. 效果展示 总结 前言 今天要封装的Decimal 组件,是通过传入的属性进行定制化显示数值,在渲染时,会根据不同的情况显示整数部分、小数部分和单位,支持自定义样式…

加速度数据 - 初始速度未知对速度积分的影响

这个问题不多说,只看一下速度积分的结果就可以知晓: 原本三角函数sin的积分是相移之后的自身,但是: 注意这一个概念: 原始信号如果引入一个未知的直流偏移。对该信号进行积分的结果,会将这个直流偏置转换…

Emacs之解决:java-mode占用C-c C-c问题(一百四十六)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

晨持绪科技:抖音网店现在能做起来吗

在这个信息爆炸的时代,抖音以其独特的魅力和庞大的用户基数,成为了众多创业者心中的黄金地带。然而,许多人在跃跃欲试的同时,也不禁会问:抖音网店现在还能做起来吗? 我们要认识到,抖音作为一个短视频平台&…

统计信号处理基础 习题解答11-1

题目 观测到的数据具有PDF 在μ给定的条件下,是相互独立的。均值具有先验PDF: 求μ的 MMSE 和 MAP 估计量。另外,当和时将发生什么情况? 解答 和两者都是独立高斯分布,与例题10.1一致,直接套用(10.11&am…

单片机中有FLASH为啥还需要EEROM?

在开始前刚好我有一些资料,是我根据网友给的问题精心整理了一份「单片机的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!! 一是EEPROM操作简单&…

第2章.现场设备的物联网模式--数字孪生

2.2 数字孪生 DT是部署在现场的物联网设备的虚拟复制品。这个概念与创建物理实体或过程的模型(模拟)以了解其表现行为的过程非常相似。本书中使用的DT符号如下图所示: 图2.3——DT模式的符号 DT是物联网背景下的一种重要模式,因为…

2024年Stable Diffusion下载+安装+使用教程(超详细版本)收藏这一篇就够了!

本篇咱们要聊的是如何用“整合包”来搞定StabIe Diffusion WebUI的本地安装和使用,别担心,你不需要成为计算机大神,新手也能轻松上手。不过得提醒一下,你的硬盘得留出100G~200G的空间来,才能玩得转。 整合包放这里&am…

无人机热成像分析图谱原理

一、热成像原理 热成像,也称为红外热成像或红外成像,是一种利用红外辐射(通常指的是热辐射)来获取物体表面温度分布信息的成像技术。在无人机上集成热成像传感器,可以远程捕获并分析目标物体的热特征,不受…