ViT（Vision Transformer详解）

ViT（Vision Transformer详解）

news2025/7/8 19:32:19

Transformer作为前沿的深度学习框架，带有多模态的特性，对于不同类型的输入数据，不管是文本还是图像均可进行处理，而ViT则是对于Transformer中的视觉方面（也就是输入数据为图像）的衍生物（因Transformer对应视觉领域应用受限而提出的）。因而ViT在计算机视觉领域或者遥感领域的图像处理有着较为广泛的应用。

ViT的关键概念

Transformer架构

Transformer最初用于自然语言处理（NLP）来处理序列数据，比如文本。在ViT中，同样的架构被应用于视觉任务，将图像数据作为序列来处理。

ViT的组成部分包括：多头自注意、多层感知器、快捷连接、层归一化、位置编码和网络拓扑，在视觉识别中起着关键作用。

图像作为补丁处理

与传统卷积神经网络（CNN）将整个图像作为输入不同，ViT将图像划分为多个固定大小的小块（如16x16像素），并将每个小块作为输入序列的一部分进行处理。这些图像块就像NLP中的词嵌入一样，通过Transformer进行建模。

无需卷积操作

ViT的创新在于，它不依赖于卷积操作（传统的CNN依赖卷积核来提取图像特征），而是使用Transformer的自注意力机制来学习全局的图像特征关系。

自注意力机制

自注意力机制通过捕捉图像各部分之间的关系，允许模型对整个图像有更全面的理解，而不受局部感受野的限制。

大规模数据训练

ViT的一个重要特性是其性能与数据规模高度相关。要让ViT达到或者超过CNN的效果，通常需要大规模的训练数据（例如在JFT-300M数据集上预训练）。

ViT的优点

全局特征提取能力强：与CNN不同，ViT通过自注意力机制可以捕捉图像全局的信息，适合处理大规模图像任务。
更具可扩展性：在大型数据集上，ViT可以比传统的CNN更有效地利用数据资源，尤其在高性能计算环境下展现出很好的可扩展性。

总结来说，ViT的出现为计算机视觉任务提供了一种不依赖卷积的全新模型架构，尤其在大数据集上展现了强大的性能。

在Vision Transformer (ViT) 中，patch（图像块）是指将输入图像划分成多个小的、固定大小的子图像块。这些图像块是ViT处理图像的基本单元，类似于在自然语言处理（NLP）任务中将文本分成单词或词嵌入。

ViT 相较于传统的Transformer能够更好地捕捉局部特征信息，同时保留传统Transformer对于长依赖关系捕捉的能力，此外，ViT通过添加局部聚合的模块，使得模型对于局部信息较传统结构得到进一步地增强。

Patch的具体概念

划分图像

ViT并不像传统的卷积神经网络（CNN）那样直接处理整张图像。相反，它将图像分割成多个相同大小的图像块（patch）。例如，如果输入图像的尺寸为224x224像素，ViT可能会将其划分成16x16像素的patch，这样整张图像就变成了一个14x14的网格，总共有196个patch。

每个patch的处理

每个patch被视为一个独立的输入单元，相当于NLP中的“词”。这些patch会被展平（flatten）成一维向量，然后通过一个线性嵌入层将其映射到特定维度的特征向量空间中。最终，这些特征向量会被送入Transformer模型进行进一步的处理。

为什么要使用patch？

Transformer模型本质上是处理序列数据的，而图像是一种二维数据格式。为了让Transformer能够处理图像，ViT通过将图像转化为多个patch序列，将二维问题转化为序列问题，从而可以利用Transformer模型中的自注意力机制来建模不同图像块之间的关系。

Patch的大小

Patch的大小（例如16x16）是一个超参数，它会影响模型的性能。如果patch太大，可能会丢失局部的细节信息；如果patch太小，序列的长度会增加，导致计算复杂度变高。因此，选择合适的patch大小非常关键。

Patch的工作流程总结：

输入图像（如224x224像素） → 划分为多个patch（如16x16像素） → 每个patch展平成一维向量 → 嵌入到固定的特征空间 → 作为Transformer的输入序列进行处理。

通过这种方式，ViT能够将图像作为序列数据进行处理，利用Transformer的自注意力机制来理解图像中的全局和局部信息。

参考文献：

《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》

《A Survey on Vision Transformer》

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2196704.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

从基础到精通：构建并微调大型语言模型以实现分类任务

从基础到精通：构建并微调大型语言模型以实现分类任务

本章内容介绍不同的大型语言模型（LLM）微调方法准备用于文本分类的数据集修改预训练LLM以便进行微调微调LLM以识别垃圾信息评估微调后的LLM分类器的准确性使用微调后的LLM对新数据进行分类到目前为止，我们已经编写了LLM的架构、对其进行了…

阅读更多...

小程序和h5深度分析

小程序和h5深度分析

你写过小程序/H5，那你知道他们的区别在哪里吗？ 为什么说小程序的性能通常优于 H5? 小程序能访问到 DOM 对象吗？ 小程序的原理是什么？ 小程序和 H5 都是轻量级的、可直接在移动设备上运行的应用，但它们之间存在一些关…

阅读更多...

C语言的类型提升机制

C语言的类型提升机制

概念在C语言中，整数类型按照其大小可以分为以下几类（从小到大）： charshortintlonglong long 当在表达式中涉及这些类型的混合运算时，较小的类型会被提升为较大的类型。具体规则如下： ①char 和 short …

阅读更多...

【NLP自然语言处理】02 - NLP简介/NLP发展历史/应用场景

【NLP自然语言处理】02 - NLP简介/NLP发展历史/应用场景

1.什么是自然语言处理 (NLP) 自然语言处理（Natural Language Processing, NLP）是人工智能的一个重要分支，旨在通过计算机实现对人类自然语言的理解、生成和互动。其核心任务包括分析、生成和转换人类语言，涉及语法、语义、语音识…

阅读更多...

Mapsui绘制WKT的示例

Mapsui绘制WKT的示例

步骤创建.NET Framework4.8的WPF应用在NuGet中安装Mapsui.Wpf 4.1.7添加命名空间和组件 <Window x:Class"TestMapsui.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winf…

阅读更多...

基于单片机的烧水壶系统设计

目录一、主要功能二、硬件资源三、程序编程四、实现现象一、主要功能基于STC89C52RC单片机，采用四个按键，通过DS18B20检测温度，开机显示实时温度第一个按键为切换功能按键，按下后，可以设置烧水温度的大小&…

阅读更多...

codetop标签双指针题目大全解析(三)，双指针刷穿地心！！！！！

codetop标签双指针题目大全解析(三)，双指针刷穿地心！！！！！

复习比学习更重要，更需要投入时间，更需要花费精力 1.字符串的排列2.找出字符串中第一个匹配的下标3.最大连续1的个数II4.数组中的山脉5.移除元素6.两个数组的交集II7.有序数组的平方8.删除有序数组中的重复项II9.寻找重复数10.水果成篮 1.字符串的排列 …

阅读更多...

HUAWEI_HCIA_实验指南_Lib1.4_配置通过Telnet登录系统

HUAWEI_HCIA_实验指南_Lib1.4_配置通过Telnet登录系统

一、原理概述 Telnet(Telecommunication Network Protocol)起源于ARPANET,是最早的Internet应用之一。 Telnet 通常用在远程登录应用中，以便对本地或远端运行的网络设备进行配置、监控和维护。如网络中有多台设备需要配置和管理，用户无需为每一台设备…

阅读更多...

C++ 算法学习——7.4.1 优化算法——双指针

C++ 算法学习——7.4.1 优化算法——双指针

双指针法（Two Pointers）是一种常用的算法技巧，通常用于解决数组或链表中的问题。这种技巧通过维护两个指针，通常分别指向数组或链表的不同位置，来协同解决问题。双指针法一般有两种类型：快慢指针和左右指针…

阅读更多...

查询计算移出数据库用 Java 太慢咋办

查询计算移出数据库用 Java 太慢咋办

很多现代应用会把数据计算和处理任务从数据库移出来采用 Java 实现，这样能获得架构上的好处，而且 Java 有完善过程处理能力，应对日益复杂的业务逻辑比 SQL 更得心应手（虽然代码不短）。不过，我们常常会发现&…

阅读更多...

为什么没有能够处理 Python 字节码的 CPU？

为什么没有能够处理 Python 字节码的 CPU？

问题有没有能够处理Python字节码（Python bytecode）的CPU？众所周知，CPU靠执行字节码指令运作。那有没有能够处理Python字节码（Python bytecode）的CPU？如果没有，为什么？不…

阅读更多...

OpenHarmony（鸿蒙南向开发）——轻量系统内核（LiteOS-M）【内存管理】

OpenHarmony（鸿蒙南向开发）——轻量系统内核（LiteOS-M）【内存管理】

往期知识点记录： 鸿蒙（HarmonyOS）应用层开发（北向）知识点汇总鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~ 持续更新中…… 基本概念内存管理模块管理系统的内存资源，它是操作系…

阅读更多...

LeetCode 刷题基础 -- 模板原型Ⅰ

LeetCode 刷题基础 -- 模板原型Ⅰ

模板原型 - 基础篇学习网站一、进制转换二、二分查找① 查找指定元素② 查找第一个大于等于 x 值的序列下标③ 查找第一个大于 x 值的序列下标④ 单峰序列三、双指针① 两数之和② 序列合并③ 集合求交④ 集合求并四、其他高效技巧与算法① 区间和② 01 对③ 左小数五、数学…

阅读更多...

【每日刷题】Day134

【每日刷题】Day134

【每日刷题】Day134 🥕个人主页：开敲🍉 🔥所属专栏：每日刷题🍍 🌼文章目录🌼 1. 1218. 最长定差子序列 - 力扣（LeetCode） 2. LCR 116. 省份数量 - 力扣&…

阅读更多...

掌握这17个Python自动化操作，简化你的日常工作流程，提升工作效率！

掌握这17个Python自动化操作，简化你的日常工作流程，提升工作效率！

Python是一种流行的编程语言，以其简单性和可读性而闻名。因其能够提供大量的库和模块，它成为了自动化各种任务的绝佳选择。让我们进入自动化的世界，探索17个可以简化工作并节省时间精力的Python脚本。目录（上篇） 1.自…

阅读更多...

小型数控铣床助力职业教育教学模式

小型数控铣床助力职业教育教学模式

小型数控铣床是在普通铣床上集成了数字控制系统，可以在程序代码的控制下较精确地进行铣削加工的机床。与普通小型铣床相比，小型数控铣床通过数字控制系统实现了自动化加工，提高了加工精度和效率。小型数控铣床的引入推动了教育装备的现代化进…

阅读更多...

基于单片机的书库环境监测

目录一、主要功能二、硬件资源三、程序编程四、实现现象一、主要功能基于51单片机，采用DHT11湿度传感器检测湿度，DS18B20温度传感器检测温度， 采用滑动变阻器连接数模转换器模拟二氧化碳和氧气浓度检测，各项数值通过lc…

阅读更多...

Trickle流量限速工具使用示例

Trickle流量限速工具使用示例

简介：trickle 是一个轻量级的流量限速工具，允许用户限制应用程序的网络带宽使用，以便更好地管理网络资源和优化网络性能。本文将介绍 trickle 的安装和使用方法，并通过 Python 封装示例展示如何使用 trickle 控制网络带宽。历史…

阅读更多...

关于PPT生成的开源大模型总结

关于PPT生成的开源大模型总结

目前需要开源的PPT生成模型，在这里对github上的一些模型进行筛选搜索关键词：ppt generate（more starts） williamfzc/chat-gpt-ppt: 支持直接生成PPT支持中英文需要调用ChatGPT（Add your token (official openai api k…

阅读更多...

使用正则表达式删除文本的奇数行或者偶数行

使用正则表达式删除文本的奇数行或者偶数行

用智谱清言和kimi搜出来的结果都没法在notepad生效，后面在overflow上找到的答案比较靠谱。查找：^[^\n]*\n([^\n]*) 替换：\1 删除偶数行查找：^([^\n]*)\n[^\n]* 替换：\1 代码解释 ^：这个符号代表字符…

阅读更多...

推荐文章

最新文章