ViT笔记学习

news2025/1/20 3:37:27

1.VIT

ViT原理讲解
ViT结合代码
1.3 ViT模型架构
我们先结合下面的动图来粗略地分析一下ViT的工作流程,如下:

  • 将一张图片分成patches
  • 将patches铺平
  • 将铺平后的patches的线性映射到更低维的空间
  • 添加位置embedding编码信息
  • 将图像序列数据送入标准Transformer encoder中去
  • 在较大的数据集上预训练
  • 在下游数据集上微调用于图像分类
    在这里插入图片描述
    https://liuruiyang98.github.io/posts/2021/09/09/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E4%B9%8B%E5%9B%BE%E5%83%8F%E5%88%86%E7%B1%BB-18-Vision-Transformer(ViT)%E7%BD%91%E7%BB%9C%E8%AF%A6%E8%A7%A3.html

在这里插入图片描述

1.对于图像数据而言,其数据格式为[H, W, C]是三维矩阵明显不是Transformer想要的。所以需要先通过一个Embedding层来对数据做个变换。如下图所示,首先将一张图片按给定大小分成一堆Patches。以ViT-B/16为例,将输入图片(224x224)按照14x14大小的Patch进行划分,划分后会得到256个Patches。
2.接着通过线性映射将每个Patch映射到一维向量中,以ViT-B/16为例,每个Patches数据shape为[14, 14, 3]通过映射得到一个长度为588的向量(后面都直接称为token)。[14, 14, 3] -> [588]
3. patch-embed 维度变化patch-size为14【448,448,3】->[32,32,1792])拉平-》【1,1024,1792】
4. 1 16,16,

2.MaskFormer

MaskFormer-github

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2067126.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Lagent 自定义你的 Agent 智能体

环境配置 开发机选择 30% A100,镜像选择为 Cuda12.2-conda。 首先来为 Lagent 配置一个可用的环境。 # 创建环境 conda create -n agent_camp3 python3.10 -y # 激活环境 conda activate agent_camp3 # 安装 torch conda install pytorch2.1.2 torchvision0.16.2 …

迷雾大陆辅助:VMOS云手机助力新手入门!玩法机制大全!

在《迷雾大陆》的神秘世界中,玩家们总是面临着层层挑战,而使用VMOS云手机能够极大地提升你的游戏体验。VMOS云手机专门为《迷雾大陆》打造了定制版云手机,内置游戏安装包,玩家无需重新下载安装,直接畅玩。此外&#xf…

【labview美化】

1.关闭前面板按钮,只会关闭运行状态而不是关闭面板界面 修改前面板vi的界面,以及自定义 可调前面板运行时大小 添加一个时间进去,左上角每200ms进入一次超时分支,1是获取计算机当前时间,2是设置时间的显示格式

高性能计算应用优化之运行参数优化

程序运行时系统的各项配置一般是按照普适性原则,尽可能满足大多数场景下的需求,并未针对特定场景进行优化,这虽然能够提高环境的通用性,但限制了性能提高的空间。运行时参数可以根据用户的需求来调整程序的运行方式和资源分配&…

Java 4.2 - MySQL

MySQL 基础 关系型数据库 关系型数据库就是建立在关系模型上的数据库。关系模型描述了实体属性以及实体和实体之间的关系。 在关系型数据库中,我们的数据都被存放在了各种表中(比如用户表),表中的每一行存放着一条数据。 常见…

QCheckBox 全部取消选中

当我有很多 QCheckBox 被选中后&#xff0c;如何批量全部取消勾选呐&#xff1f; 方法一&#xff1a;findChildren函数方法二&#xff1a;foreach循环效果展示&#xff1a; 方法一&#xff1a;findChildren函数 // 遍历所有 QCheckBox 并取消选中QList<QCheckBox*> check…

新冠期间,Raspberry Pi 400 在肯尼亚为2500名学生提供在线学习机会

学生需要设备进行远程学习&#xff0c;Raspberry Pi 400为他们提供了在线学习的机会。 当疫情来袭时&#xff0c;接受前线重要岗位培训的护理和助产专业学生不得不改用远程教学来完成部分学业&#xff0c;但许多人家里没有设备&#xff0c;无法访问在线资料。Wisenet 伸出援手&…

全面解读AI大模型:一文带你看懂发展脉络与未来走向!

引言 近年来&#xff0c;随着深度学习技术的迅猛发展&#xff0c;AI大模型已经成为人工智能领域的重要研究方向和热点话题。AI大模型&#xff0c;指的是拥有巨大参数规模和强大学习能力的神经网络模型&#xff0c;如BERT、GPT等&#xff0c;这些模型在自然语言处理、计算机视觉…

小区物业维修管理系统/小区居民报修系统

摘要 小区物业维修是物业公司的核心&#xff0c;是必不可少的一个部分。在物业公司的整个服务行业中&#xff0c;业主担负着最重要的角色。为满足如今日益复杂的管理需求&#xff0c;各类小区物业维修管理系统也在不断改进。本课题所设计的小区物业维修管理系统&#xff0c;使用…

SD-WAN企业组网解决方案能解决企业的哪些问题?

SD-WAN企业组网解决方案在现代企业网络建设中具有重要意义&#xff0c;能够有效解决企业面临的多项挑战&#xff0c;下文将对此进行详细描述&#xff1a; 首先&#xff0c;SD-WAN技术在节省企业网络建设和运维成本方面表现突出。相比传统网络架构依赖大量专线和昂贵设备的方式&…

ACM模式下算法题输入输出攻略【C++】

文章目录 [TOC] 1. 核心代码模式与ACM模式1.1 ACM模式介绍1.2 注意事项 2. C常用的输入输出方法2.1 输入2.1.1 cin注意事项2.1.2 getline()注意事项2.1.3 getchar()注意事项 2.2 输出 3. 案例3.1 一维数组输入3.1.1 固定长度的一维数组3.1.2 不固定长度的一维数组 3.2 二维数组…

Java学习_19_方法引用及异常

文章目录 前言一、方法引用方法引用实例引用静态方法引用成员方法引用构造方法使用类名引用成员方法引用数组的构造方法综合练习 二、异常异常是什么异常的作用处理方案默认异常捕获异常 异常对象的常用方法抛出异常 总结 前言 博客仅记录个人学习进度和一些查缺补漏。 学习内…

使用ckplayer控制视频播放

目录 1、加载视频流 1.1、html模块 1.2、js模块 2、其他功能 2.1、缩放窗口 2.2、旋转窗口 2.3、卸载播放器 2.4、监听播放时间进度 2.5、定位播放 3、初始化属性说明 4、使用功能一览 ckplayer是一款在网页上播放视频的软件&#xff0c;基于javascript和css&#xf…

黑神话:悟空!爆了很多猴头! 借力,借智,借势(深度好文)——早读(逆天打工人爬取热门微信文章解读)

黑神话&#xff1a;悟空 怎么这么多猴头呢&#xff1f; 引言Python 代码第一篇 洞见 借力&#xff0c;借智&#xff0c;借势&#xff08;深度好文&#xff09;第二篇 股市风云结尾 引言 天哪 我昨天忘记发了 原因有二 一是比较忙 大家明白那种 3000块工资干2W的活的感觉吧 一开…

PyTorch使用------模型的定义和保存方法(带你讯速掌握构建线性回归,保存模型的方法!!!)

&#x1f43b; PyTorch使用合集&#xff1a; PyTorch使用------张量的创建和数值计算-CSDN博客 PyTorch使用------张量的类型转换&#xff0c;拼接操作&#xff0c;索引操作&#xff0c;形状操作-CSDN博客 目录 &#x1f354; 模型定义方法 &#x1f498; 使用PyTorch构建线性…

RISC-V vector(1) --- vector的引入与register说明

Vector相较于SIMD的优势 这两种实现方案&#xff0c;都是为了实现数据级并行性&#xff08;存在大量的数据可供程序同时计算&#xff09;&#xff1b; SIMD&#xff08;Single Instruction Multiple Data&#xff09; SIMD是将数据宽度和操作类型&#xff0c;都放在了指令中&a…

网络初识部分

1.网络 单机时代-局域网时代-广域网时代-移动互联网时代 局域网时代&#xff1a;通过路由器把几个电脑连接起来。 广域网时代&#xff1a;把更多的局域网连接到一起&#xff0c;构成的网络更庞大&#xff0c;可能已经覆盖了一个城市/国家/全世界。 2.什么是路由器&#xff…

关于武汉芯景科技有限公司的多协议收发芯片XJ526(第二篇RS422模式)开发指南(兼容SP526)

一、设置芯片为RS422模式 SP526 包含高度集成的串行收发器。SP526 提供 RS-232 &#xff08;V.28&#xff09;、RS-423 &#xff08;V.10&#xff09;、RS-422 &#xff08;V.11&#xff09; 和 RS-485 的硬件接口模式。接口模式选择通过两个控制引脚D0、D1完成。 我们将D0接…

【简历】25届青岛某一本JAVA简历:中厂不要强调算法,面试官听不懂

注&#xff1a;为保证用户信息安全&#xff0c;姓名和学校等信息已经进行同层次变更&#xff0c;内容部分细节也进行了部分隐藏 简历说明 今天我们要看的是一位来自25届青岛某一本硕士同学的Java简历。 依旧是先判断自己要投什么层次的厂&#xff0c;也就是我们校招第一法则…

Netty04-优化与源码

四. 优化与源码 1. 优化 1.1 扩展序列化算法 序列化&#xff0c;反序列化主要用在消息正文的转换上 序列化时&#xff0c;需要将 Java 对象变为要传输的数据&#xff08;可以是 byte[]&#xff0c;或 json 等&#xff0c;最终都需要变成 byte[]&#xff09;反序列化时&…