Sora核心之一:可变时长、分辨率、尺寸

news2025/1/18 4:48:59

Overview

    • 一、总览
    • 二、摘要
    • 三、引言
    • 四、方法
      • 4.1、架构改动
      • 4.2、训练改变
      • 4.3、NaViT的效率

NaViT

一、总览

题目: Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
机构:Google DeepMind
论文: https://arxiv.org/pdf/2307.06304.pdf
代码:
任务:
特点:
前置相关工作:Pix2Struct
同期类似工作:
后续衍生工作:

二、摘要

当我们在用CV模型处理图像时,会把图像调整为固定分辨率,但是往往这是一个次优的选择。
然而诸如Vision Transformer(ViT)之类的模型能够灵活地进行序列建模,因此可以改变输入序列的长度。本文提出NaViT(Native Resolution ViT)来利用这一点,它在训练期间使用序列打包(sequence packing) 来处理任意分辨率和宽高比的输入。
除了让模型更加灵活之外,NaViT能够有效地迁移到图像/视频分类、目标检测和语义分割等标准任务,并且在基准评测上提高鲁棒性。
推理时,这样一种输入分辨率的灵活性,能够在测试时对性能和效率之间做一个平稳的平衡。作者相信,NaViT不同于标准的,CNN型的输入建模设计,能够为ViTs指明一个有前途的方向。

三、引言

ViT(Dosovitskiy 等人,2021)的简单、灵活和可扩展的性质使其成为基于卷积的神经网络的几乎无处不在的替代品。该模型的基础是一个简单的操作:将图像分割成块,每个块都线性投影到一个token。通常,输入图像被调整为固定的正方形长宽比,然后分割成固定数量的补丁。

最近的工作探索了这种范例的替代方案:

  1. FlexiViT(Beyer 等人,CVPR 2023)在一个架构内支持多种patch size,从而实现序列长度/计算成本的平滑变化。这是通过在每个训练步骤中对patch size进行随机采样以及调整resize算法以允许初始卷积特征支持多个patch size来实现的
  2. Pix2Struct(Lee 等人,2022)引入了一种保留宽高比的替代patching方法,这对于图表和文档理解等任务特别有用。

我们提出了另一个备选方案,NaViT。许多来自不同图像的patches被打包在一个序列里面,因此也被叫做patch n’pack (补丁包),这能够允许可变的分辨率而且能够保持宽高比。方法也是受自然语言处理领域的example packing启发,将多个样例打包在一个序列里面,来在变长输入上进行更有效率的训练。

本文发现:

  1. 训练时,对分辨率进行随机采样,极大程度减少了训练代价。
  2. NaViT由于能够处理不同的范围的分辨率,因此能够在推理的时候,很好地在成本-效果之间做一个平衡,并且以一种较小的代价迁移到新的任务上。
  3. 由example packing产生的固定batch形状,能够激发一些新的研究点,比如保持长宽比,可变token dropping rate,自适应计算。

这些发现有重大的实际影响,在一个固定计算代价下,NaViT能够稳定地比ViT效果更优。比如,我们仅用了少于1 / 4的计算成本,就比ViT的最好表现更优。如下图中的左图。

我们认为在分配的计算预算内处理的训练示例数量的大幅增加是比 ViT 性能提高的主要贡献者 - 示例打包与可变分辨率输入和可变令牌丢弃相结合,使 NaViT-L/16 的处理能力增加了五倍训练期间的图像(表2)。
在这里插入图片描述

我们认为在分配的计算预算内处理的训练样本数量的大幅增加是比 ViT 性能提高的主要原因 - 示例打包与可变分辨率输入和可变token丢弃相结合,使 NaViT-L/16 的处理能力增加了五倍多的训练图像(表2)。
在这里插入图片描述
这种效率上的提高,在finetuning阶段也能有效地体现,比如上面图1中的(middle),在更小的预训练成本下,就能取得更高的finetune acc。

除此之外,由于在预训练和微调阶段都处理可变分辨率,因此只有一个模型也能在多种分辨率上取得很好的效果,很好地体现了NaViT在推理代价上的优势,如图1中的(right)。

NaViT在训练和迁移上的效率,灵活的推理,为 Vision Transformers 提供了一条充满希望的途径。Patch n’ Pack使计算机视觉系统能够超越当前数据和建模pipeline所施加的限制,实现以前受固定batch形状限制的想法,从而释放创新和进步的新可能性。

四、方法

深度神经网络通常使用批量输入进行训练和运行。为了在当前硬件上进行高效处理,这意味着固定的批次形状,这又意味着计算机视觉应用程序的图像大小固定。再加上历史上与卷积神经网络相关的架构限制,导致了调整图像大小或将图像填充到固定大小的做法。这两种方法都已被证明存在缺陷:前者会损害性能,后者效率低下(Lee et al., 2022)。对 ImageNet (Deng et al., 2009)、LVIS (Gupta et al., 2019) 和 WebLI (Chen et al., 2022c) 中长宽比的分析,结果表明大多数图像通常不是方形的(图 3)。
在这里插入图片描述

在语言建模中,通常通过示例打包来绕过固定序列长度的限制:来自多个不同样例的token被组合在一个序列中,这可以显着加速语言模型的训练(Krell 等人,2021)。通过将图像视为补丁(令牌)序列,我们表明 Vision Transformers(Dosovitskiy 等人,2021)可以从相同的范例中受益,我们称之为 Patch n’ Pack。使用这种技术,ViT 可以在“原始”分辨率的图像上进行训练,我们将这种方法命名为 NaViT。

4.1、架构改动

相对于原始的ViT,在模型的架构上做了如下的一些改动:

  1. Masked self attention and masked pooling 为了防止example之间彼此attend,引入了额外的self-attention掩模。类似地,masked pooling旨在池化每个示例中的token表示,从而导致序列中每个示例都有一个向量表示。图 2 展示了如何通过掩码来控制注意力的感受野。
  2. Factorized & fractional positional embeddings. 为了处理任意分辨率和纵横比,我们重新审视position embedding。给定分辨率为 R × R R×R R×R 的方形图像,补丁大小为 P 的普通 ViT 可以学习长度为 ( R / P ) 2 (R/P )^2 (R/P)2 的一维位置嵌入(Dosovitskiy 等人,2021)。线性插值这些嵌入对于以更高分辨率 R 进行训练或测试是必要的。

Pix2struct(Lee 等人,2022)引入了可学习的 2D 绝对位置编码,从而学习大小为 [maxLen, maxLen] 的位置嵌入,并用每个补丁的 (x, y) 坐标进行索引。这使得宽高比可变,分辨率高达 R = P ⋅ m a x L e n R = P·maxLen R=PmaxLen。然而,每一种组合(x, y) 坐标在训练过程中必须可见。

为了支持可变的纵横比并轻松外推(extrapolate )到没有见过的分辨率,我们引入了因式分解的位置嵌入,其中我们分解为 x 和 y 坐标的单独嵌入 ϕ x \phi_x ϕx ϕ y \phi_y ϕy。然后将它们组合在一起(第 3.4 节探讨了可选的组合策略)。我们考虑两种模式:绝对嵌入,其中 ϕ ( p ) \phi_(p) ϕ(p) : [0, maxLen] → R D R^D RD 是绝对补丁索引的函数,以及分数嵌入,其中 ϕ ( r ) \phi_(r) ϕ(r) : [0, 1] → R D R^D RD 是一个函数 r = p / s i d e _ l e n g t h r = p/side\_length r=p/side_length,即沿图像的相对距离。后者提供独立于图像大小的位置嵌入参数,但部分地混淆了原始长宽比,从而仅隐含在补丁数量中。我们使用了简单学习的embedding ϕ \phi ϕ,sinusoidal embeddings,以及用NeRF里面用到的傅立叶位置编码。

4.2、训练改变

Patch n’ pack技术使得在训练NaViT的时候,能够有一些新的训练技术。

  1. Continuous Token dropping. token丢弃(训练期间随机省略输入补丁)(Akbari 等人,2021;Li 等人,2023 flip)已被开发来加速训练。然而,它们通常从所有示例中删除相同比例的令牌;打包可以实现连续的令牌丢弃,从而可以根据图像改变令牌丢弃率。这样可以通过丢弃同时仍然看到一些完整图像来实现更快的吞吐量,从而减少训练/推理差异。此外,通过打包,在整个训练过程中,drop分布可能会根据一些预定义的schedule而变化。在第 3.3 节中,我们探讨了不同的schedules以及灵活token丢弃的好处。
  2. Resolution sampling. NaViT 可以使用每个图像的原始分辨率进行训练。或者,可以在保留纵横比的同时对像素总数进行重新采样。在普通 ViT 中,更大的吞吐量(在较小的图像上进行训练)和更高的性能(在更大的图像上进行训练,以在评估时实现高分辨率)之间存在着紧张关系。通常,模型会在较小的分辨率下进行预训练,并在较高的分辨率下进行微调。 (Touvron等人,2019)。 NaViT 更加灵活;它允许通过从图像尺寸分布中采样来进行混合分辨率训练,同时保留每个图像的原始长宽比。这允许更高的吞吐量和大图像的曝光,与同等 ViT 相比,性能得到显着提高(在模型大小和训练持续时间方面)。 3.2 节探讨了不同的采样策略以及用于预训练和微调的可变分辨率训练。

4.3、NaViT的效率

在这里,我们讨论 Patch n’ Pack 对 NaViT 计算效率的一些影响。
self attention cost. 当将多个图像打包成更长的序列时, O ( n 2 ) O(n^2) O(n2) 的注意力成本自然是一个值得关注的问题。尽管许多工作旨在消除这种二次缩放(Tay et al., 2022, 2020),但我们在这里证明,随着transformer隐藏维度的缩放,注意力在总体成本中所占的比例越来越小,其中包括计算成本MLP 也是如此。图 4 说明了这一趋势,表明与打包示例相关的开销相应减少。除了速度考虑之外,自注意力的内存成本也可能对极长的序列构成挑战。然而,这一挑战也可以通过采用内存高效的方法来解决(Rabe 和 Staats,2021;Dao 等人,2022)。
在这里插入图片描述
Packing, and sequence-level padding. 最终序列包含多个示例的长度必须是固定的。我们使用附录 A.3 中讨论的贪婪打包方法;通常不存在完全加起来等于固定长度的示例的完美组合,并且必须使用填充标记。例如,可以动态选择分辨率或令牌丢弃序列中最后一个示例与剩余标记完全匹配的比率;然而,我们发现通常只有不到 2% 的标记是填充标记,因此简单的方法就足够了。

Padding examples and the contrastive loss. 用打包序列可以很容易地实现每个令牌的损失。然而,许多计算机视觉模型都是通过示例级损失进行训练的,通常应用于池表示。首先,这需要对典型的池头进行修改以考虑堆积。其次,必须从每个序列中提取多个合并表示。固定批次形状需要假设,从一批 B 序列中,我们最多提取 B × Emax 池表示(即每个序列的 Emax 个示例)。如果序列包含超过 Emax 图像,则多余的图像将被丢弃,从而浪费模型编码器的计算。如果序列的示例少于 Emax,则损失将处理大量假填充表示。
后者是对比学习的一个问题,其中损失计算在时间和内存上扩展 ~ O(n2)。为了避免这种情况,我们使用了分块对比损失(Mustafa et al., 2023),它通过在本地设备子集上执行计算并有效地积累全局 softmax 归一化所需的统计数据来避免收集 softmax 的所有数据点的需要。这使得 Emax 值较高(从而有效地使用模型编码器),而不会受到损失的瓶颈。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1485070.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AG32 MCU 如何进入低功耗模式

默认情况下,微控制器(MCU)在系统复位或电源复位后处于运行模式。当CPU不需要持续运行时,可以使用几种低功耗模式来节省功耗。这是由用户选择的模式,给出了低功耗,短启动时间和可用的唤醒源之间的最佳妥协。 AG32VF 系列MCU具有以下…

LeetCode 刷题 [C++] 第226题.翻转二叉树

题目描述 给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 题目分析 深度优先搜索(DFS)- 递归方式 对于二叉树的镜像问题,很容易想到的就是使用递归来解决,自底向上依次翻转每一个节点…

python类型注解,多态详解

目录 1.类型注解 1.变量的类型注解 2.函数(方法)的类型注解 3.union类型 2.多态 抽象类 1.类型注解 1.变量的类型注解 #基础数据类型注解 import randomv1 : int 10 v2 : str "aaa" v3 : bool True#类对象类型注解 class student:p…

kafka文件存储机制和消费者

1.broker文件存储机制 去查看真正的存储文件: 在/opt/module/kafka/datas/ 路径下 kafka-run-class.sh kafka.tools.DumpLogSegments --files ./00000000000000000000.index 如果是6415那么这个会存储在563的log文件之中,因为介于6410和10090之间。 2.…

linux的通信方案(SYSTEM V)

文章目录 共享内存(Share Memory)信号队列(Message Queue)信号量(semaphore) 进程间通信的核心理念:让不同的进程看见同一块资源 linux下的通信方案: SYSTEM V 共享内存(Share Memory) 特点:1.共享内存是进程见通信最…

图论 - 最小生成树(Prime、Kruskal)

文章目录 前言Part 1:Prim算法求最小生成树1.题目描述输入格式输出格式数据范围输入样例输出样例 2.算法 Part 2:Kruskal算法求最小生成树1.题目描述输入格式输出格式数据范围输入样例输出样例 2.算法 前言 本篇博客介绍两种求最小生成树的方法&#xff…

使用OpenCV和mediapipe实现手部信息抓取

目录 运行效果 挨行解读 (1)初始化MediaPipe Hand模块 (2)打开摄像头 (3)初始化计时器 (4)开始程序主题部分 (5)读取视频帧 (6&#xff09…

c++基础知识补充5

隐式类型转换型初始化:如A a1, 与全局类没有区别,只是受主类的类域限制,内部类天生是主类的友元 采用匿名构造如A()代替A aa可以加速编译器优化 接收建议新创建一个对象

基于springboot+vue的科研工作量管理系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

大模型(LLM)的token学习记录-I

文章目录 基本概念什么是token?如何理解token的长度?使用openai tokenizer 观察token的相关信息open ai的模型 token的特点token如何映射到数值?token级操作:精确地操作文本token 设计的局限性 tokenizationtoken 数量对LLM 的影响训练模型参…

c语言--qsort函数(详解)

目录 一、定义二、用qsort函数排序整型数据三、用qsort排序结构数据四、qsort函数的模拟实现 一、定义 二、用qsort函数排序整型数据 #include<stdio.h> scanf_S(int *arr,int sz) {for (int i 0; i < sz; i){scanf("%d", &arr[i]);} } int int_cmp(c…

【GitHub】修改默认分支

GitHub的默认分支为main&#xff0c;但我们常常习惯使用master作为默认分支&#xff0c;那在GitHub上如何将master修改为默认分支呢&#xff1f; 全局修改 点击头像&#xff0c;选择菜单栏中的设置 输入master作为默认分支&#xff0c;然后执行updating即可&#xff01; 单项…

【Java数据结构】——二叉搜索树

目录 &#x1f388;概念 &#x1f388;操作-查找 &#x1f388;操作-插入 &#x1f388;操作-删除&#xff08;难点&#xff09; &#x1f388;概念 二叉搜索树又称二叉排序树&#xff0c;它或者是一棵空树&#xff0c;或者是具有以下性质的二叉树 : 若它的左子树不为空&a…

【Qt学习笔记】(四)Qt窗口

Qt窗口 1 菜单栏1.1 创建菜单栏1.2 在菜单栏中添加菜单1.3 创建菜单项1.4 在菜单项之间添加分割线1.5 给菜单项添加槽函数1.6 给菜单项添加快捷键 2 工具栏2.1 创建工具栏2.2 设置停靠位置2.3 设置浮动属性2.4 设置移动属性2.5 添加 Action 3 状态栏3.1 状态栏的创建3.2 在状态…

Matlab 机器人工具箱 动力学

文章目录 R.dynR.fdynR.accelR.rneR.gravloadR.inertiaR.coriolisR.payload官网:Robotics Toolbox - Peter Corke R.dyn 查看动力学参数 mdl_puma560; p560.dyn;%查看puma560机械臂所有连杆的动力学参数 p560.dyn(2);%查看puma560机械臂第二连杆的动力学参数 p560.links(2)…

mac命令行下计算文件SHA-256散列值

源起 从国内的第三方网站下载了Android sutiod的zip包下载地址&#xff0c;为了安全起见还是得跟Android官网上的对应的zip包的SHA值做下对比。以前是经常使用md5命令的&#xff0c;所以理论在命令行下应该是有对应的命令行工具可以计算SHA值的。后来搜索到可以用 shasum命令来…

Java中线程安全的集合类

在先前的文章中我们已经讲过了原子类(线程安全的基本类型&#xff0c;基于CAS实现)&#xff0c;详见常见锁策略&#xff0c;synchronized内部原理以及CAS-CSDN博客 &#xff0c;我们在来讲一下集合类&#xff0c;在原来的集合类&#xff0c;大多数是线程不安全的&#xff0c;虽…

深入了解 Android 中的 RelativeLayout 布局

RelativeLayout 是 Android 中常用的布局之一&#xff0c;它允许开发者基于子视图之间的相对位置来排列界面元素。在这篇博客中&#xff0c;我们将详细介绍 RelativeLayout 的各种属性&#xff0c;并提供代码示例和解释。 第一个示例 <RelativeLayoutandroid:layout_width…

【数据分享】2001~2023年中国区域MOD17A3HGF GPP数据

各位同学们好&#xff0c;今天和大伙儿分享的是2001~2023年中国区域MOD17A3HGF GPP数据。如果大家有下载处理数据等方面的问题&#xff0c;您可以私信或评论。 Running, S., M. Zhao. <i>MODIS/Terra Net Primary Production Gap-Filled Yearly L4 Global 500m SIN Grid…

标准库`random`函数大全:探索Python中的随机数生成【第107篇—`random`函数大全】

标准库random函数大全&#xff1a;探索Python中的随机数生成 随机数在计算机科学和数据科学领域中扮演着重要角色&#xff0c;Python的标准库中提供了random模块&#xff0c;用于生成各种随机数。本篇博客将深入探讨random模块的各种函数&#xff0c;以及它们的应用场景和代码…