[EAI-023] FAST,机器人动作专用的Tokenizer,提高VLA模型的能力和训练效率

news2025/2/2 16:10:33

Paper Card

论文标题:FAST: Efficient Action Tokenization for Vision-Language-Action Models
论文作者:Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine
论文链接:https://arxiv.org/abs/2501.09747
论文出处:/
论文被引:/
项目主页:https://www.pi.website/research/fast

Abstract

基于Transformer的视觉-语言-动作(VLA)策略等自回归序列模型,可以非常有效地捕捉复杂且可泛化的机器人行为。 但是,此类模型对连续动作信号的进行 tokenization(离散标记化),这决定了模型预测的离散token (标记)如何映射到连续的机器人动作(action)。 当前基于简单逐维度、逐时间步长分箱方案的机器人动作离散标记化方法,在从高频机器人数据中学习灵巧技能时,通常表现不佳。 为了解决这一挑战,本文提出了一种基于离散余弦变换的基于压缩的机器人动作离散标记化方案——Frequency-space Action Sequence Tokenization (FAST),能够为高度灵巧和高频的任务训练自回归VLA,而标准离散化方法在此类任务中完全失效。 基于FAST,发布了一个通用的机器人动作离散标记化器 FAST+,它在100万个真实的机器人动作轨迹上训练。 它可以用作各种机器人动作序列(具有不同的动作空间和控制频率)的黑盒分词器(tokenizer)。 当与 VLA 模型 pi0 结合使用时,可以扩展到在1万小时的机器人数据上进行训练,并与扩散VLA模型的性能相当,但训练时间减少了5倍。

Summary

研究背景

性能好的tokenizer对序列模型的性能至关重要。当前机器人策略通常使用基于每个维度、每个时间步长分箱方案的简单 tokenization 方法,这类方法在学习具有高频控制的灵巧技能时的表现不好(本文中涉及的测试全部失败)。当预测未来动作序列时,简单的tokenizer难以捕获各个时间步之间的相关性,高度相关的action token降低了自回归VLA模型对 next token prediction 建模的有效性。

方法介绍

在这里插入图片描述

从第一性原理出发,开发新的 action tokenizer。关键想法:受到llama中使用的 BPE 编码方法的启发,在模型训练之前压缩机器人动作信号,减少连续token之间的相关性。考虑到机器人动作是连续信号,因此采用离散余弦变换编码,由此产生的 tokenization 方法称为 Frequency-space Action Sequence Tokenization (FAST)。在 DROID 数据集上高效训练 VLA 模型,在未见的真实环境通过自然语言提示进行零样本评测。
在这里插入图片描述

构建了 FAST+ 通用的机器人动作 tokenizer,在100万条真机数据上训练。可以对各种机器人动作序列进行分词,报错单臂机器人、双臂机器人和移动机器人。当pi0模型结合FAST进行训练时,比原来的结合扩散思想的模型训练时间缩短了 5 倍,但性能相当。

相关工作

基于VLM构建的VLA模型是构建通用机器人策略的有效方法。他在大规模的互联网图文对上训练,并使用机器人数据微调,用于机器人控制。VLA的优势是:1)数十亿参数的VLM骨干为策略提供了适应大型机器人数据集所需要的表达能力;2)重用VLM的权重可以提高VLA模型遵从多样化指令的能力和泛化能力,例如泛化到未见物体和未见场景背景。

当前VLA模型的控制频率基本都很低,自回归的VLA模型更甚,难以适应高频的灵巧操作任务。原因是 tokenizer 使用简单的每个维度、每个时间步长分箱方案。为此,本文提出了一种基于时间序列压缩技术的机器人动作分词器 FAST。

前置知识

问题描述:目标是训练策略 π ( a 1 : H ∣ o ) π(a_{1:H}|o) π(a1:Ho),将观测结果 o o o 映射到未来机器人动作序列 a 1 : H a_{1:H} a1:H。假设策略输出动作块(Action Chunk),即序列长度为 H H H 动作,这使得更容易产生时间上一致的动作并减少复合误差。 动作分词(Action Tokenization)的目标是定义一个映射 T a : a 1 : H → [ T 1 , … , T n ] \mathcal{T}_{a}:a_{1:H} → [T_1,…,T_n] Ta:a1:H[T1,,Tn],从维度为 ∣ A ∣ |\mathcal{A}| A 的连续动作 a 1 : H a_{1:H} a1:H 序列映射到来自大小为 ∣ V ∣ |\mathcal{V}| V 的词汇表中的 n n n 个离散token序列 T ∈ ∣ V ∣ T∈|\mathcal{V}| TV。动作序列之间的token数量 n 可能不同,就像相同长度的句子可能被离散化为可变数量的文本token一样。

基于分箱的动作token化:动作token化最常用的方法是简单的分箱离散化。 对于给定的动作 a,这种方法独立地离散化每个维度,将训练数据集中值的范围划分为 N N N 个均匀的箱,最常用的是 N = 256 N=256 N=256。对于D维的动作序列 a 1 : H a_{1:H} a1:H,此token化方案将应用于每个时间步,从而产生最终的token序列 T a ( a 1 : H ) = [ T 1 , 1 , … , T 1 , D , … , T H , 1 , … , T H , D ] \mathcal{T}a(a1:H)=[T_{1,1},…,T_{1,D},…,T_{H,1},…,T_{H,D}] Ta(a1:H)=[T1,1,,T1,D,,TH,1,,TH,D]。对于高频机器人数据,这种token化方案并非最优:很容易为每个动作片段生成数百个 token,使得难以训练并且推理速度慢。

Tokenization 对 VLA 模型训练的影响

在这里插入图片描述

创建了一个简单的合成时间序列数据集,其目标是预测一个插值四个随机生成点的三次曲线,如图3所示。这个问题反映了高频动作片段上训练的策略面临的挑战,即策略必须预测一系列连续的动作。训练一个小型自回归Transformer进行实验,序列时间步H从25到800,以模拟不同频率收集的动作数据。Navie方法表示将动作序列中的每一个元素进行256bins分箱操作。

实验结果表明,分箱方案的模型在低采样频率的条件下预测效果较好,但是随着采样频率增加,预测误差急剧增加。为什么呢?因为自回归模型的训练目标是下一个token预测,因此,他们的学习信号在给定 T 1 : i − 1 T_{1:i-1} T1:i1 的情况下与 T i T_i Ti 的边际信息内容成正比。分箱方案随着采样频率的增加,边际信息接近于零:对于平滑信号,随着时间步长的缩短,每个时间步长的变化成比例地缩小。这极大地减慢了训练收敛速度,并且难以你和复杂的高频数据集。例如,OpenVLA在低频的 BridgeV2 和 RT-1 数据集上运行良好,但是对于高频的 DROID 数据集表现不佳。这说明为机器人动作设计更好的分词器的重要性。

通过时间序列压缩实现高效的动作分词器

在这里插入图片描述

为了解决前述提到的高频动作轨迹中的 冗余会导致每个action token的边际信息量低进而导致训练性能差的问题,需要一种能够将高度冗余的动作信号压缩减少成少量高信息量token的动作离散化方法。

本文使用基于离散余弦变换(DCT)的压缩算法构建FAST。DCT是一种频域变换,它将连续信号表示为各种频率的余弦元素之和。低频捕获信号的整体形状,而高频份量反映尖锐的跳变(sharp jumps)。

图4说明了FAST从原始机器人动作到action token的变换步骤。首先对输入动作进行归一化,然后对每个动作维度应用DCT,为了压缩信号,忽略不重要的系数,得到量化后的稀疏的矩阵。然后将矩阵展平为一个一维整数向量,然后训练一个BPE分词器将其无损压缩成稠密的token。
在这里插入图片描述

通用机器人动作分词器

FAST 中唯一需要学习的组件是 BPE 编码器的词汇表,这个词汇表需要针对分词器应用的每个新数据集进行循例那,虽然只需要几分钟,但也增加了使用FAST的难度。因此,使用100万个1s的动作块训练了一个通用的机器人动作分词器。已经开源并合入到Transformers库了。
在这里插入图片描述

训练所需要的数据集:数据集有多种动作空间:联合空间、末端执行器世界坐标系和末端执行器相机坐标系,以确保所得分词器的通用性。Open X-Embodiment、DROID和Bridge V2则以其原始形式包含在内。 在分词之前,所有动作都填充到32维,以适应不同维度的动作空间。在这里插入图片描述

消融实验

模型基线:pi0、OpenVLA

实验目标:验证FAST分词器+自回归VLA模型的有效性

评估任务

在这里插入图片描述

如图5所示,包含7个评估任务(6个真实机器人任务,1个模拟任务),旨在测试VLA在高度灵巧的任务(例如折叠衣物)和泛化任务(例如在未见环境中进行0样本桌面操作)上的性能。

  • Libero:在Libero [43]模拟基准套件上进行测试。测量了Libero-Spatial、Libero-Object、Libero-Goal和Libero-10的平均性能。
  • 餐桌清理 [7] (20 Hz):一台UR5单臂机器人需要清理桌子,将12个物体分类到垃圾桶(用于垃圾)和塑料容器(用于盘子、碗、杯子和餐具)中。此任务需要精确抓取各种物体。
  • 折叠T恤 [7] (50 Hz):一套双臂ARX机器人需要在一个静止的桌面上折叠各种衬衫。在任务开始时,衬衫平放在桌子上。 成功完成此任务需要精确的抓取和移动才能折叠衬衫。
  • 杂货装袋 [7] (20 Hz):一台UR5单臂机器人需要将 7 个物体从桌子上装入杂货袋中,注意不要弄倒或撕破袋子。 此任务需要拾取各种各样的物体并小心地将它们放入袋中。
  • 从烤面包机中取出吐司 [7] (50 Hz):一台双臂Trossen Viper-X机器人需要从烤面包机中取出两片面包并将它们放在盘子上。 此任务需要精确地抓取和放置面包片。
  • 衣物折叠 [7] (50 Hz):一台双臂ARX机器人需要从篮子里取出衬衫和短裤,将它们平放在桌子上,然后折叠并堆叠起来。 这是我们测试中最灵巧的任务。 它需要精确的抓取,动态的动作来使衣物平整,在衣物缠结时进行重试和纠正,以及将折叠好的衣物精确地放置在现有的衣物堆上。报告了单个服装物品的成功率。
  • 零样本DROID桌面操作 [38] (15 Hz):测试了一个在完整DROID数据集上训练的策略,该策略涵盖各种桌面操作任务,例如拾取和放置物体、擦拭、打开和关闭抽屉等。在未见的环境中测试该策略,该环境具有新的桌子设置、背景、新颖的物体、视角和桌子高度。这是第一次在完全未见的环境中对DROID策略进行“零样本”评估,无需协同训练或微调,只需使用自然语言提示预训练模型即可。

机器人动作分词器对比

在这里插入图片描述

使用1秒的动作片段。FAST分词器对所有数据集都实现了有效的压缩,高频动作上效果更显著,token为20-53。
在这里插入图片描述

先前工作中应用的naive分词方法难以在高频机器人数据上学习有效的策略。最高频的任务中尤为明显:餐桌整理 (20Hz) 和 T 恤折叠 (50Hz)。

在这里插入图片描述

FAST 分词技术实现了在 DROID 数据集上成功训练强大的通用策略,该策略可以通过自然语言提示,在未见过的环境中进行零样本评估,无需微调。所有先前的工作都没有显示零样本结果,而是完全专注于联合训练或微调评估。在三个大学的校园中对各种桌面操作任务进行测试,证明了策略的通用性(图 7)。 无需额外训练,该策略能够熟练地执行简单的操作任务,例如在各种场景和摄像机视角下拾取和放置物体、打开和关闭橱柜以及打开水龙头。即使是不成功的尝试也表现出合理的行为,例如靠近微波炉和洗碗机门的把手,即使最终未能打开它们。

消融研究

回答两个问题:

  • FAST分词方法是否独立于底层VLA主干?
  • BPE压缩步骤有多重要?

在这里插入图片描述

为了回答第一个问题,在高频T恤折叠数据集上训练了一个OpenVLA策略,修改了OpenVLA模型代码以接受多个输入图像并预测1秒的动作块。结果表明,FAST能够显著提高OpenVLA的性能,使其能够有效地训练高频机器人操作数据。这表明,分词方法独立于底层模型主干,并且可以轻松应用于各种预训练的自回归Transformer模型。

在这里插入图片描述

在桌面整理和T恤折叠任务上消融了BPE编码步骤。结果表明,没有BPE编码的策略获得了更差的性能(但仍然优于朴素分词)。 直观地说,DCT变换仍然将大部分信号信息集中在少数几个token中,从而改善了学习信号。 然而,如果没有BPE,就会出现大量重复的值为0的token,这会稀释学习信号,并显著减慢推理速度,因为模型需要自回归地预测数百个动作token,最终导致策略性能下降。

自回归VLA与扩散VLA对比

在这里插入图片描述
图 9 所示,在小型数据集(Libero,折叠T恤;<50小时)上,两种VLA的性能相当。 但是在像搬运桌子这样的大型数据集上,基于FAST的VLA收敛速度明显更快,在训练步骤比π0的扩散变体少3倍的情况下达到了高性能。使用FAST分词训练的自回归 π0 模型更严格地遵循语言指令:在DROID评估中,扩散π0模型经常忽略语言指令,导致分数较低。 未来会继续研究扩散和自回归VLA的语言遵循能力。

自回归VLA的一个当前局限性在于其推理速度:π0使用扩散模型通常可以在NVIDIA 4090 GPU上在100毫秒内预测一秒钟的动作片段,但π0模型使用FAST分词需要大约750毫秒的每个片段推理时间,因为它必须执行更多自回归解码步骤(通常需要解码30-60个动作token,而扩散模型π0需要10个扩散步骤)并使用完整的20亿参数语言模型主干进行自回归解码(而扩散模型π0使用3亿参数的“动作专家”)。 未来会继续研究离散token自回归Transformer模型的推理提速。

实验结论

本文介绍了 FAST,一种用于高频机器人控制数据的动作分词器。FAST使用离散余弦变换(DCT)和字节对编码(BPE)来压缩动作块,使得其具有更好的压缩效果。实验表明,与以前使用的简单动作离散化方法相比,FAST带来了显著的性能提升,并且优于基于矢量量化的更复杂的学习分词方法。

未来工作:
动作分词器。FAST是朝着通用机器人动作分词器迈出的重要一步,但仍有很多问题有待解决。在这项工作对静态机器人机械臂测试了 FAST。FAST+在其他机器人形态(如移动机器人、灵巧手和人形机器人)上具有良好的压缩能力。在这些平台上测试实际策略性能是未来工作的一个令人兴奋的方向。探索替代压缩方案,以及测试基于压缩的动作编码与非自回归解码方法(如扩散[7])的组合,是未来研究的有趣方向。

VLA 架构。本文初步探索了两种主要类型的 VLA 架构(自回归和扩散解码 VLA)之间的权衡,但最佳 VLA 架构仍未确定。未来工作应仔细研究训练速度、语言基础能力和任一方法的表达能力之间的权衡。

推理速度。 虽然π0-FAST 的整体性能与扩散π0匹配,但在推理时间上较慢。未来的工作应该探索加快自回归 VLA 模型推理速度的方法,以使它们能够解决高度动态的任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2290843.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Pygame制作“太空侵略者”游戏

1. 前言 在 2D 游戏开发中&#xff0c;“太空侵略者”是一款入门难度适中、却能覆盖多种常见游戏机制的项目&#xff1a; 玩家控制飞船&#xff08;Player&#xff09;左右移动&#xff0c;发射子弹。敌人&#xff08;Enemy&#xff09;排列成一行或多行&#xff0c;从屏幕顶…

《逆向工程核心原理》第三~五章知识整理

查看上一章节内容《逆向工程核心原理》第一~二章知识整理 对应《逆向工程核心原理》第三章到第五章内容 小端序标记法 字节序 多字节数据在计算机内存中存放的字节顺序分为小端序和大端序两大类 大端序与小端序 BYTE b 0x12; WORD w 0x1234; DWORD dw 0x12345678; cha…

2025 AI行业变革:从DeepSeek V3到o3-mini的技术演进

【核心要点】 DeepSeek V3引领算力革命&#xff0c;成本降至1/20o3-mini以精准优化回应市场挑战AI技术迈向真正意义的民主化行业生态正在深刻重构 一、市场格局演变 发展脉络 2025年初&#xff0c;AI行业迎来重要转折。DeepSeek率先发布V3模型&#xff0c;通过革命性的架构创…

SAP SD学习笔记28 - 请求计划(开票计划)之2 - Milestone请求(里程碑开票)

上一章讲了请求计划&#xff08;开票计划&#xff09;中的 定期请求。 SAP SD学习笔记27 - 请求计划(开票计划)之1 - 定期请求-CSDN博客 本章继续来讲请求计划&#xff08;开票计划&#xff09;的其他内容&#xff1a; Milestone请求(里程碑请求)。 目录 1&#xff0c;Miles…

SpringBoot+Vue的理解(含axios/ajax)-前后端交互前端篇

文章目录 引言SpringBootThymeleafVueSpringBootSpringBootVue&#xff08;前端&#xff09;axios/ajaxVue作用响应式动态绑定单页面应用SPA前端路由 前端路由URL和后端API URL的区别前端路由的数据从哪里来的 Vue和只用三件套axios区别 关于地址栏url和axios请求不一致VueJSPS…

大白话讲清楚embedding原理

Embedding&#xff08;嵌入&#xff09;是一种将高维数据&#xff08;如单词、句子、图像等&#xff09;映射到低维连续向量的技术&#xff0c;其核心目的是通过向量表示捕捉数据之间的语义或特征关系。以下从原理、方法和应用三个方面详细解释Embedding的工作原理。 一、Embe…

2025年1月22日(网络编程 udp)

系统信息&#xff1a; ubuntu 16.04LTS Raspberry Pi Zero 2W 系统版本&#xff1a; 2024-10-22-raspios-bullseye-armhf Python 版本&#xff1a;Python 3.9.2 已安装 pip3 支持拍摄 1080p 30 (1092*1080), 720p 60 (1280*720), 60/90 (640*480) 已安装 vim 已安装 git 学习…

ios swift画中画技术尝试

继上篇&#xff1a;iOS swift 后台运行应用尝试失败-CSDN博客 为什么想到画中画&#xff0c;起初是看到后台模式里有一个picture in picture&#xff0c;去了解了后发现这个就是小窗口视频播放&#xff0c;方便用户执行多任务。看小窗口视频的同时&#xff0c;可以作其他的事情…

ArkTS高性能编程实践

文章目录 概述声明与表达式函数数组异常 概述 本文主要提供应用性能敏感场景下的高性能编程的相关建议&#xff0c;助力开发者开发出高性能的应用。高性能编程实践&#xff0c;是在开发过程中逐步总结出来的一些高性能的写法和建议&#xff0c;在业务功能实现过程中&#xff0…

阿里新发的大模型Qwen2.5-max如何?

阿里新发布的大模型Qwen2.5-Max是一款性能卓越、技术先进的大型语言模型&#xff0c;其在多个方面展现了突出的表现。以下是基于我搜索到的资料对Qwen2.5-Max的详细评价&#xff1a; 技术特点 超大规模预训练数据&#xff1a;Qwen2.5-Max采用了超过20万亿tokens的超大规模预训…

走向基于大语言模型的新一代推荐系统:综述与展望

HightLight 论文题目&#xff1a;Towards Next-Generation LLM-based Recommender Systems: A Survey and Beyond作者机构&#xff1a;吉林大学、香港理工大学、悉尼科技大学、Meta AI论文地址&#xff1a; https://arxiv.org/abs/2410.1974 基于大语言模型的下一代推荐系统&…

第1章 量子暗网中的血色黎明

月球暗面的危机与阴谋 量子隧穿效应催生的幽蓝电弧&#xff0c;于环形山表面肆意跳跃&#xff0c;仿若无数奋力挣扎的机械蠕虫&#xff0c;将月球暗面的死寂打破&#xff0c;徒增几分诡异。艾丽伫立在被遗弃的“广寒宫”量子基站顶端&#xff0c;机械义眼之中&#xff0c;倒映着…

MCU内部ADC模块误差如何校准

本文章是笔者整理的备忘笔记。希望在帮助自己温习避免遗忘的同时&#xff0c;也能帮助其他需要参考的朋友。如有谬误&#xff0c;欢迎大家进行指正。 一、ADC误差校准引言 MCU 片内 ADC 模块的误差总包括了 5 个静态参数 (静态失调&#xff0c;增益误差&#xff0c;微分非线性…

【Rust自学】15.4. Drop trait:告别手动清理,释放即安全

喜欢的话别忘了点赞、收藏加关注哦&#xff0c;对接下来的教程有兴趣的可以关注专栏。谢谢喵&#xff01;(&#xff65;ω&#xff65;) 15.4.1. Drop trait的意义 类型如果实现了Drop trait&#xff0c;就可以让程序员自定义当值离开作用域时发生的操作。例如文件、网络资源…

【Block总结】CPCA,通道优先卷积注意力|即插即用

论文信息 标题: Channel Prior Convolutional Attention for Medical Image Segmentation 论文链接: arxiv.org 代码链接: GitHub 创新点 本文提出了一种新的通道优先卷积注意力&#xff08;CPCA&#xff09;机制&#xff0c;旨在解决医学图像分割中存在的低对比度和显著…

信息学奥赛一本通 1607:【 例 2】任务安排 2 | 洛谷 P10979 任务安排 2

【题目链接】 ybt 1607&#xff1a;【 例 2】任务安排 2 洛谷 P10979 任务安排 2 注&#xff1a;ybt1607中n最大达到 1 0 4 10^4 104&#xff0c;洛谷P10979中n最大达到 3 ∗ 1 0 5 3*10^5 3∗105&#xff0c;本题解统一认为n最大达到 3 ∗ 1 0 5 3*10^5 3∗105。 【题目考点…

OFDM系统仿真

1️⃣ OFDM的原理 1.1 介绍 OFDM是一种多载波调制技术&#xff0c;将输入数据分配到多个子载波上&#xff0c;每个子载波上可以独立使用 QAM、PSK 等传统调制技术进行调制。这些子载波之间互相正交&#xff0c;从而可以有效利用频谱并减少干扰。 1.2 OFDM的核心 多载波调制…

【Go语言圣经】第四节:复合数据类型

第四章&#xff1a;复合数据类型 本节主要讨论四种类型——数组、slice、map和结构体。 数组和结构体都是有固定内存大小的数据结构。相比之下&#xff0c;slice 和 map 则是动态的数据结构&#xff0c;它们可以根据需要动态增长。 4.1 数组 数组是一个定长的由特定类型元素…

完美还是完成?把握好度,辨证看待

完美还是完成&#xff1f; 如果说之前这个答案有争议&#xff0c;那么现在&#xff0c;答案毋庸置疑 ■为什么完美大于完成 ●时间成本&#xff1a; 做事不仅要考虑结果&#xff0c;还要考虑时间和精力&#xff0c;要说十年磨一剑的确质量更好&#xff0c;但是现实没有那么多…

Many Whelps! Handle It! (10 player) Many Whelps! Handle It! (25 player)

http://db.nfuwow.com/80/?achievement4403 http://db.nfuwow.com/80/?achievement4406 最少扣你50DKP! 第二阶段 当奥妮克希亚升空后&#xff0c;在10秒内引出50只奥妮克希亚雏龙&#xff0c;随后击败奥妮克希亚。 World of Warcraft [CLASSIC][80猎人][Grandel][最少扣你5…