PointVLA:将 3D 世界注入视觉-语言-动作模型

news2025/3/20 14:34:00

25年3月来自美的集团、上海大学和华东师大的论文“PointVLA: Injecting the 3D World into Vision-Language-Action Models”。

视觉-语言-动作 (VLA) 模型利用大规模 2D 视觉语言预训练,在机器人任务方面表现出色,但它们对 RGB 图像的依赖,限制对现实世界交互至关重要的空间推理。使用 3D 数据重训练这些模型在计算上是无法承受的,而丢弃现有的 2D 数据集会浪费宝贵的资源。为了弥补这一差距,PointVLA,使用点云输入增强预训练 VLA,无需重训练。其方法冻结原始动作专家并通过轻量级模块化块注入 3D 特征。为了确定集成点云表示的最有效方法,进行跳-块分析,以精确定位原始动作专家中不太有用的块,确保仅将 3D 特征注入这些块中,从而最大限度地减少对预训练表示的干扰。

大量实验表明,在模拟和现实世界的机器人任务中,PointVLA 的表现都优于最先进的 2D 模仿学习方法,例如 OpenVLA [25]、Diffusion Policy [9] 和 DexVLA [46]。具体来说,强调点云集成带来的 PointVLA 的几个关键优势:(1)少样本多任务处理,PointVLA 成功执行四种不同的任务,每种任务仅使用 20 次演示;(2)真实-与-照片区分,PointVLA 可以区分真实物体与其图像,利用 3D 世界知识提高安全性和可靠性;(3)高度适应性,与传统的 2D 模仿学习方法不同,PointVLA 使机器人能够适应训练数据中未见过的不同桌子高度物体。此外,PointVLA 在长距离任务中表现出色,例如从移动的传送带上拾取和包装物体,展示其在复杂动态环境中泛化的能力。

机器人基础模型,特别是视觉-语言-动作 (VLA) 模型 [4, 5, 25, 45, 46],在使机器人能够感知、理解和与物理世界交互方面表现出色。这些模型利用预训练的视觉语言模型 (VLM) [3, 8, 20, 30, 42] 作为处理视觉和语言信息、将它们嵌入到共享表示空间中,然后将它们转化为机器人动作的主干。此过程使机器人能够以有意义的方式与其环境交互。VLA 模型的强度在很大程度上取决于其训练数据的规模和质量。例如,Open-VLA [25] 是在 4000 小时的开源数据集上训练的,而更先进的模型(如 π0)则利用 10000 小时的专有数据,从而显著提高性能。除了这些大规模基础模型外,许多项目还贡献了大量数据集,这些数据集是从现实世界中人类在物理机器人上的演示中收集的。例如,AgiBot-World [6] 发布包含数百万条轨迹的庞大数据集,展示复杂的人形交互。这些预训练的 VLA 模型以及开源机器人数据集通过提供大量多样化和高质量的训练数据,显著提高机器人学习能力。

尽管取得了这些进步,但大多数现有的机器人基础模型 [4、5、21、25、46] 都是基于 2D 视觉输入进行训练的 [23、35]。这是一个关键的限制,因为人类以三维方式感知世界并与世界交互。训练数据中缺乏全面的 3D 空间信息,阻碍了机器人对其环境形成深刻理解的能力。这对于需要精确空间-觉察、深度感知和物体操控的任务尤其重要。许多组织已经在基础 VLA 模型和大规模 2D 机器人数据集上投入大量资金。使用 3D 数据从头开始重训练这些模型在计算上是无法承受的,而丢弃有价值的 2D 机器人数据是不切实际的。因此,探索能够将额外的 3D 输入集成到现有基础机器人模型中的新框架至关重要,这是以前的文献中尚未充分探索的研究领域。

视觉-语言-动作模型。最近的研究越来越关注开发在大规模机器人学习数据集上训练的通用机器人策略 [11、14、23、27、35]。视觉-语言-动作 (VLA) 模型已成为训练此类策略的一种有前途的方法 [4、9、12、13、24、33、36、40、45、46、48、54、55]。VLA 将视觉语言模型 (VLM)(在大规模互联网规模的图像和文本数据集上进行预训练 [1、8、20、28-30、42、53、58、59])扩展到机器人控制 [44]。这种方法有几个关键优势:利用具有数十亿个参数的大规模视觉-语言模型主干,可以从庞大的机器人数据集中有效学习,同时重用来自互联网规模数据的预训练权重,可以增强 VLA 解释各种语言命令和推广到新目标和环境的能力,使其高度适应现实世界的机器人应用。

使用 3D 模态的机器人学习。在 3D 场景中学习稳健的视觉运动策略 [7、15-17、19、22、37、39、41、49-52] 是机器人学习中的一个重要领域。现有的方法(如 3DVLA [17])已提出综合框架,将各种 3D 任务(如泛化、视觉问答 (VQA)、3D 场景理解和机器人控制)集成到统一的视觉-语言-动作模型中。然而,3DVLA 的一个局限性是它依赖于机器人控制实验的模拟,这带来巨大的模拟与现实之间的差距。其他研究(如 3D 扩散策略 [51])已证明使用外部 3D 输入(例如来自外部摄像头)可以提高模型对不同光照条件和物体属性的泛化能力。 iDP3 [50] 进一步增强了 3D 视觉编码器并将其应用于人形机器人,在以自我为中心和外部摄像机视角的各种环境中实现稳健的性能。然而,丢弃现有的 2D 机器人数据或完全重训练基础模型并添加 3D 视觉输入将耗费大量计算资源。一个更实用的解决方案是开发一种方法,将 3D 视觉输入作为补充知识源,集成到经过良好预训练的基础模型中,从而在不影响训练模型性能的情况下获得新模态的好处。

PointVLA,就是一种将点云集成到预训练的视觉-语言-动作模型中的框架。如图所示:

请添加图片描述

视觉-语言-动作模型

视觉-语言-动作 (VLA) 模型正在推动现实世界机器人学习的重大转变。它们的力量源自底层的视觉-语言模型 (VLM),这是一个在庞大的互联网数据集上训练的强大主干。这种训练能够在共享的嵌入空间内有效地对齐图像和文本表示。VLM 充当模型的“大脑”,处理指令和当前视觉输入以了解任务状态。随后,“动作专家”模块将 VLM 的状态信息转化为机器人动作。这项工作建立在 DexVLA [46] 的基础上,它采用 20 亿参数的 Qwen2-VL [2, 43] VLM 作为其主干,采用 10 亿参数的 ScaleDP [57](扩散策略变型)作为其动作专家。 DexVLA 经历三个训练阶段:100 小时的跨具身训练阶段(第 1 阶段),随后是具身训练(第 2 阶段),以及针对复杂任务的可选任务特定训练(第 3 阶段)。所有三个阶段都使用 2D 视觉输入。

将点云注入 VLA

动机。如前所述,视觉-语言-动作 (VLA) 模型通常在大型 2D 机器人数据集上进行预训练。现有 2D 预训练语料库和新兴 3D 机器人数据集之间的数据规模存在固有差异。具体而言,假设 3D 传感器数据(例如点云、深度图)的体量比 2D 视觉语言数据集小几个数量级,这是由于机器人研究历史上广泛关注 2D 感知。这种差异需要一种方法来保留从 2D 预训练中学到的丰富视觉表征,同时有效地集成稀疏的 3D 数据。

解决这一挑战的一个简单策略,是将 3D 视觉输入直接转换为 3D 视觉 token,并将它们混合到大语言模型 (LLM) 中 - 一种流行的方法,已被许多 3DVLM(例如 LLaVA-3D [56])所利用。然而,当前的视觉语言模型在小规模 3D 数据集上进行微调时表现出有限的 3D 理解能力,这一限制因两个因素而加剧:(1)2D 像素和 3D 几何结构之间存在巨大的域差距,(2)与丰富的图像文本和纯文本语料库相比,高质量 3D 文本配对数据稀缺。为了规避这些问题,提出一种范式,将 3D 点云数据视为互补的调节信号而不是主要输入模态。该策略将 3D 处理与核心 2D 视觉编码器分离,从而保留预训练 2D 表示的完整性,同时使模型能够利用几何线索。通过设计,该方法可以减轻 2D 知识的灾难性遗忘,并降低对有限的 3D 数据过拟合的风险。如图(左)所示 PointVLA 框架:

请添加图片描述

点云注入器的模型架构。点云注入器的整体架构如上图(右)所示。具体来说,对于传入的点云嵌入,首先转换通道维度以匹配原始动作专家的通道维度。由于来自点云的动作嵌入可能很大(具体取决于块大小),设计一个动作嵌入颈来压缩来自动作专家的信息,同时将其与 3D 点云嵌入对齐。对于动作专家中选定的块,首先应用 MLP 层作为每个块的适配器,然后执行加法操作将点云嵌入注入模型。

注:避免将 3D 特征注入动作专家的每个块,主要有两个原因。首先,由于所需的调节块,计算成本会过高。其次,注入不可避免地会改变受影响块的模型表示。鉴于目标是尽量减少有限的 3D 视觉知识对从 2D 视觉输入中得出的预训练动作嵌入干扰,分析确定在推理过程中可以跳过而不会影响性能的块。随后,仅将 3D 特征注入这些不太关键的块中。

点云编码器。与 DP3 [51] 和 iDP3 [50] 中的观察结果一致,预训练的 3D 视觉编码器会阻碍性能,通常会阻止机器人在新环境中成功学习行为。因此,采用简化的分层卷积架构。上层卷积层提取低级特征,而下层卷积块学习高级场景表示。层间采用最大池化以逐步降低点云密度。最后,将每个卷积块的特征嵌入连接成一个统一的嵌入,封装多级 3D 表示知识。保留提取的点云特征嵌入以供后续使用。该架构类似于 iDP3 编码器。注:采用更先进的点云编码器可以进一步提高模型性能。

将点云注入哪些块?跳-块分析

如前所述,将点云注入动作专家的每个块并不理想,因为它会增加计算成本并破坏从大量基于 2D 视觉的机器人数据中学习的原始动作表示。因此,分析动作专家中哪些块不太重要 - 即那些可以在推理过程中跳过而不会影响性能的块。这种方法在概念上与图像生成、视觉模型和大语言模型中使用的技术一致 [10, 18, 26, 38]。具体来说,用 DexVLA [46] 中的衬衫折叠任务作为分析的案例研究。回想一下,DexVLA 配备 10 亿参数动作专家和 32 个扩散Transformer块。评估遵循相同的指标——平均分数,这是长期任务的标准衡量标准 [4, 31, 46]——将任务分为多个步骤,并根据步骤完成情况评估性能。从一次跳过一个块开始,并在下图中总结规律。

请添加图片描述

在上图(上部分)中说明结果。实验表明,前 11 个块对模型至关重要——跳过其中任何一个都会导致性能显着下降。具体而言,当跳过第 11 层之前的块时,夹持器无法紧密闭合,这使得模型难以完成任务。但是,从第 11 个块开始,跳过单个块变得可以接受,直到最后一个块。这表明训练后第 11 到第 31 个块对性能的贡献较小。为了进一步研究哪些块适合点云注入,从第 11 个块开始进行多块跳分析,如上图(下部分)所示。在模型完成任务之前,最多可以跳过五个连续的块,否则模型会失败。这表明,可以通过特定块选择性地将 3D 表示注入到动作专家中,从而优化效率,而不会显著影响性能。因此,将所有 3D 条件块设置为在引入新数据时可训练。冻结原始动作专家中的所有模块,但最后的层除外,这些层会进行调整以适应具体化的输出。最终,只训练五个额外的注入块,它们在推理过程中重量轻且速度快,使方法具有很高的成本效益。

在这项工作中,在两种具身中进行真实的机器人实验:
• 双手 UR5e。两个 UR5e 机器人,每个机器人都配有 Robotiq 平行钳口夹持器和腕式摄像头。两个手臂之间放置了一个自上而下的摄像头。此设置共有三个摄像头视图和一个 14 维配置和动作空间。数据以 15Hz 的频率收集。用 RealSense D435i 摄像头作为腕式摄像头。
• 双手 AgileX。两个 6-DoF AgileX 手臂,每个手臂都配有一个腕式摄像头和一个底座摄像头。此设置具有 14 维配置和动作空间,总共由三个摄像头支持。数据以 30Hz 的频率收集。用 RealSense D435i 摄像头作为腕式摄像头。

用 RealSense L515 摄像头收集点云。将 VLM 模型设置为可训练,因为模型需要学习新的语言指令。对于这两个实验,使用 DexVLA [46] 中第 1 阶段预训练的权重,并对模型进行微调。用与 DexVLA 第 2 阶段训练相同的训练超参,并使用最后一个检查点进行评估以避免挑选。将所有任务的块大小设置为 50。

在实验中,与许多最先进的模型进行比较,包括扩散策略 (DP) [9]、3D 扩散策略 (DP3) [51]、ScaleDP-1B [57](将扩散策略扩展为 1B 参数的变型)、Octo [34]、OpenVLA [25] 和 DexVLA [46]。注:由于 PointVLA 建立在 DexVLA 之上,因此 DexVLA 可以看作是提出的 PointVLA 的消融,而无需结合 3D 点云数据。

对 PointVLA 进行微调,使其适应长距离包装任务,如图所示。这是一项极具挑战性的任务,原因如下。首先,装配线处于运动状态,需要机器人快速准确地抓取物体。其次,此场景中的实施与预训练数据中的实施不同,需要快速适应全新的设置。第三,作为一项长距离任务,机器人必须依次拾取和放置两袋洗衣粉,然后密封包装箱。这些复杂性使得任务要求极高。

请添加图片描述

关于传统的多任务处理任务,如图所示,为真实世界实验设计四个小样本任务:充电手机、擦拭盘子、放置面包、运输水果。物体被随机放置在一个小范围内,报告每种方法的平均成功率。1)充电手机:机器人拿起智能手机并将其放在无线充电器上。手机的大小考验动作的精确度,而它的易碎性需要小心处理。2)擦拭盘子:机器人同时拿起海绵和盘子,用海绵擦拭盘子,评估双手操作技能。3)放置面包:机器人拿起一块面包并将其放在盘子上。面包下面的薄泡沫层确保高度泛化测试。4)运输水果:机器人拿起一根随机放置的香蕉并将其放在位于中心位置的盒子里。

请添加图片描述

由于方法旨在验证模型的少样本多任务处理能力,为每个任务收集 20 个演示,总共 80 个演示。物体的位置在一个小空间内随机化。这些任务评估模型在不同场景中管理独立和协调机器人运动的能力。所有数据均使用 30Hz 收集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2318421.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-MVC配置类与 Controller 的扫描

文章目录 前言一、自动配置类位置二、自动配置类解析2.1 WebMvcAutoConfiguration2.1.1 EnableWebMvcConfiguration 2.2 DispatcherServletAutoConfiguration 三、RequestMapping 的扫描过程3.1 RequestMappingHandlerMapping#afterPropertiesSet3.2 RequestMappingHandlerMapp…

企业年度经营计划制定与管理方法论(124页PPT)(文末有下载方式)

资料解读:企业年度经营计划制定与管理方法论 详细资料请看本解读文章的最后内容。 在企业的发展进程中,年度经营计划的制定与管理至关重要,它犹如企业前行的导航图,指引着企业在复杂多变的市场环境中稳健发展。这份《企业年度经营…

基于微信小程序的充电桩管理系统

一、开发背景 在开发充电汽车管理系统之前,深入的需求分析至关重要。我们要充分了解不同用户群体的需求,比如私家车主希望充电过程便捷、高效、安全,能够实时查看充电状态和费用明细;出租车、网约车司机则更注重充电速度和充电桩…

算法模型从入门到起飞系列——递归(探索自我重复的奇妙之旅)

文章目录 前言一、递归本质1.1 递归的要素1.2 递归特点 二、递归&迭代2.1 递归&迭代比较2.2 递归&迭代如何实现相同功能2.2.1 递归实现2.2.2 迭代实现2.2.3 性能对比 三、优雅的递归理解3.1 阶乘计算分解3.2 [DFS](https://blog.csdn.net/qq_38315952/article/deta…

YOLO+OpenCV强强联手:高精度跌倒检测技术实战解析

目录 关于摔倒检测 摔倒检测核心逻辑 摔倒检测:联合多种逻辑判断 原理详细解释 1. 导入必要的库 2. 定义函数和关键点连接关系 3. 筛选有效关键点并计算边界框 4. 计算人体上下半身中心点和角度 5. 绘制关键点和连接线 6. 绘制角度标注和检测跌倒 7. 返回处理后的图…

麒麟银河V10服务器RabbitMQ安装

安装步骤 rabbitMQ依赖于erlang的环境,所以需要先安装erlang,erlang跟rabbitMQ是有版本之间的关联关系的,根据对应的版本去安装下载,保证少出问题。 可以通过官网来查看RabbitMQ和erlang之间的版本对应关系 rabbitMQ和erlang之间…

extern和static的作用(有例子)

一、extern extern的作用 声明而非定义 extern告诉编译器某个变量或函数存在于其他地方(通常是另一个源文件),当前只是声明它,而不是定义它(分配内存)。定义只能在一个地方出现,而声明可以多次…

【8】分块学习笔记

前言 分块是一种重要的高级数据结构思想,核心为大段维护,局部朴素。 顺带一提,由于个人技术水平,本篇博客的难度并没有标题所述的 8 8 8 级。分块还是很难的。 分块 分块,是“优雅的暴力”。 分块的基本思想是把数据分为若干…

【蓝桥杯】省赛:分糖果(思维/模拟)

思路 数据很小,直接暴力模拟。 有意思的是一个列表如何当成循环队列写?可以arr[(i1)%n]让他右边超出时自动回到开头。 code import os import sysn int(input()) arr list(map(int,input().split()))ans 0 while 1:arr1 arr.copy()for i in range…

进程间通信(1)——管道

1. 进程间通信简介 进程间通信(Inter-Process Communication,IPC)是指不同进程之间交换数据的机制。由于进程具有独立的地址空间,它们无法直接访问彼此的数据,因此需要IPC机制来实现信息共享、数据传递或同步操作。 …

【正点原子K210连载】第七十六章 音频FFT实验 摘自【正点原子】DNK210使用指南-CanMV版指南

第七十六章 音频FFT实验 本章将介绍CanMV下FFT的应用,通过将时域采集到的音频数据通过FFT为频域。通过本章的学习,读者将学习到CanMV下控制FFT加速器进行FFT的使用。 本章分为如下几个小节: 32.1 maix.FFT模块介绍 32.2 硬件设计 32.3 程序设…

【杂记二】git, github, vscode等

一、前言 暂时空着... 二、git 2.1 可能的疑问 1. VSCode 项目名和 GitHub 仓库名是否需要一致? 不需要一致。 VSCode 项目名(也就是你本地的文件夹名字)和 GitHub 仓库名可以不一样。 Git 是一个分布式版本控制系统,它主要关…

《基于Spring Boot+Vue的智慧养老系统的设计与实现》开题报告

个人主页:@大数据蟒行探索者 一、研究背景及国内外研究现状 1.研究背景 根据1982年老龄问题世界大会联合国制定的标准,如果一个国家中超过65岁的老人占全国总人口的7%以上,或者超过60岁的老人占全国总人口的10%以上,那么这个国家将被定义为“老龄化社会”[1]。 随着国…

ModBus TCP/RTU互转(主)(从)|| Modbus主动轮询下发的工业应用 || 基于智能网关的串口服务器进行Modbus数据收发的工业应用

目录 前言 一、ModBus TCP/RTU互转(从)及应用|| 1.1 举栗子 二、ModBus TCP/RTU互转(主) 2.1 举栗子 三、ModBus 主动轮询 3.1 Modbus主动轮询原理 3.2 Modbus格式上传与下发 3.2.1.设置Modbus主动轮询指令 3.2.2 设…

【HarmonyOS Next之旅】DevEco Studio使用指南(三)

目录 1 -> 一体化工程迁移 1.1 -> 自动迁移 1.2 -> 手动迁移 1.2.1 -> API 10及以上历史工程迁移 1.2.2 -> API 9历史工程迁移 1 -> 一体化工程迁移 DevEco Studio从 NEXT Developer Beta1版本开始,提供开箱即用的开发体验,将SD…

冯・诺依曼架构深度解析

一、历史溯源:计算机科学的革命性突破 1.1 前冯・诺依曼时代 在 1940 年代之前,计算机领域呈现 "百家争鸣" 的格局: 哈佛 Mark I(1944):采用分离的指令存储与数据存储ENIAC(1946&a…

C++ 语法之函数和函数指针

在上一章中 C 语法之 指针的一些应用说明-CSDN博客 我们了解了指针变量&#xff0c;int *p;取变量a的地址这些。 那么函数同样也有个地址&#xff0c;直接输出函数名就可以得到地址&#xff0c;如下&#xff1a; #include<iostream> using namespace std; void fun() …

网络协议抓取与分析(SSL Pinning突破)

1. 网络协议逆向基础 1.1 网络协议分析流程 graph TD A[抓包环境配置] --> B[流量捕获] B --> C{协议类型} C -->|HTTP| D[明文解析] C -->|HTTPS| E[SSL Pinning突破] D --> F[参数逆向] E --> F F --> G[协议重放与模拟] 1.1.1 关键分析目标…

蓝桥杯真题——洛谷Day13 找规律(修建灌木)、字符串(乘法表)、队列(球票)

目录 找规律 P8781 [蓝桥杯 2022 省 B] 修剪灌木 字符串 P8723 [蓝桥杯 2020 省 AB3] 乘法表 队列 P8641 [蓝桥杯 2016 国 C] 赢球票 找规律 P8781 [蓝桥杯 2022 省 B] 修剪灌木 思路&#xff1a;对某个特定的点来说有向前和向后的情况&#xff0c;即有向前再返回到该位置…

【2025】基于Springboot + vue实现的毕业设计选题系统

项目描述 本系统包含管理员、学生、教师三个角色。 管理员角色&#xff1a; 用户管理&#xff1a;管理系统中所有用户的信息&#xff0c;包括添加、删除和修改用户。 配置管理&#xff1a;管理系统配置参数&#xff0c;如上传图片的路径等。 权限管理&#xff1a;分配和管理…