论文阅读笔记——PointVLA: Injecting the 3D World into Vision-Language-Action Models

论文阅读笔记——PointVLA: Injecting the 3D World into Vision-Language-Action Models

news2026/2/13 14:14:21

PointVLA 论文

现有的 VLA 基于 2D 视觉-语言数据表现良好但缺乏 3D 几何先验导致空间推理缺陷。传统方案：1）3D->2D 投影，造成几何信息损失；2）3D 数据集少。PointVLA 保留原有 VLA，提取点云特征，向 Action Expert 的非关键层注入几何特征（跳连分析）。“分治”。

在这里插入图片描述
选择性三维注入：

全模块注入会导致大量额外计算，选择性注入在少数层增加 MLP + 特征加和
保持实时性
盲目注入 3D 特征会破坏 2D 的预训练知识
全模块注入可能导致过拟合

DP3 与 iDP3 中发现预训练的 3D 视觉编码器阻碍性能提升，采用层级卷积。
在这里插入图片描述
通过平均分数（长期任务的评定标准）对跳过块进行分析，以 DexVLA 为例：前 11 个块很重要，跳过任何一个都会导致性能显著下降，即 11-31 块对性能贡献度较小。
只训练 5 个额外的注入块，性价比最高。

实验结果

在模拟和真实世界环境中的实验证明了PointVLA的有效性，它实现了少样本多任务学习（每个任务仅用20个演示样本完成4个任务），并在动态物品包装等长视野任务中表现卓越。在双手机器人（UR5e和AgileX机械臂）上的真实世界测试进一步验证了其实用性和安全性。
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2325288.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

在win11 环境下新安装 WSL ubuntu + 换国内镜像源 + ssh + 桌面环境 + Pyhton 环境 + vim 设置插件安装

在win11 环境下新安装 WSL ubuntu + 换国内镜像源 + ssh + 桌面环境 + Pyhton 环境 + vim 设置插件安装

在win11 环境下新安装 WSL ubuntu ssh gnome 桌面环境 Pyhton 环境 vim 设置插件安装简单介绍详细流程换国内镜像源安装 ssh 桌面环境python 环境vim 设置插件安装简单介绍内容有点长，这里就先简单描述内容了。主要是快速在 Win11 搭建一个 wsl 的 linux 环…

阅读更多...

基于springboot课程学习与互动平台(源码+lw+部署文档+讲解)，源码可白嫖!

基于springboot课程学习与互动平台(源码+lw+部署文档+讲解)，源码可白嫖!

摘要随着我国经济的高速发展与人们生活水平的日益提高，人们对生活质量的追求也多种多样。尤其在人们生活节奏不断加快的当下，人们更趋向于足不出户解决生活上的问题，线上管理系统展现了其蓬勃生命力和广阔的前景。与此同时，在此…

阅读更多...

通俗易懂的大模型原理

通俗易懂的大模型原理

十分钟揭秘DeepSeek原理，通俗易懂的大语言模型科普！_哔哩哔哩_bilibili 最基础原理，x是输入，y是输出。上百万和上百亿的参数将一句话转化为数字向量一句话就是向量矩阵输入矩阵和参数矩阵进行计算得出输出矩阵，因为…

阅读更多...

热门索尼S-Log3电影感氛围旅拍LUTS调色预设 Christian Mate Grab - Sony S-Log3 Cinematic LUTs

热门索尼S-Log3电影感氛围旅拍LUTS调色预设 Christian Mate Grab - Sony S-Log3 Cinematic LUTs

热门索尼S-Log3电影感氛围旅拍LUTS调色预设 Christian Mate Grab – Sony S-Log3 Cinematic LUTs 我们最好的 Film Look S-Log3 LUT 的集合，适用于索尼无反光镜相机。无论您是在户外、室内、风景还是旅行电影中拍摄，这些 LUT 都经过优化，可为…

阅读更多...

【jQuery】插件

【jQuery】插件

目录一、 jQuery插件 1. 瀑布流插件： jQuery 之家 http://www.htmleaf.com/ 2. 图片懒加载： jQuery 插件库 http://www.jq22.com/ 3. 全屏滚动总结不易~ 本章节对我有很大收获，希望对你也是~~~ 一、 jQuery插件 jQuery 功能…

阅读更多...

MATLAB导入Excel数据

MATLAB导入Excel数据

假如Excel中存在三列数据需要导入Matlab中。保证该Excel文件与Matlab程序在同一目录下。 function [time, voltage, current] test(filename)% 读取Excel文件并提取时间、电压、电流数据% 输入参数:% filename: Excel文件名（需包含路径，如C:\data\…

阅读更多...

孤码长征：破译PCL自定义点云注册机制源码迷局——踩坑实录与架构解构

孤码长征：破译PCL自定义点云注册机制源码迷局——踩坑实录与架构解构

在之前一个博客《一文搞懂PCL中自定义点云类型的构建与函数使用》中，清晰地介绍了在PCL中点云的定义与注册方法。我的一个读者很好奇其内部注册的原理以及机制，再加上最近工作中跟猛男开发自定义点云存储的工作，借着这些需求，我也…

阅读更多...

Centos 7 搭建 jumpserver 堡垒机

Centos 7 搭建 jumpserver 堡垒机

jumpserver 的介绍 1、JumpServer 是完全开源的堡垒机, 使用 GNU GPL v2.0 开源协议, 是符合4A 的专业运维审计系统 1)身份验证 / Authentication 2)授权控制 / Authorization 3)账号管理 / Accounting 4)安全审计 / Auditing 2、JumpServer 使用 Python / Django 进行开…

阅读更多...

封装了一个优雅的iOS全屏侧滑返回工具

封装了一个优雅的iOS全屏侧滑返回工具

思路添加一个全屏返回手势，UIPangesturerecognizer, 1 手势开始在手势开始响应的时候，将navigationController的delegate代理设置为工具类，在工具类中执行代理方法，- (nullable id )navigationController:(UINavigationControll…

阅读更多...

HCIP-6 DHCP

HCIP-6 DHCP

HCIP-6 DHCP DHCP（Dynamic Host Configuration Protocol，动态主机配置协议） 手工配置网络参数存在的问题灵活性差容易出错 IP地址资源利用率低工作量大人员素质要求高 DHCP服务器按照如下次序为客户端选择IP地址: ①DHCP服务器的数…

阅读更多...

opencv图像处理之指纹验证

opencv图像处理之指纹验证

一、简介在当今数字化时代，生物识别技术作为一种安全、便捷的身份验证方式，正广泛应用于各个领域。指纹识别作为生物识别技术中的佼佼者，因其独特性和稳定性，成为了众多应用场景的首选。今天，我们就来深入探讨如何利…

阅读更多...

记一道CTF题—PHP双MD5加密+”SALT“弱碰撞绕过

记一道CTF题—PHP双MD5加密+”SALT“弱碰撞绕过

通过分析源代码并找到绕过限制的方法，从而获取到flag！ 部分源码： <?php $name_POST[username]; $passencode(_POST[password]); $admin_user "admin"; $admin_pw get_hash("0e260265122865008095838959784793");…

阅读更多...

机器学习的一百个概念（3）上采样

机器学习的一百个概念（3）上采样

前言本文隶属于专栏《机器学习的一百个概念》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！ 本专栏目录结构和参考文献请见[《机器学习的一百个概念》 ima 知识库知识库广场搜索&…

阅读更多...

分秒计数器设计

分秒计数器设计

一、在VsCode中写代码目录一、在VsCode中写代码二、在Quartus中创建工程与仿真 1、建立工程项目文件md_counter 2、打开项目文件，创建三个目录 3、打开文件trl，创建md_counter.v文件 4、打开文件tb，创建md_counter_tb.v文件 5、用VsCod…

阅读更多...

Flink介绍——发展历史

Flink介绍——发展历史

引入我们整个大数据处理里面的计算模式主要可以分为以下四种： 批量计算（batch computing） MapReduce Hive Spark Flink pig流式计算（stream computing） Storm SparkStreaming/StructuredStreaming Flink Samza交互计…

阅读更多...

12. STL的原理

12. STL的原理

目录 1. 容器、迭代器、算法什么是迭代器? 迭代器的作用？ 迭代器的类型？ 迭代器失效迭代器的实现细节： 2. 适配器什么是适配器？ 适配器种类： 3. 仿函数什么是仿函数？ 仿函数与算法和容器的…

阅读更多...

OSPFv3 的 LSA 详解

OSPFv3 的 LSA 详解

一、复习： OSPFv3 运行于 IPv6 协议上，所以是基于链路，而不是基于网段，它实现了拓扑和网络的分离。另外，支持一个链路上多个进程；支持泛洪范围标记和泛洪不识别的报文（ospfv2 的行为是丢弃&…

阅读更多...

python 原型链污染学习

python 原型链污染学习

复现SU的时候遇到一道python原型链污染的题，借此机会学一下参考： 【原型链污染】Python与Jshttps://blog.abdulrah33m.com/prototype-pollution-in-python/pydash原型链污染文章目录基础知识对父类的污染命令执行对子类的污染pydash原型链污染打污染的…

阅读更多...

入栈操作-出栈操作

入栈操作-出栈操作

入栈操作其入栈操作汇编代码流程解析如下： 出栈操作其出栈操作汇编代码流程解析如下：

阅读更多...

C++ 多态：面向对象编程的核心概念（一）

C++ 多态：面向对象编程的核心概念（一）

文章目录引言1. 多态的概念2. 多态的定义和实现2.1 实现多态的条件2.2 虚函数2.3 虚函数的重写/覆盖2.4 虚函数重写的一些其他问题2.5 override 和 final 关键字2.6 重载/重写/隐藏的对比 3. 纯虚函数和抽象类引言多态是面向对象编程的三大特性之一（封装、继承、…

阅读更多...

推荐文章

最新文章