HiRT | 异步控制策略,告别VLA时延问题

news2024/10/12 3:19:43

论文:HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers

前言:HiRT 通过异步处理的策略,将 VLM 作为低频慢思考过程,将轻量的动作策略模型作为高频快响应过程 ,以此解决 VLA 驱动带来的控制时延问题。这是本菜看的第一篇具身智能相关的论文,理解总结不当处欢迎批评指正!


01 模型动机

研究背景:Large Vision-Language-Action (VLA),基于Large Vision-Language models (VLM) 的推理生成动作控制信息,以此通过语言指令让机器人完成特定任务。

研究问题:虽然拥有数十亿参数的 VLM 带来了卓越的泛化优势,但产生大量的计算负担。在部署过程中,它会导致控制推理速度低和延迟高的问题。算力负担导致的控制时延仍然是一个大问题

研究贡献:设计了一种新的快响应策略模型 HiRT:能够借助预训练 VLM 从多模态输入中提取丰富的语义表示,将这些表示应用于异步运行且独立于 VLM 的轻量级动作策略。控制频率提升一倍,甚至准确率也有略微提升,实物动态任务上准确率从48% →75%。


02 模型主体

2.1 核心思想

人类认知双重过程理论的启发(直觉型快思考,分析型慢思考)。在HiRT框架中,大型的视觉-语言模型(VLM)和轻量级的动作策略模型以不同的频率运行。VLM以较低频率运行,用于提取长期不变的特征,而动作策略模型则以较高频率运行,用于实时决策。这种设计允许模型在保持高性能的同时提高推理速度

  • 理解模块(长期场景理解,慢思考):InstructBLIP,一个预训练大预言模型。
  • 执行模块(短期场景认知,快思考):轻量的基于视觉的行动策略。

2.2 理解模块:VLM驱动的低频慢思考过程

使用一个预训练的视觉-语言模型(InstructBLIP),将视觉观察(图像)和语言指令转换为潜在特征。这些特征包含了输入数据的丰富语义信息,并能够捕捉长期场景理解所需的信息,是任务规划必须依赖的高级特征。

2.3 执行模块:轻量模型驱动的高频快思考过程

Latent-Conditioned model == Lower-Level policy == Latent-Conditioned Policy

上述都是论文中出现的关键词,其实都在描述同一个东西:高频轻量模型,用于快速响应,输出动作决策。模型包括 Vision Encoder 和 Action Head,参数量小适合高速推理。此处需要关注的核心是,该模块如何使用 VLM 产生的特征。

VLM编码多模态信息并将其存储在缓存中。轻量级策略使用缓存中的最新潜在变量(高级特征)快速输出动作,从而避免了由于VLM较慢的推理速度而导致的延迟。同时,为了实现特征的条件调整,以更好地利用 VLM 得到的特征信息,同时文章使用了三种方法:FiLM、 Cross-Attention、 Prefix Tuning。

2.4 对齐问题:如何解决异步操作导致的延迟对齐问题。

由于VLM和动作策略模型运行频率不同,动作策略模型在某一时刻使用的 VLM 提取的潜在变量(latent variables),可能实际上反映的是几秒钟前的场景和指令信息。这意味着,动作策略模型在做出决策时,所依据的信息可能已经过时了

在训练阶段,模型学习到的是从当前状态和最新的指令中提取特征并做出决策。然而,在实际应用中,由于潜在变量的延迟,动作策略模型可能不得不使用与训练时不一致的信息来做出决策。这种信息的不一致性,或者说“对齐问题”,可能会导致模型在实际应用中的表现不如训练过程。

为了解决这个问题,HiRT 框架在训练阶段随机选择过去观察上下文中的缓存信息,并使用相应的第三视角图像作为 VLM 的视觉输入。这样做可以增强模型对于时间不一致潜在变量的鲁棒性,即使在实际应用中遇到信息延迟的情况,也能保持较好的性能。简而言之,就是让模型在训练时就学会处理这种潜在的信息延迟,从而在实际使用中更加稳健。


03 实验效果 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2206721.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu22.04环境下源码安装OpenCV 4.8.1

因为项目需要用OpenCV对yolov8模型进行推理,通过DNN模块,之前本地的OpenCV版本是4.5.4(好像安装完ROS2 humble之后系统就自带了opencv),加载onnx模型一直报错,网上查询到需要4.7以上,干脆直接升…

vue3之依赖注入provide(提供)/inject(注入)

通常情况下,需要从父组件传值到子组件使用props足以,但是如果是深层嵌套的组件,如果某个深层的组件想要得到祖先组件的部分数据,使用props的话需要沿着各个嵌套的组件着层传递数据,而在传递过程中的组件压根就不需要使…

你了解 SpringBoot 在一次 http 请求中耗费了多少内存吗?

在实际工作中,经常会需要进行在全链路压测,优化 GC参数,优化 JVM 内存分配。 当知道 1 次 RPC 请求和 Http 请求需要的堆内存大小后,你可以精确地计算:指定的并发量之下,系统需申请多少堆内存。同时结合 J…

若依 根据角色权限 动态添加路由 学习

源于这个问题对若依权限改造的学习,用ASP.NET Core Web api 做后端,所以不是纯净的若依前端,有部分改过。 ​​​​​​​若依 从字典类型跳到字典数据跳到了404-CSDN博客 从路由守卫获取到用户信息开始,到路由跳转结束的过程 …

小猿搜题冲榜/刷排名/专用思路-理论速度1小时/3.6w分 附带0s教程

小猿搜题冲榜/刷排名/专用思路-理论速度1小时/3.6w分 附带0s教程 ⚠️:这个方法很多还需要手动操作,我目前无法用代码完全实现,如果你有兴趣可以给我提issue我们一起讨论。 冲榜思路 先说整体思路:抓包改答案adb模拟 之后详细…

10月更新|国内可用的ChatGPT攻略镜像中文网站

一、GPT中文镜像站 ① yixiaai.com 支持GPT4、4o以及o1,支持MJ绘画 ② chat.lify.vip 支持通用全模型,支持文件读取、插件、绘画、AIPPT ③ AI Chat支持GPT3.5/4,4o以及MJ绘画 1. 什么是镜像站 镜像站(Mirror Site&#xff0…

【GO基础学习】环境安装到基础语法(1)

文章目录 环境安装GoLand 安装GO基础GO特点类型和函数Init函数和main函数GO命令下划线变量和常量数组切片Slice 引用 环境安装 下载地址:https://www.golangroadmap.com/ 安装目录文件说明: api:每个版本的 api 变更差异。 bin&#xff1…

JAVA 字符串 trim() 方法的正确使用

JAVA类里面 trim() 方法大家都比较熟悉,就是用来清除掉字符串首尾的空白字符。但在一次程序运行崩溃后,查找具体原因时,发现是由字符串末尾的一个回车符号 "\r" 所导致的。于是有机会仔细读了下该方法的 java 文档说明。其中一段内…

Docker理念

1.为什么会出现Docker Docker 的出现并非偶然,而是由一系列技术发展趋势和实际需求所推动的一项技术创新。 随着软件行业的快速发展,开发团队的规模不断扩大,成员可能分布在不同的地理位置,使用不同的操作系统和开发工具。这就导致…

CSD(computational storage devices)架构介绍

CSD(computational storage devices)架构介绍 前言一、CSD与传统SSD的架构对比二、为什么要采用FPGA三、FPGA缺点四、个人总结reference 前言 虽然一直有接触CSD,但一直对其原理和架构知之甚少,半知不解。今天,趁着我还…

element-ui点击文字查看图片预览功能

今天做一个点击文字查看图片的功能&#xff0c;大体页面长这样子&#xff0c;点击查看显示对应的图片 引入el-image-viewer&#xff0c;点击的文字时候设置图片预览组件显示并传入图片的地址 关键代码 <el-link v-if"scope.row.fileList.length > 0" type&…

模型预测控制工具包——ACADO:简介、安装与测试

模型预测控制工具包——ACADO&#xff1a;简介、安装与测试 ACADO 工具包简介ubuntu20.04 安装 ACADO工具包安装依赖安装ACADOtoolkit 测试 ACADO 工具包简介 ACADO Toolkit 是一个用 C 编写的用于自动控制和动态优化的软件环境和算法集合。 它提供了一个通用框架&#xff0c;…

三菱FX3UPLC定位控制程序举例

测试程序的编写 1.输入输出的分配输入输出的分配如下表所示。 2、相关软元件的设定 相关软元件也有所不同。更改定位指令的脉冲输出端时&#xff0c;根因设定为定位指令的脉冲输出端的软元件不同&#xff0c;据更改的内容&#xff0c;需要变更设定的相关软元件。 3.程…

【大模型新书】掌握大语言模型:高级技术、应用、尖端方法和顶尖LLMs

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/93e5a5c008474f72a0335083ef9c4893.png)我已将 这本大模型书籍免费分享 出来&#xff0c;需要的小伙伴可以扫取。 主要特性 探索自然语言处理&#xff08;NLP&#xff09;基础和大语言模型基本原理&#xff0c;包括…

若依前端后打成一个JAR包部署

客户需要将项目前后端作为一个整体打包成jar&#xff0c;不使用nginx方式转发。使用框架是若依前后端分离&#xff0c;后端springboot&#xff0c;前端vue&#xff0c;目的就是把vue打入jar。 一、前端修改 ruoyi-ui/src/router/index.js文件 &#xff0c;将 mode: ‘history’…

一键生成二维码的源码系统 电脑+手机版自适应代码 带完整的安装代码包以及搭建部署教程

系统概述 一键生成二维码的源码系统是一款集二维码生成、管理和应用于一体的综合性平台。它采用先进的技术和算法&#xff0c;能够快速、准确地生成各种类型的二维码&#xff0c;包括文本、链接、图片等。同时&#xff0c;该系统还具备高度的灵活性和可扩展性&#xff0c;能够…

如何使用bpmn-js实现可视化流程管理

介绍 BPMN-JS是一个流行的开源库&#xff0c;用于在Web应用程序中可视化、创建、编辑和分析BPMN&#xff08;Business Process Model and Notation&#xff0c;业务流程建模与表示法&#xff09;2.0 图。BPMN是一种国际标准的图形化语言&#xff0c;用于描述企业中的业务流程&a…

mongodb 连接, 去重,索引

mongodb 去重,索引 MongoDB Community Server 下载: https://www.mongodb.com/try/download/community GUI: The Ultimate Client, IDE and GUI for MongoDB | Studio 3T 连接 设置允许远程(局域网)连接 (windows) 在打开文件 "<你的安装目录>\MongoDB\Server\…

k3s安装指定版本以及离线安装(docker)

首先下载你所需要版本的k3s安装包&#xff0c;目录结构如下所示&#xff0c;我这里是v1.19.15k3s2。 1.首先赋予可执行权限后进行安装。 # k3s 需要赋予可执行权限 sudo chmod x k3s sudo chmod x k3s-install.sh2.然后将k3s的二进制文件复制到/usr/local/bin/ cp k3s /us…

✨机器学习笔记(七)—— 交叉验证、偏差和方差、学习曲线、数据增强、迁移学习、精确率和召回率

机器学习笔记&#xff08;七&#xff09; 1️⃣评估模型&#x1f397;️使用测试集评估模型&#x1f397;️交叉验证集&#xff08;cross validation&#xff09; 2️⃣偏差和方差&#xff08;Bias / Variance&#xff09;3️⃣学习曲线&#xff08;Learning curves&#xff09…