论文阅读笔记——Reactive Diffusion Policy

news2025/4/15 22:20:54

RDP 论文

  • 通过 AR 提供实时触觉/力反馈;
  • 慢速扩散策略,用于预测低频潜在空间中的高层动作分块;快速非对称分词器实现闭环反馈控制。

ACT、 π 0 \pi_0 π0 采取了动作分块,在动作分块执行期间处于开环状态,无法及时响应环境变化,缺乏触觉输入,无法适应高精度(力控制)任务和及时响应。现有的触觉输入是侧重于观察方面,利用触觉输入提供视觉遮挡或接触状态判断等信息。在数据上,MTDP(Mixed-Teleoperation Demonstration Policy)通过增强现实(AR)技术实现了两大突破性改进:1)异构机器人兼容性 - 克服了传统ALOHA双边控制系统必须使用同构机器人的限制;2)成本优化 - 相比基于专业力/扭矩传感器的触觉反馈方案,显著降低了硬件成本。并且现有的触觉输入的方案均排除了视觉输入。

  • 力/扭矩传感器——直接测量末端或关节的力/扭矩数值,高速运动时噪声明显且成本高。
  • 触觉传感器
    • 电学式触觉传感器——通过电容、电阻等原理感知,空间分辨率较低,且少数型号能直接输出法向力与切向力,且需依赖力/扭矩传感器标定;
    • 光学式触觉传感器——通过相机捕捉凝胶变形的高分率图像,追踪凝胶表面的法向/剪切变形场,力/扭矩信息需通过剪切长间接表征
      MTDP 采取 GelSight Mini 和 MCTrac 两种光学式触觉传感器和机器臂关节扭矩传感器。将法向力、剪切力、视觉 RGB 输入输入为统一的 visual-tactile policy
      数据集为利用 GelSIght Mini 收集的 30min 的随机交互视频和使用 MCTrac 为剥皮任务收集的 60 次演示,为擦拭任务收集的 80 次演示,为双手抬举任务收集的 50 次演示。

TactAR

在这里插入图片描述

25 Hz 是因为限制于 GelSight 帧速率限制。

从二维光流推算力数据依赖传感器的标定,采用可视化三维变形场

  • 标记点提取:通过 OpenCV 从触觉图像 I t I_t It 中提取归一化标记点位置 D t D_t Dt
  • 光流计算:基于得分追踪算法(Gelsight SDK)计算初始帧 D 0 D_0 D0 与当前帧 D t D_t Dt 的二维光流 F t = [ d x , d y ] = F l o w ( D 0 , D t ) F_t=[d_x,d_y]=Flow(D_0,D_t) Ft=[dx,dy]=Flow(D0,Dt)
  • 三维变形场:将光流扩展为含 z 轴偏移 o z o_z oz 的三维变形场 V t = [ f x , f y , f z ] V_t=[f_x,f_y,f_z] Vt=[fx,fy,fz]
    通过 OpenCV 和轻量级追踪算法,规避传统光学传感器的依赖,直接力矢量渲染。

构建流程:使用 Meta Quest3 的 color passthrough 在 Unity 中创建 AR 场景 -> SLAM 实时跟踪头显和控制器位姿 -> 力矢量渲染 -> 根据机器人末端执行器(TCP)实时位姿,通过 ROS2 同步触觉数据、机器人状态和相机流

跟踪算法延迟 10ms,Quest3 渲染延迟 10ms,网络延迟 1-6ms,光学触觉传感器 10-60ms,力传感器延迟 1ms

RDP

在这里插入图片描述
VISK 通过聚合同一时间步的多次迭代的预测结果实现实时反馈,但削弱了策略对多模态分布和非马儿可夫动作的建模能力,且对平滑系数相当敏感。
AT 由一个 1D-CNN(建模时序性) 和 GRU decoder 组成。通过触觉序列 F r e d u c e d F^{reduced} Freduced (经过 PCA 降维后——光学触觉传感器的变形场可以被分解为几个高度可解释的独立成分)重建动作 A ^ = D ( c o n c a t ( [ Z , F r e d u c e d ] ) ) \hat{A}=\mathcal{D}\left(concat([\boldsymbol{Z},\boldsymbol{F}^{reduced}])\right) A^=D(concat([Z,Freduced])) ,采用 L1 重建损失和 Kullback-Leibler(KL)惩罚损失:(1ms)(通过插值的方式调整)
L A T = E A , F r e d u c e d ∈ D p o l i c y [ ∣ ∣ A − A ^ ∣ ∣ 1 + λ K L L K L ] L_{AT}=\mathbb{E}_{\boldsymbol{A},\boldsymbol{F}^{reduced}\in\mathcal{D}_{policy}}\left[||A-\hat{A}||_1+\lambda_{KL}L_{KL}\right] LAT=EA,FreducedDpolicy[∣∣AA^1+λKLLKL]
LDP 利用学习到的梯度场 ∇ E ( A ) \nabla E(A) E(A),通过随机 Langevin 动力学,以较低的频率预测动作。 (100ms)(DP 120ms)
L L D P = E ( O , A 0 ) ∈ D p o l i c y , k , ϵ k ∥ ϵ k − ϵ θ ( O , Z 0 + ϵ k , k ) ∥ 2 L_{LDP}=\mathbb{E}_{(\mathbf{O},\mathbf{A}^0)\in\mathcal{D}_{policy},k,\epsilon^k}\|\epsilon^k-\epsilon_\theta(\mathbf{O},\mathbf{Z}^0+\epsilon^k,k)\|_2 LLDP=E(O,A0)Dpolicy,k,ϵkϵkϵθ(O,Z0+ϵk,k)2
在这里插入图片描述
使用相对末端执行器轨迹进行动作表示,基准帧是动作块的最后一个观察帧,计算相对于基准帧的相对变换,将绝对轨迹转化为相对轨迹。

实验结果

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2334871.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ISIS协议(动态路由协议)

ISIS基础 基本概念 IS-IS(Intermediate System to Intermediate System,中间系统到中间系统)是ISO (International Organization for Standardization,国际标准化组织)为它的CLNP(ConnectionL…

UniApp 实现兼容 H5 和小程序的拖拽排序组件

如何使用 UniApp 实现一个兼容 H5 和小程序的 九宫格拖拽排序组件,实现思路和关键步骤。 一、完整效果图示例 H5端 小程序端 git地址 二、实现目标 支持拖动菜单项改变顺序拖拽过程实时预览移动位置拖拽松开后自动吸附回网格兼容 H5 和小程序平台 三、功能…

【网络协议】WebSocket讲解

目录 webSocket简介 连接原理解析: 客户端API 服务端API(java) 实战案例 (1)引入依赖 (2)编写服务端逻辑 (3)注册配置类 (4)前端连接 WebSocket 示例…

啥是Spring,有什么用,既然收费,如何免费创建SpringBoot项目,依赖下载不下来的解决方法,解决99%问题!

一、啥是Spring,为啥选择它 我们平常说的Spring指的是Spring全家桶,我们为什么要选择Spring,看看官方的话: 意思就是:用这个东西,又快又好又安全,反正就是好处全占了,所以我们选择它…

一天时间,我用AI(deepseek)做了一个配色网站

前言 最近在开发颜色搭配主题的相关H5和小程序,想到需要补充一个web网站,因此有了这篇文章。 一、确定需求 向AI要答案之前,一定要清楚自己想要做什么。如果你没有100%了解自己的需求,可以先让AI帮你理清逻辑和思路,…

Spring - 13 ( 11000 字 Spring 入门级教程 )

一: Spring AOP 备注:之前学习 Spring 学到 AOP 就去梳理之前学习的知识点了,后面因为各种原因导致 Spring AOP 的博客一直搁置。。。。。。下面开始正式的讲解。 学习完 Spring 的统一功能后,我们就进入了 Spring AOP 的学习。…

Spring Cloud Alibaba微服务治理实战:Nacos+Sentinel深度解析

一、引言 在微服务架构中,服务发现、配置管理、流量控制是保障系统稳定性的核心问题。Spring Cloud Netflix 生态曾主导微服务解决方案,但其部分组件(如 Eureka、Hystrix)已进入维护模式。 Spring Cloud Alibaba 凭借 高性能、轻…

红宝书第三十六讲:持续集成(CI)配置入门指南

红宝书第三十六讲:持续集成(CI)配置入门指南 资料取自《JavaScript高级程序设计(第5版)》。 查看总目录:红宝书学习大纲 一、什么是持续集成? 持续集成(CI)就像咖啡厅的…

Java—HTML:3D形变

今天我要介绍的是在Java HTML中CSS的相关知识点内容之一:3D形变(3D变换)。该内容包含透视(属性:perspective),3D变换,3D变换函数以及案例演示, 接下来我将逐一介绍&…

什么是音频预加重与去加重,预加重与去加重的原理是什么,在什么条件下会使用预加重与去加重?

音频预加重与去加重是音频处理中的两个重要概念,以下是对其原理及应用条件的详细介绍: 1、音频预加重与去加重的定义 预加重:在音频信号的发送端,对音频信号的高频部分进行提升,增加高频信号的幅度,使其在…

免费下载 | 2025清华五道口:“十五五”金融规划研究白皮书

《2025清华五道口:“十五五”金融规划研究白皮书》的核心内容主要包括以下几个方面: 一、五年金融规划的重要功能与作用 凝聚共识:五年金融规划是国家金融发展的前瞻性谋划和战略性安排,通过广泛听取社会各界意见,凝…

微信小程序实战案例 - 餐馆点餐系统 阶段 4 - 订单列表 状态

✅ 阶段 4 – 订单列表 & 状态 目标 展示用户「我的订单」列表支持状态筛选(全部 / 待处理 / 已完成)支持分页加载和实时刷新使用原生组件编写 ✅ 1. 页面结构:文件结构 pages/orders/├─ index.json├─ index.wxml├─ index.js└─…

如何为C++实习做准备?

博主介绍:程序喵大人 35- 资深C/C/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C20高级编程》《C23高级编程》等多本书籍著译者更多原创精品文章,首发gzh,见文末👇&#x1…

Cesium.js(6):Cesium相机系统

Camera表示观察场景的视角。通过操作摄像机,可以控制视图的位置、方向和角度。 帮助文档:Camera - Cesium Documentation 1 setView setView 方法允许你指定相机的目标位置和姿态。你可以通过 Cartesian3 对象来指定目标位置,并通过 orien…

AI 代码生成工具如何突破 Java 单元测试效能天花板?

一、传统单元测试的四大痛点 时间黑洞:根据 JetBrains 调研,Java 开发者平均花费 35% 时间编写测试代码覆盖盲区:手工测试覆盖率普遍低于 60%(Jacoco 全球统计数据)维护困境:业务代码变更导致 38% 的测试用…

客户端负载均衡与服务器端负载均衡详解

客户端负载均衡与服务器端负载均衡详解 1. 客户端负载均衡(Client-Side Load Balancing) 核心概念 定义:负载均衡逻辑在客户端实现,客户端主动选择目标服务实例。典型场景:微服务内部调用(如Spring Cloud…

基于springboot的“流浪动物管理系统”的设计与实现(源码+数据库+文档+PPT)

基于springboot的“流浪动物管理系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:springboot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统功能结构图 局部E-R图 系统首页界面 系统…

爬虫解决debbugger之替换文件

鼠鼠上次做一个网站的时候,遇到的debbugger问题,是通过打断点然后编辑断点解决的,现在鼠鼠又学会了一个新的技能 首先需要大家下载一个reres的插件,这里最好用谷歌浏览器 先请大家看看案例国家水质自动综合监管平台 这里我们只…

奇怪的电梯——DFS算法

题目 题解 每到一层楼都面临了两种选择:上还是下?因此我们可以定义一个布尔数组用来记录选择。 终止条件其实也明显,要么到了B层,要么没有找到楼层。 如果找到了,选择一个步骤少的方式。又怎么表示没有找到楼层&…

Open GL ES-> 工厂设计模式包装 SurfaceView + 自定义EGL的OpenGL ES 渲染框架

XML文件 <?xml version"1.0" encoding"utf-8"?> <com.example.myapplication.EGLSurfaceView xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_height"…