ManiWAV:通过野外的音频-视频数据学习机器人操作

news2025/3/23 17:46:55

24年6月来自斯坦福大学、哥伦比亚大学和 TRI 的论文“ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data”。

音频信号通过接触为机器人交互和物体属性提供丰富的信息。这些信息可以简化接触丰富的机器人操作技能学习,尤其是当视觉信息本身含糊不清或不完整时。然而,机器人操作中音频数据的使用,仅限于通过将麦克风连接到机器人或物体上来收集的遥控演示,这大大限制其在机器人学习流水线中的使用。这项工作引入 ManiWAV,一种“耳在手”数据收集设备,用于收集具有同步音频和视觉反馈的野外环境人类演示,以及相应的策略界面,可直接从演示中学习机器人操作策略。四个接触丰富的操作任务,可展示系统的功能,这些任务需要被动感知接触事件和模式,或主动感知物体表面材料和状态。此外,系统可以通过从各种野外人类演示中学习,推广到未见过的野外环境。

在机器人操作任务期间,音频反馈可以揭示有关交互和目标属性的几个关键信息,包括:
• 接触事件和模式:从擦拭表面到用刮刀翻转物体,音频反馈可捕获显着且独特的信号,可用于检测接触事件和表征接触模式(如图 a、b)。
• 表面材料:音频信号可用于通过与物体的接触来表征表面材料。相比之下,图像传感器或基于视觉的触觉传感器都需要高空间分辨率来捕捉细微的纹理差异,例如魔术贴的“钩”和“环”面(图 c)。
• 物体状态和属性:通过间接接触,音频信号可以提供超出视觉观察之外的物体状态和物理属性的补充信息(图 d)。

请添加图片描述

鉴于音频数据的丰富性和可扩展性,本文提出一种多功能机器人学习系统 ManiWAV,该系统利用音频反馈来完成接触式机器人操作任务:
在硬件方面,提出一种便携式手持设备,用于野外数据收集。如下图(a)所示,引入一种“耳在手”设计,使人类能够通过同步视觉和音频反馈轻松演示各种操作任务。手持式夹持器在数据收集过程中还会自然地提供触觉反馈(例如在白板上擦拭时),这是遥操作难以获得的。为了以更高信噪比捕获接触式音频信号,选择使用顶部附有纹理高抓地力(high-grip)表面的压电(piezoelectric)接触式麦克风。

在算法方面,一个关键挑战是弥合由于测试时噪声导致的野外数据和实际机器人部署之间的音频域差距,如下图(b)所示。为了实现这一目标,提出一种数据增强策略,鼓励学习与任务相关的音频表示。此外,提出一个端到端的感觉运动学习网络来编码和融合视觉和音频信息,并利用扩散头进行动作预测。这种网络设计有助于从多模态人类演示中学习更好的视觉-听觉表示。

请添加图片描述

本文提出一个数据收集和策略学习框架,用于从视觉和音频中学习接触丰富的操作任务。在数据收集方面,目标是轻松收集具有清晰和显着接触信号的野外演示。为了实现这一目标,提出一种“耳在手”数据收集设备,使用 GoPro 相机和接触式麦克风收集同步的视觉和音频数据。

在算法方面,一个关键挑战是弥合收集的演示与机器人部署期间反馈之间的音频域差距,如图 (b) 所示。另一个挑战是学习一个可以有效指导下游策略的强大且与任务相关的视听表示。为了应对这些挑战,提出一种数据增强策略来弥合音频的域差距,并提出一个基于 Transformer 的模型,该模型从具有视觉和音频反馈的人类演示中学习。最终学习的策略部署在机器人上,如上图(c)所示。

耳-在-手的硬件设计

数据收集设备建立在通用操作接口 (UMI) [34] 之上。UMI 是一种便携式低成本手持抓手,旨在收集野外丰富的人类演示。收集的数据可用于训练,可直接部署在机器人上的视觉运动策略。

重新设计设备上的 3D 打印平行钳口夹持器,在缠绕手指的高摩擦力握带下嵌入压电接触式麦克风。麦克风连接到 GoPro 相机媒体模块上的 3.5 毫米外部麦克风端口。上图 (a) 显示手持式夹持器设计。音频以 48000 Hz 录制,并与 60Hz 图像数据同步存储为 MP4 文件。在机器人部署期间,带有嵌入式麦克风的相同平行钳口夹持器安装在 UR5 机器人手臂上,如上图 © 所示。图像和音频通过 Elgato HD60 X 外部捕获卡实时传输到 Ubuntu 22.04.3 桌面。

策略设计

本文提出一种端到端闭环感觉运动学习模型,该模型接收 RGB 图像和音频,并输出 10-DoF 机器人动作(末端执行器位置、末端执行器方向以 6D [35] 表示,以及 1D 夹持器张开度)。

音频数据增强。一个关键挑战是,实时机器人部署期间接收的音频信号,与手持夹持器收集的数据非常不同,导致训练和测试场景之间存在很大的域差距,如上图 (b) 所示。这主要是因为 1) 部署期间的非线性机器人电机信号,2) 机器人交互产生的分布不均匀声音(例如意外与物体相撞)。

为了解决域差距,关键是用噪声来增强训练数据,并引导模型关注具有不变性的任务相关信号,并忽略不可预测的噪声。特别是,从 ESC-50 [36] 中随机采样音频作为背景噪声。声音被归一化为与训练数据集中收集的声音相同的比例。还在随机采样的轨迹下记录 10 个机器人马达噪音样本,接触式麦克风的位置与部署时间相同。背景噪音和机器人噪音叠加到原始音频信号上,每个概率为 0.5。在实验中,这种简单而有效的方法,通过在任务相关的音频信号上强制模型的归纳偏差来产生更好的策略性能。

视觉编码器。用一个 CLIP 预训练的 ViT-B/16 模型 [37] 对 RGB 图像进行编码。图像被调整为 224x224 分辨率,并进行随机裁剪和颜色抖动增强。图像以 20 Hz 采样,在过去 2 个时间步内拍摄图像。每个图像使用分类 token 特征单独编码。

音频编码器。用音频频谱图 Transformer (AST) [38] 对音频输入进行编码。AST 与 ViT 模型类似,利用注意机制从频谱图块中学习更好的音频表示。使用 Transformer 编码器而不是基于 CNN 编码器背后的直觉(如先前的研究 [26、28、25] 中所见),是 CNN 利用的“漂移不变性”不太适合音频频谱图,因为时间和频域中的移位都会显着改变信息。在实验中,从头开始训练 Transformer 编码器的表现,优于预训练和从头开始的 CNN 模型。

如图所示音频的注意可视化:

请添加图片描述

首先将音频信号(根据任务不同,从最后 2-3 秒开始)从 48kHz 重新采样为 16kHz,然后使用 FFT 大小和 400 的窗口长度、160 的跳跃长度和 64 个梅尔滤波器组将其转换为对数梅尔频谱图。对数梅尔频谱图,线性归一化到范围 [-1,1]。用从 AST 编码器的最后一个隐藏层提取的分类 token 特征。

感官融合。用与 Li [28] 类似的Transformer编码器融合视觉和音频特征,以利用注意机制在任务的不同阶段自适应地加权特征(例如,视觉对于移动到目标物体很重要,而音频在接触期间很重要)。连接输出特征并使用线性投影层将维度下采样到 768。最后,将过去 2 个时间步的末端执行器姿势 (20 Hz) 连接到视听特征。

策略学习。为了对人类演示固有的多模态性进行建模,选择使用 Chi [39] 提出的 UNet 编码器扩散模型。 作为策略头,以每个去噪步骤中上述的观察表示为条件。整个模型(如图所示),包括上述编码器,都是使用噪声预测 MSE 损失对 16 步的未来机器人轨迹进行端到端训练的。

请添加图片描述

音频延迟匹配。在数据收集过程中,视觉和音频数据通过 GoPro 进行录制时同步。在部署过程中,将音频延迟校准为 0.23;采用类似于 Chi [34] 的方法来补偿这种延迟。

研究四个接触丰富的操作任务,以展示音频反馈的不同功能,例如检测接触事件和模式(翻转和擦拭)、感知物体状态(倾倒)和表面材料(胶带)。在每个任务中,在不同的场景下测试策略,并与替代方法进行比较,以验证方法的稳健性和通用性。

如图所示:翻转评估例子

请添加图片描述

如图所示:擦拭的评估例子

请添加图片描述

如图所示:倾倒的评估例子

请添加图片描述

如图所示:胶带粘贴的评估例子

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2319633.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Floyd 算法——97. 小明逛公园

卡码网:97. 小明逛公园https://kamacoder.com/problempage.php?pid=1155 题目描述 小明喜欢去公园散步,公园内布置了许多的景点,相互之间通过小路连接,小明希望在观看景点的同时,能够节省体力,走最短的路径。 给定一个公园景点图,图中有 N 个景点(编号为 1 到 N),…

QT二 QT使用generate form 生成常用UI,各种UI控件

一 。没有使用general form 和 使用 general form 后,file层面和代码层面的不同比较 file层面的不同 代码层面的不同, 在 使用了general form之后,在主界面的构造方法中,使用ui->setupUi(this),就完成了所有UI的处理。 而之…

多条件排序(C# and Lua)

C# 升序排序 OrderBy 按升序对序列的元素进行排序 ThenBy 按升序对序列中的元素执行后续排序 降序排序 OrderByDescending 按降序对序列的元素排序 ThenByDescending 按降序对序列中的元素执行后续排序 public class Fruit {public int id;public string name;publi…

人工智能之数学基础:线性方程组求解的得力助手——增广矩阵

本文重点 增广矩阵是一个极具实用价值的工具,尤其在处理线性方程组时,它展现了卓越的功效。通过整合系数和常数项,增广矩阵简化了计算过程并提供了判断方程组解集的有效方法。 增广矩阵的起源与定义 增广矩阵的概念源于线性方程组求解的需求。在解决线性方程组时,我们常…

关于Flask框架30道面试题及解析

文章目录 基础概念1. 什么是Flask?其核心特性是什么?2. Flask和Django的主要区别?3. 解释Flask中的“路由”概念。如何定义动态路由?核心组件4. Flask的请求上下文(Request Context)和应用上下文(Application Context)有什么区别?5. 如何访问请求参数?POST和GET方法的…

服务安全认证概述与基础认证方式

文章目录 1. 引言1.1 认证与授权的区别1.2 认证方式的演进 2. 基础认证方式2.1 HTTP Basic Authentication2.2 API Key 认证2.3 HMAC-SHA256 签名认证2.4 JWT(JSON Web Token) 3. 认证方式对比与总结3.1 认证方式对比3.2 如何选择合适的认证方式&#xf…

【Android Studio开发】生命周期、Activity和组件通信(上)

零、前期配置 1.【Android】模式 2.点击【运行】,弹出模拟器 右侧是模拟机,显示Hello World 3. 打开【activity_main.xml】文件,点击【Design】,然后点击【Component Tree】 在弹出的Component Tree中右键【main】,选择【Conver…

【ES】Elasticsearch学习

文章目录 简单的安装 简单的安装 参考:https://blog.csdn.net/smilehappiness/article/details/118466378 官网:https://www.elastic.co/guide/en/elasticsearch/reference/current/targz.html 下载:https://www.elastic.co/cn/downloads/e…

实验三 Python 数据可视化 Python 聚类-K-means(CQUPT)

一、实验目的 Python 数据可视化: 1、学习使用 jieba、wordcloud 等类库生成词云图。 2、学习使用 Matplotlib 库进行数据可视化。 Python 聚类-K-means: 1、理解聚类非监督学习方法的基本原理。 2、掌握 Python、numpy、pandas、sklearn 实现聚类…

【STM32】SPI通信协议W25Q64Flash存储器芯片(学习笔记)

通信接口部分有介绍SPI:【STM32】USART串口协议&串口外设-学习笔记-CSDN博客 SPI通信协议 SPI通信 SPI(Serial Peripheral Interface)是由Motorola公司开发的一种通用数据总线四根通信线:SCK(Serial Clock&…

SpringBoot最佳实践之 - 使用AOP记录操作日志

1. 前言 本篇博客是个人在工作中遇到的需求。针对此需求,开发了具体的实现代码。并不是普适的记录操作日志的方式。以阅读本篇博客的朋友,可以参考此篇博客中记录日志的方式,可能会对你有些许帮助和启发。 2. 需求描述 有一个后台管理系统…

第六届机电一体化技术与智能制造国际学术会议(ICMTIM 2025)

重要信息 4月11-13日 南京江北新区工业大学亚朵酒店 www.icmtim.org(点击了解参会投稿等) 简介 由南京工业大学主办,南京工业大学电气工程与控制科学学院、中国矿业大学、黑龙江大学、江苏省自动化学会承办的第六届机电一体化技术…

期刊分区表2025年名单下载(经济学、管理学)

2025年期刊分区表包括SCIE、SSCI、A&HCI、ESCI和OAJ,共设置了包括自然科学、社会科学和人文科学在内的21个大类 本次分享的是期刊分区表2025年名单经济学类、管理学类,一共7631025条 一、数据介绍 数据名称:期刊分区表2025年名单 数据…

八股学习-JUC java并发编程

本文仅供个人学习使用,参考资料:JMM(Java 内存模型)详解 | JavaGuide 线程基础概念 用户线程:由用户空间程序管理和调度的线程,运行在用户空间。 内核线程:由操作系统内核管理和调度的线程&…

PostgreSQL_数据下载并保存(psycopg2)

目录 前置: 1 数据下载 1.1 多个股票多个交易日 1.2 一个交易日所有股票 2 数据保存,使用python中的psycopg2包 2.1 在PyCharm中创建新项目,并安装包 2.2 代码-多个股票多个交易日 2.3 代码-一个交易日所有股票 2.4 在 pgAdmin4 中…

启明星辰春招面试题

《网安面试指南》https://mp.weixin.qq.com/s/RIVYDmxI9g_TgGrpbdDKtA?token1860256701&langzh_CN 5000篇网安资料库https://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247486065&idx2&snb30ade8200e842743339d428f414475e&chksmc0e4732df793fa3bf39…

边缘计算革命:重构软件架构的范式与未来

摘要 边缘计算通过将算力下沉至网络边缘,正在颠覆传统中心化软件架构的设计逻辑。本文系统分析了边缘计算对软件架构的范式革新,包括分布式分层架构、实时资源调度、安全防护体系等技术变革,并结合工业物联网、智慧医疗等场景案例&#xff0c…

【读点论文】Chain Replication for Supporting High Throughput and Availability

在分布式系统中,强一致性往往和高可用、高吞吐是矛盾的。比如传统的关系型数据库,其保证了强一致性,但往往牺牲了可用性和吞吐量。而像 NoSQL 数据库,虽然其吞吐量、和扩展性很高,但往往只支持最终一致性,无…

Servlet、Servlet的5个接口方法、生命周期、以及模拟实现 HttpServlet 来写接口的基本原理

DAY15.1 Java核心基础 Servlet Servlet是一个接口,是java的基础,java之所以编写web的程序,接收请求并响应,就是因为Sevlet接口 Java 类实现了Servlet接口的时候就可以接收并响应请求,成为web服务器 Web服务器就是接…

贝叶斯公式的一个直观解释

E E E:抓到娃娃 H H H:坐地铁 H ˉ \bar H Hˉ:坐公交 P ( E ) P ( H ) P ( E ∣ H ) P ( H ‾ ) P ( E ∣ H ‾ ) P({E}) P({H}) P({E} \mid {H}) {P}(\overline{{H}}) {P}({E} \mid \overline{{H}}) P(E)P(H)P(E∣H)P(H)P(E∣H) P (…