超越机械抓手:看多指机器人如何灵活运用触觉?

news2024/10/6 1:45:29

论文标题:

Learning Visuotactile Skills with Two Multifingered Hands

论文作者:

Toru Lin, Yu Zhang, Qiyang Li, Haozhi Qi, Brent Yi, Sergey Levine, and Jitendra Malik

1. 机器人新挑战:多指手指操作

在自动化和智能化日益普及的今天,机器人在工业生产、医疗辅助、家庭服务等多个领域扮演着越来越重要的角色。然而,大多数现有的机器人手臂都仅限于执行一些简单的、重复性高的任务,它们的操作能力远远不能满足复杂任务的需求。特别是在需要精细操作和高度协调性的场合,机器人的表现往往不尽人意。

为了提升机器人的灵巧性,科学家们开始尝试模仿人类的双手操作。人类的双手是自然界中最灵巧的工具之一,它们能够完成从精细的手术缝合到粗重的搬运工作等一系列复杂任务。要让机器人达到类似的灵巧度,关键在于赋予它们多指操作的能力。多指手不仅能够提供更多的自由度,还能够通过不同的手指组合来适应各种形状和大小的物体。

在这一领域,加州大学伯克利分校的研究团队取得了突破性进展。他们开发的系统能够让机器人通过视觉和触觉数据学习完成复杂任务的技能。这项技术的核心在于模拟人类的感知和运动模式,使机器人能够更加精细和灵活地操作物体。

在这里插入图片描述
▲图1 | 系统搭建及视觉触觉学习的四种任务©️【深蓝AI】编译

2. 机器人的“感官世界” :HATO系统低成本的远程操作

视觉和触觉是人类感知世界的两个重要途径。

**而在机器人的世界观中,「视觉」提供了物体的位置、形状和运动信息,「触觉」则提供物体的质地、重量和接触状态等信息。**而将这两种感知方式结合起来,可以极大地提高机器人对环境的理解和操作的精确性。

在这项研究中,科学家们为机器人配备了先进的视觉和触觉传感器。视觉传感器包括多个RGB-D相机,它们能够捕捉物体的彩色图像和深度信息。触觉传感器则安装在机器人的指尖上,能够检测到细微的压力变化。通过这些传感器,机器人能够获得丰富的环境信息,从而更加准确地判断如何抓握和操作物体。

在这里插入图片描述
▲图2 | 指尖触觉传感器布局©️【深蓝AI】编译

此外,研究者们还开发了一种新的数据处理和学习算法,使机器人能够从人类操作员的演示中学习知识:通过分析操作员的动作和相应的感知反馈,机器人能够逐渐学会如何根据物体的特性和任务的要求来调整自己的动作。这种方法不仅提高了学习效率,还使机器人能够更好地适应新的环境和任务。

为了收集用于训练机器人的数据,研究者们设计了一种名为HATO的低成本远程操作系统。该系统利用现成的虚拟现实(VR)硬件,包括VR头显和手柄,来模拟机器人的动作。 HATO系统是一种低成本的双手多指远程操作系统,它利用现成的虚拟现实(VR)硬件,特别是Meta Quest 2平台,来实现对机器人手臂和手部的直观控制。该系统通过VR控制器的姿态映射来控制机器人臂的末端执行器姿态,同时利用控制器的握把按钮和拇指杆来精细操控手部的关节位置。HATO的核心在于其软件套件,它不仅支持多模态数据的收集,包括视觉、触觉和本体感知信息,还负责将控制器的输入转换为机器人系统的精确控制命令。此外,HATO系统还包括一个数据收集管道,用于记录和处理所有传感器数据,以及支持策略学习与部署的算法。

使用HATO系统,操作员可以戴上VR头显,通过手柄来控制机器人的手臂和手。手柄的姿态和按钮状态被实时捕捉并转换为机器人的动作指令。这种设计不仅使数据收集过程更加直观和自然,还大大降低了系统的成本和复杂性。

HATO系统还支持多模态数据的收集,包括视觉、触觉和本体感知数据。这些数据被同步记录并用于训练机器人的决策模型。通过分析操作员的动作和相应的感知反馈,机器人能够学习如何在不同的任务中使用合适的抓握方式和操作策略。

3. 实验:快速平滑的策略部署,机器人的灵巧性显著提升

在人类的学习过程中,观察和模仿是获取新技能的重要途径。同样,在机器人的技能学习中,观察人类操作员的行为并从中学习也是一个有效的策略。加州大学伯克利分校的研究人员开发的系统正是基于这样的理念,通过分析人类操作员的动作和相应的感知反馈,机器人能够逐渐学会如何根据物体的特性和任务的要求来调整自己的动作。

在训练过程中,机器人首先通过多个传感器收集操作数据。这些数据包括视觉信息、触觉信号和本体感知数据,它们共同构成了机器人的“观察”。视觉信息帮助机器人识别物体的位置和形状,触觉信号提供了物体的质地和重量等信息,而本体感知数据则告诉机器人自己身体各部分的状态。接着,机器人使用一种称为“扩散策略”的算法来处理这些观察数据,并预测下一步的动作。这种算法的核心思想是将动作预测视为一个条件生成问题,即在给定当前观察的情况下,预测未来一系列动作的概率分布。通过这种方式,机器人可以生成一系列可能的动作,并选择最优的动作来执行。 此外,为了提高学习效率,研究人员还提出了一种异步推理算法。这种算法允许机器人在执行任务的同时,不断学习和调整自己的动作。

这意味着机器人可以在实际操作中不断试错,并从错误中学习,从而快速提高自己的技能。

在机器人的技能学习中,如何将学习到的策略有效地部署到实际任务中,是一个关键的技术挑战。传统的策略部署方法通常需要机器人在执行任务时停下来进行推理,这不仅降低了任务的执行效率,也使得机器人难以处理需要连续控制的复杂任务。为了解决这个问题,研究人员提出了一种新颖的异步推理算法。该算法的核心思想是将推理过程与任务执行过程分离,让它们并行运行。

具体来说,机器人在执行任务的同时,一个远程推理服务器会不断地处理最新的观察数据,并生成动作序列的预测。接着,预测结果会被发送回机器人,与之前的时间步长上的预测结果进行整合,计算出一个平滑的动作序列。这样,机器人就可以在不中断任务执行的情况下,实时地调整自己的动作,从而实现更加流畅和连续的任务执行。

这种异步推理算法的另一个优势是它可以提高策略的鲁棒性。在实际应用中,机器人可能会遇到一些训练数据中未曾出现的特殊情况。通过实时的推理和调整,机器人可以更好地适应这些新的情况,从而提高任务的成功率。

在这里插入图片描述
▲图3 | 平行手爪遥操作常见故障©️【深蓝AI】编译

在经过一系列的学习和训练后,机器人在执行复杂任务方面取得了显著的进步。研究人员设计了四个具有挑战性的任务来测试机器人的技能,包括递滑溜的物体、堆叠积木、倒酒和上菜。

在这里插入图片描述
▲图4 | 四个不同的任务©️【深蓝AI】编译

在递物体的任务中,机器人需要用一只手拿起一个滑溜的物体,然后递给另一只手。这个任务考验了机器人的抓握能力和双手协调能力。实验结果显示,机器人能够稳定地抓握物体,并准确地将其递给另一只手,成功率达到了100%。

在堆叠积木的任务中,机器人需要将两个大块的积木叠放在另一个积木上。这个任务不仅需要精确的力量控制,还需要良好的空间定位能力。实验结果表明,机器人能够准确地判断积木的位置, 并用适当的力量将其叠放在一起,从而成功完成任务。

在倒酒的任务中,机器人需要用一只手拿起酒瓶,另一只手拿起酒杯,然后将酒从瓶中倒入杯中。这个任务考验了机器人的精细操作能力和动态控制能力。 实验结果显示,机器人能够平稳地执行倒酒动作,成功地将酒倒入杯中,而没有溅出。

在上菜的任务中,机器人需要用一只手拿起平底锅,另一只手拿起铲子,然后将牛排从锅中铲起并放到盘子上。这个任务需要机器人精确地控制力量和动作, 以防止牛排滑落。实验结果表明,机器人能够成功地完成这个任务,将牛排完好无损地放到了盘子上。

在这里插入图片描述
▲图5 | 视觉和处决对于四种任务表现的影响©️【深蓝AI】编译

4. 更智能、更通用的机器人

HATO系统的成功为机器人的未来发展开辟了新的可能性。通过视觉和触觉数据的学习,机器人不仅能够提高自己在特定任务上的表现,还能够更好地理解和适应环境,从而在更广泛的场景中发挥作用。这种基于学习的方法可以大大提高机器人的适应性。传统的机器人系统通常只能在特定的、预先编程的环境中工作。而通过学习,机器人可以快速地适应新的任务和环境,甚至能够处理一些未知的或不确定的情况。

这种方法还可以提高机器人的通用性。在传统的机器人系统中,不同的任务通常需要不同的编程和调整。而通过学习,机器人可以掌握一系列相关的技能,并能够根据任务的具体要求灵活地选择和组合这些技能。此外,这种方法还为机器人的个性化和定制化提供了可能。不同的操作员可能有不同的操作风格和习惯,通过学习,机器人可以适应不同操作员的特点,从而提供更加个性化的服务。

当然,这项技术仍然处于发展的早期阶段,还有很多挑战需要克服。例如,如何提高学习算法的效率,如何处理更加复杂和动态的环境,以及如何确保机器人的安全性和可靠性等。我们期待机器人将变得更加智能、更加灵活、更加通用。

编译|Scarlett

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1659965.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Vulhub靶场】Nginx 中间件漏洞复现

【Vulhub靶场】Nginx 中间件漏洞复现 一、Nginx 文件名逻辑漏洞(CVE-2013-4547)1. 影响版本2. 漏洞原理3. 漏洞复现 二、Nginx越界读取缓存漏洞(CVE-2017-7529)1. 漏洞详情2. 影响版本3. 漏洞复现 三、Nginx 配置错误导致漏洞&…

预告 | 飞凌嵌入式邀您共聚2024上海充换电展

第三届上海国际充电桩及换电站展览会(CPSE),即将于5月22日~24日在上海汽车会展中心举行。届时,飞凌嵌入式将带来多款嵌入式核心板、开发板、充电桩TCU以及储能EMS网关产品,与来自全国的客户朋友及行业伙伴一同交流分享…

基于R语言绘图 | 转录代谢趋势图绘制教程

原文链接:基于R语言绘图 | 转录代谢趋势图绘制教程 本期教程 小杜的生信笔记,自2021年11月开始做的知识分享,主要内容是R语言绘图教程、转录组上游分析、转录组下游分析等内容。凡事在社群同学,可免费获得自2021年11月份至今全部…

【ArcGIS Pro微课1000例】0058:玩转NetCDF多维数据集

一、NetCDF介绍 NetCDF(network Common Data Form)网络通用数据格式是由美国大学大气研究协会(University Corporation for Atmospheric Research,UCAR)的Unidata项目科学家针对科学数据的特点开发的,是一种面向数组型并适于网络共享的数据的描述和编码标准。NetCDF广泛应…

羊大师:当代年轻人如何应对压力

羊大师:当代年轻人如何应对压力 当代年轻人面临各种压力,包括工作、学习、人际关系、经济等方面的压力。以下是一些建议,帮助年轻人应对这些压力: 认识并接受压力: 首先要认识到压力是生活中不可避免的一部分。 尝试…

WPF之DataGird应用

1,DataGrid相关属性 GridLinesVisibility:DataGrid网格线是否显示或者显示的方式。HorizontalGridLinesBrush:水平网格线画刷。VerticalGridLinesBrush:垂直网格线画刷。HorizontalScrollBarVisibility:水平滚动条可见…

卷积通用模型的剪枝、蒸馏---蒸馏篇--RKD关系蒸馏(以deeplabv3+为例)

本文使用RKD实现对deeplabv3+模型的蒸馏;与上一篇KD蒸馏的方法有所不同,RKD是对展平层的特征做蒸馏,蒸馏的loss分为二阶的距离损失Distance-wise Loss和三阶的角度损失Angle-wise Loss。 一、RKD简介 RKD算法的核心是以教师模型的多个输出为结构单元,取代传统蒸馏学习中以教…

【经验总结】 常用的模型优化器

优化器是一种用于优化模型权重和偏差的算法,它根据训练数据更新模型参数,以模型的预测结果更加准确。 1. 常见的优化器 SGD(Stochastic Gradient Descent):SGD是一种基本的优化算法,它在每次迭代中随机选择…

借势吃货节趣味小游戏的效果是什么

吃货节对食品、餐饮等行业厂家/商家来说非常利好,借势节日气氛能更快达成预期营销效果,除了传统方式外,线上趣味互动游戏营销也是重要形式。 搜索【雨科】平台拥有多款吃货节趣味抽奖h5小游戏形式,不同玩法和内容承载、渠道传播用…

简单的Python HTML 输出

1、问题背景 一名初学者在尝试将 Python 脚本输出到网页上时遇到了一些问题。他当前使用 Python 和 HTML 进行开发,并且遇到了以下问题: 担心自己的代码过于复杂,尤其是 WebOutput() 函数。希望通过 JavaScript 使用 HTML 模板文件更新数据。…

48. UE5 RPG 实现攻击伤害数字显示

在前面的文章中,我们实现了对敌人的攻击的受击效果,并且能够降低目标的血量,实现死亡效果。相对于正常的游戏,我们还需要实现技能或者攻击对敌人造成的伤害数值,并直观的显示出来。 所以,接下来&#xff0c…

【JAVA】JAVA的垃圾回收机制详解

对于Java的垃圾回收机制,它是Java虚拟机(JVM)提供的一种自动内存管理机制,主要负责回收不再使用的对象以释放内存空间。垃圾回收机制主要包括以下几个方面的内容: 垃圾对象的识别:Java虚拟机通过一些算法&…

MySQL索引优化(超详细)篇章2--索引调优

目录 1.索引失效状况2.性能分析3.表的索引信息--调整索引顺序4.删除冗余索引5.最佳左前缀法则5.1下面是一个实际的例子来说明这个概念: 6.数据长度和索引长度占用空间比较 1.索引失效状况 MySQL索引失效通常指的是查询语句无法有效地利用索引,而导致全表…

matlab打开文件对话框

在使用matlab GUI制作时,为了便于用户交互使用,经常设置文件打开对话框,让用户根据实际需要选择打开的文件。下面以打开一张图片为例,matlab代码如下: [temp_filepath,temp_filename]uigetfile(*.jpg,请选择要打开的图…

设计模式(2)创造型设计模式

创建型模式 创建型模式1.工厂模式1.1 抽象工厂模式(Abstract factory)1.2 工厂方法模式(Factory Method)1.3 简单工厂模式(Simple Factory) 2. 建造者模式(Builder)3. 原型模式&…

【Spring Boot 源码学习】深入 ApplicationArguments 接口及其默认实现

《Spring Boot 源码学习系列》 深入 ApplicationArguments 接口及其默认实现 一、引言二、主要内容2.1 ApplicationArguments2.2 DefaultApplicationArguments2.2.1 成员变量2.2.2 构造方法2.2.3 成员方法 2.3 SimpleCommandLinePropertySource2.4 应用场景2.4.1 准备和配置应用…

基于FPGA的音视频监视器,音视频接口采集器的应用

① 支持1路HDMI1路SDI 输入 ② 支持1路HDMI输出 ③ 支持1080P高清屏显示实时画面以 及叠加的分析结果 ④ 支持同时查看波形图(亮度/RGB)、 直方图、矢量图 ⑤ 支持峰值对焦、斑马纹、伪彩色、 单色、安全框遮幅标记 ⑥ 支持任意缩放画面,支…

【Java EE】数据库连接池详解

文章目录 🎍数据库连接池🌸Hikari🌸Druid 🍀MySQL开发企业规范⭕总结 🎍数据库连接池 在上⾯Mybatis的讲解中,我们使⽤了数据库连接池技术,避免频繁的创建连接,销毁连接 下⾯我们来了解下数据库连接池 数据库连接池负…

如何利用代理IP进行SEO优化?

“SEO”这个词相信对于做在线业务的朋友来说一定不陌生。 在网络营销中,SEO是至关重要的一环,对于增加有机流量、提升品牌知名度、增加网站的信任度和权威性非常有效。而代理IP在SEO优化中有着不可或缺的作用,它可以帮助网站管理员和SEO专家…

[muduo网络库]——muduo库的Reactor模型(剖析muduo网络库核心部分、设计思想)

一、前言 在学习 C 服务端的过程中,必不可少的一项就是熟悉一个网络库,包括网络库的应用和其底层实现。我们熟知的网络库有 libevent、libev、muduo、Netty 等,其中 muduo 是由陈硕大佬个人开发的 TCP 网络库,最近跟着课程正在深…