大模型时代的具身智能系列专题(一)

news2025/1/11 21:52:42

通用具身机器人

具身智能定义

从图灵定义看,知识由感知、智能体环境交互获得,具身智能要拥有足够的知识完成机器人任务。从字面上理解就是具有身体的智能,可以从交互中学习并有可能涌现新能力。近期的具身智能更多和大模型和端到端有关,是通过学习的方式涌现的智能。

机器人形态

未来机器人的四种形态:人形机器人、仿生机器人、变胞机器人、共融机器人。
人形机器人是近期最受关注的机器人形态,人形机器人的一个潜在的好处是可以最大程度利用真人的大量视频数据。那人形是不是最终的通用机器人形态,也有反对的声音,觉得人的形态从进化上是为了从海洋走到大陆生存,人形不一定是最佳形态。

人形本体

现代人形机器人的本体经过了很长时间的发展,产生了很多有代表性的产品,如下图所示。
fig1

实现阻碍

而要实现具身智能的通用机器人,还存在一些问题和阻碍。

数据来源有限:谷歌在美国加州办公室采集17个月,得到13万数据,使得其机器人在厨房表现很好 ,但出了这个环境就从成功率97%降到30%,数据集没有办法做到scalable。
响应速度太慢:openai 和figure ai合作用的是小模型,有200hz的动作输出频率,但其泛化能力有限,如果用大模型该如何做到高频,这里面也有大量软硬件的加速工作。
自我进化能力:在数据和软硬件都满足的情况下,当前的算法能否满足复杂场景操作的能力,这仍然是一个未知数。
具身智能程度:当前的大模型对于空间时间的感知都很弱,大模型领域需要大量机器人数据

数据

机器人获取数据的形式有多种,可以通过硬件采集,仿真,利用互联网人类视频数据预训练,以及使得机器人具备足够先验后自己在环境中尝试提升。

硬件采集

动作捕捉

  • Xsens 。XsensMVN全身动作捕捉,全球性能最优的惯性动作捕捉设备,可以在任何环境下实时动态捕捉人体全身欧拉角、四元数、关节角度、角速度、角加速度、重心、速度、加速度、方向、位置等运动数据及图像,纯净的动作捕捉数据不需要进行后处理即可直接使用,非常适用于人体运动数据采集。

特斯拉的工厂里包含了动捕的采集方式,
在这里插入图片描述

遥操作

  • 2024年初斯坦福mobile ALOHA火了一阵,在其被推出之前,其实在23年Q1便已有了ALOHA,所谓ALOHA,即是A Low-cost Open-source Hardware System for Bimanual Teleoperation,该系统可以通过定制远程操作接口收集实际演示,从而进行端到端的模仿学习。
    在这里插入图片描述
    而mobile ALOHA同时将其功能扩展到桌面操作之外,且做到了以下4点。移动能力:移动速度与人类行走速度相当,约为1.42m/s;稳定性:在操作重型家用物品(比如锅和橱柜)时它能保持稳定;全身遥控操作:手臂和底盘可以同时运动;无线:具有机载电源和计算设备(数据收集和推断期间的所有计算都是在配备了Nvidia 3070 Ti GPU (8GB VRAM)和Intel i7-12800H的消费级笔记本电脑上进行)。
    在这里插入图片描述
    关于ALOHA的详细介绍可以参见大模型时代的具身智能系列专题(八)。

另外一种遥操作利用外骨骼辅助操作。
在这里插入图片描述

手持夹持器

紧接着在2024年2月19日,斯坦福和哥伦比亚大学、丰田研究所的研究者发布了一个通用操控界面UMI,其使用手持夹持器简单快速且低成本(比mobile ALOHA成本还低)的收集一系列机器人训练数据,借助这个UMI,可以自由的完成刷盘等各种任务。
在这里插入图片描述
UMI使用鱼眼镜头感知环境,且通过改造SLAM与GoPro内置的IMU传感器结合使用,并在夹持器上的两端各自添加一面镜子,以提供立体观察。
在这里插入图片描述
①是一个相机,④是“相机① ”中自带的IMU感知姿态跟踪器
②是带有广角视野的鱼眼镜头,③是两个侧面镜用于提供立体视觉,⑤是对夹持器的跟踪
⑥是基于运动学的数据过滤

其他
脑机接口未来或许也是数据采集的方式,由人类大脑信号控制机器人操作。

数据汇总
DeepMind汇集了来自 22 种不同机器人类型的数据,创建了 Open X-Embodiment 数据集并开源了出来。该数据集汇集了21个科研机构,22个机器人, 60个已有数据集的融合,包含 527个技能,160,266个任务,1,402,930条数据(共约3600G)。

在这里插入图片描述

仿真

真实机器人数据的采集效率较低,且采用硬件不同,难以一起使用。而通过仿真也许是获取大规模不同分布数据的捷径。
王鹤老师的大型仿真平台open6dor,包含2500个任务,它从世界上第一个零部件数据集中获取零部件并放到仿真环境中,并标注位姿、所有轴使用方法。
在这里插入图片描述
在这里插入图片描述
UCSD的王小龙老师提出了GENSIM,通过利用大型语言模型(LLM)的grounding和编码能力来自动生成丰富的仿真环境和专家演示。GENSIM有两种模式:目标导向生成,目标任务给到LLM, LLM提出一个任务课程来解决目标任务;探索性生成,在LLM中,从以前的任务中引导并迭代地提出有助于解决更复杂任务的新任务。
在这里插入图片描述

跨维智能以 Sim2Real AI为核心,研发了DexVerse具身智能引擎,基于3D VLA (3D Vision Language Action) 大模型的成像感知套件,通过自适应数据生成策略和可微渲染能力为大模型训练提供了在线仿真数据。
在这里插入图片描述
当前仿真技术在localmotion、pick和place可以做好,对于高动态、接触复杂的操作真实数据更好,比如UCSD王小龙老师就提到在尝试做转笔这个任务时,仿真一直失败,而真实数据直接follow 轨迹就可以work。

互联网人类数据

真实的机器人数据采集代价太高,仿真数据的保真性又存在问题,那能否利用大量的互联网人类日常动作视频作为预训练,真实机器人少量数据作为finetune以快速适配。比如大模型时代的具身智能系列专题(三)中的ATM算法。

机器人在真实环境自我学习

在这里插入图片描述
这里展示了机械臂学习浇花的过程,从失败到能完成一部分,到可以缓慢完成,再到可以快速完成。

方法

模仿学习
近期,模仿学习在机器人领域的应用迎来了大爆发,从Dobb·E、Gello到斯坦福Mobile ALOHA、UMI、DexCap、伯克利FMB。斯坦福大学宋舒然团队提出了diffusion policy,将机器人的视觉运动策略(visuomotor policy)表示为条件去噪扩散过程(conditional denoising diffusion process),UMI沿用diffusion policy方案。diffusion policy的具体方案见大模型时代的具身智能系列专题(五)。
在这里插入图片描述
在这里插入图片描述
Sergey Levine团队提出了Octo,该方法设计了一种块状注意力和输出head的transformer结构,在迁移学习到新机器人或任务时,可以很方便地增删输入输出modalities,而无需重新初始化或训练模型的大部分参数,因此Octo具备通用的机器人控制策略。详细内容见 h大模型时代的具身智能系列专题(十)。
在这里插入图片描述
NYU的 Lerrel Pinto团队提出的Dobb-E是一个行为克隆框架,而行为克隆是模仿学习的一种形式,通过观察和模仿人类或其他专家代理的行为来学习执行任务。行为克隆涉及训练模型以模仿演示的动作或行为,并通常使用标记的训练数据将观察映射到期望的动作。详见 大模型时代的具身智能系列专题(九)。
standford Chelsea Finn团队提出的ALOHA和mobile ALOHA在2024年初风靡一时,其设计的ACT(Action Chunking with Transformers)算法减轻了随时间推移产生的复合错误,详见大模型时代的具身智能系列专题(八)。

预训练+强化学习
CMU一团队提出了开放世界移动操作系统(Open-World Mobile Manipu-lation System),用于解决开放世界中真实关节物体的移动操作问题,该方法首先通过收集到的演示数据进行行为克隆以完成策略的初始化,后进行在线RL训练(通过CLIP视觉语言模型给予环境反馈)。
在这里插入图片描述
NUS邵林老师研发了一个任意机器人对任意物体进行任意操作任务的foundation models,是一个典型的预训练模型。
在这里插入图片描述

视觉语言模型
近期使用大模型帮助机器人任务泛化的工作如deepmid的RT-2、RT-H,具体方法见大模型时代的具身智能系列专题(四)。
在这里插入图片描述
在这里插入图片描述
斯坦福大学李飞飞组的工作voxposer采用了大语言模型+视觉语言模型,详见大模型时代的具身智能系列专题(二)。

清华高阳组的两个工作ViLA+CoPA都基于视觉语言大模型GPT-4V,ViLA侧重于高层任务规划,CoPA侧重低层具体任务执行,详见大模型时代的具身智能系列专题(三)。

在这里插入图片描述
在这里插入图片描述
UCSD 王小龙组的GENSIM利用大型语言模型(LLM)的grounding和编码能力来自动生成丰富的仿真环境和专家演示。该方法有两种模式:目标导向生成,目标任务给到LLM, LLM提出一个任务课程来解决目标任务;探索性生成,在LLM中,从以前的任务中引导并迭代地提出有助于解决更复杂任务的新任务。详见大模型时代的具身智能系列专题(六)。

UMass Amherst 淦创团队提出了一个多感官具身大语言模型MultiPLY,该模型可以将视觉、听觉、触觉和热信息等多感官交互数据整合到大语言模型中,从而建立单词、动作和感知之间的相关性。详见大模型时代的具身智能系列专题(十一)。

其他方案

北大王鹤团队提出了UniDexGrasp将灵巧手抓取分成两个阶段:第一阶段针对物体点云输入生成若干抓取手势,从中挑选一个作为目标手势之后,第二阶段使用基于目标手势的强化学习策略来执行抓取。详见大模型时代的具身智能系列专题(七)。
在这里插入图片描述

落地与商业化

工业机器人已经比较成熟,人形机器人能否在工业赛道获得优势还是充满了未知数,当然我们也看到优选人形机器人已经入驻蔚来造车工厂,特斯拉在工厂分拣插电池等尝试;而这波具身智能大多在服务行业的简单落地场景展开探索,服务行业的细分赛道包括家庭护理、餐饮、按摩、医美等。对于困难场景,如果能用来干人类不愿意干的事或者很危险的事情,长期深耕是很有意义的事。
国内近期诞生了许多具身智能加持的机器人初创企业,以高校和企业合作为主,比如千寻智能、银河通用、逐际动力、星海图、穹彻智能、星动纪元、南栖仙策等,这样的合作模式能否成功值得拭目以待。
相比于AI,机器人的硬件十年来未有大的变化,本体的同质化竞争尚无必要,短期其销售主体是高校和科研机构,然后在一些固定场景或有泛化需求的工厂小规模尝试落地。总体来看,机器人市场尚未成熟,不得不面对供应链挑战,中国制造业的优势在于规模生产降低成本,而需求量不足以支撑大规模生产。

时间线预测

Rodney Brooks 2024年更新的他对于未来科技的预测,列举几个。一个可以在任何美国人家里走动的机器人(应对杂乱的东西,梯子,狭窄的家具等):实验室版2026以后,昂贵的版本2030以后,便宜的版本2035以后。灵巧的机械手变的普遍,2030年以后,希望2040年以前可以。自动驾驶能在一个主要的美国城市任何地点接送人:2032年以后。尽管我们希望科技树被快点点亮,但是MIT教授和iRobot创始人CTO,同时也是硅谷VC的判断应该多少有一些参考价值。

综合从业者的规划、数据和方法演进的速度,个人对具身机器人的落地速度相对乐观,1-2年硬件设备及其数据采集方案的收敛,再经过2-3年垂类场景的数据积累和问题发现,然后再经过2-3年在垂类场景的打磨实现第一代方案的成熟,完成第一次螺旋上升。

参考文献

  1. https://rodneybrooks.com/predictions-scorecard-2024-january-01/
  2. https://mp.weixin.qq.com/s/yVlSOIrPRLiRW4GlqZ5Ixw
  3. https://mp.weixin.qq.com/s/ZW25sAvAOUnzJz9EYWRgTw
  4. https://www.leaderobot.com/news/4295
  5. https://blog.csdn.net/v_JULY_v/article/details/136773017
  6. https://mp.weixin.qq.com/s/VSDXkTtiJvaHfOdp0O3bVw
  7. https://2024.baai.ac.cn/schedule
  8. https://wx.vzan.com/live/channelpage-275544?ver=638535487705515635&vprid=0&shareuid=443416292&shauid=tVQ6C7v4JrUKj2qJAUOpQA**
  9. https://blog.csdn.net/v_july_v/category_12547596.html
  10. https://mp.weixin.qq.com/s/AnQlpf6N6iMO1xGbL-vOWA
  11. https://mp.weixin.qq.com/s/KZmhIsvm6QvZnwSL8bEyMA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1839661.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

KVB投资安全小知识:你知道情绪面、技术面与基本面的关系吗?

摘要:当涉及到金融市场分析时,情绪面、技术面和基本面是三个重要的方面。它们相互交织,共同影响着市场的走势和投资者的决策。下面我来详细解释它们之间的关系。 情绪面的影响 情绪面指的是投资者情绪和市场情绪,它反映了市场参与…

曾从钦:共同做大露酒产业蛋糕,共建露酒产业命运共同体

执笔 | 尼 奥 编辑 | 扬 灵 6月15日,由中国酒业协会主办、五粮液股份公司承办的以“文化焕新,价值绽放”为主题的第三届中国露酒T5峰会在四川省宜宾市召开,参会企业对当前露酒产业现状、结构性矛盾、品类价值表达等议题进行深入探讨和交…

ARM功耗管理框架之LPI

安全之安全(security)博客目录导读 思考:功耗管理框架?SCP?PPU?LPI?之间的关系?如何配合? 目录 一、功耗管理框架中的LPI 二、LPI分类 三、Q-Channel和P-Channel对比 四、Q-Channel和P-Ch…

QT/基于TCP的服务端实现

代码 widget.cpp #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget),p(new QTcpServer(this))//给服务器指针申请空间 {ui->setupUi(this); }Widget::~Widget() {delete ui; }void W…

VM安装Ubuntu

系统安装 先安装好VM软件(版本> 17) 创建新的虚拟机 步骤1: 步骤2:(选择好对应的ISO,可以去官网下载) 注意:ISO文件要放到 英文目录(路径中不能有中文和空格&#…

Qt打包成单独一个.exe文件运行

程序发布 1、首先找到你所运行的Qt编译器 2、然后去项目位置找到对应的release目录下的exe文件 3、将这个exe文件复制到一个单独的文件夹下,这里我放在E盘的demo下面 4、右键选择在终端打开PowerShell进入步骤1新建的demo目录内 5、windeployqt 项目名.exe windepl…

【FreeRTOS】估算栈的大小

参考《FreeRTOS入门与工程实践(基于DshanMCU-103).pdf》 目录 估算栈的大小回顾简介计算说明估计函数用到的栈有多大合计 估算栈的大小 回顾 上一篇文章链接:http://t.csdnimg.cn/Cc8b4 传送门: 上一篇文章 上一篇文章创建的三个任务 /* 创建任务:声 *…

图像处理之几何变换

一、柱形畸变 import cv2 import numpy as npdef cylindrical_projection(image, f):h, w = image.shape[:2]map_x, map_y = np.meshgrid(np.arange(w), np.arange(h))x_c = w / 2y_c = h / 2theta = (map_x - x_c) / fh_c = (map_y - y_c) / np.sqrt((map_x - x_c)**2 + f**2…

音视频入门基础:H.264专题(3)——EBSP, RBSP和SODB

音视频入门基础:H.264专题系列文章: 音视频入门基础:H.264专题(1)——H.264官方文档下载 音视频入门基础:H.264专题(2)——使用FFmpeg命令生成H.264裸流文件 音视频入门基础&…

亚特全球链锯文化推广大使活动盛大启航

(本台记者报)链锯,这一象征着力量与技艺的工具,自诞生以来便见证了人类工业文明的进步。从最初的简易链锯到如今的多功能锂电链锯,彰显了人类对于技艺与科技的追求,其演变历程不仅映射出人类科技的巨大飞跃…

CSS3基本语法

文章目录 一、CSS引入方式二、选择器1、标签选择器2、类选择器3、id选择器4、通配符选择器 三、字体操作1、字体大小2、字体粗细3、字体样式(是否倾斜)4、字体修改常见字体系列 修改字体系列语法 四、文本操作1、文本缩进2、文本水平对齐方式3、文本修饰…

HarmonyOS Next 系列之从手机选择图片或拍照上传功能实现(五)

系列文章目录 HarmonyOS Next 系列之省市区弹窗选择器实现(一) HarmonyOS Next 系列之验证码输入组件实现(二) HarmonyOS Next 系列之底部标签栏TabBar实现(三) HarmonyOS Next 系列之HTTP请求封装和Token…

CobaltStrike后渗透进阶篇

0x01 网络钓鱼攻击 钓鱼攻击简介 钓鱼攻击主要通过生成的木马诱使受害者运行后上线,其中木马一般都伪装成正常的程序。与此同时配合钓鱼网站可帮助攻击者模拟真实网站诱骗受害者访问,达到获取账号密码、上线木马等目的。接下来主要介绍后门程序的生成及…

vue-json-viewer组件 copyable失效,页面并不现实copy按钮

<json-viewer :value"props.row.param_detail.query" :expand-depth"10" copyable> </json-viewer> 官方文档中&#xff0c;说明&#xff0c;只要在json-viewer中加入 copyable属性&#xff0c;即可实现copy功能&#xff0c;如下图&#xff1…

基于IDEA的Maven(properties属性配置)

&#xff08;property &#xff1a;财产&#xff09;properties&#xff1a;它的复数。 同样也是基于上篇博客进行学习。&#xff08;具体的全部项目代码和结构可以去查看上篇...&#xff09; <properties><!--当前jdk版本 , 这一步可以完全省略--><maven.com…

Swift开发——简单函数实例

函数是模块化编程的基本单位,将一组完成特定功能的代码“独立”地组成一个执行单位,称为函数。函数的基本结构如下所示: 其中,func为定义函数的关键字;“函数名”是调用函数的入口;每个函数可以有多个参数,即可以有多个“参数标签 参数名称:参数类型”,一般地,各个参…

CSS【详解】样式选择器的优先级(含提升优先级的方法)

数值越大&#xff0c;优先级越高&#xff0c;尽量保持较低的优先级&#xff0c;以便使用更高优先级的选择器重置样式 0级——通配选择器、选择符和逻辑组合伪类。逻辑组合伪类有:not()、:is()和:where等&#xff0c;这些伪类本身并不影响CSS优先级&#xff0c;影响优先级的是括…

【qt5生成软件-can卡-上位机-无法加载ControlCAN.dll错误代码(0xc0150002)等相关问题-WIN11系统-尝试解决】

【qt5生成软件-无法加载ControlCAN.dll&错误代码0xc0150002&#xff1a;-等相关问题-WIN11系统-尝试解决-总结整理】 1.前言2.环境说明3.问题说明4.尝试方法总结&#xff08;1&#xff09;更新支持包c库&#xff08;2&#xff09;更新USB相关驱动&#xff08;3&#xff09;…

valgrind工具的交叉编译及使用

一 概述 valgrind是一款非常好用的工具&#xff0c;用于检测内存泄漏等&#xff0c;这里讲述如何将其交叉编译到arm开发板及如何使用 【C/C 集成内存调试、内存泄漏检测和性能分析的工具 Valgrind 】Linux 下 Valgrind 工具的全面使用指南 - 知乎 (zhihu.com) valgrind: fai…