【AI学习】[2024北京智源大会]具身智能：面向通用机器人的具身多模态大模型系统

【AI学习】[2024北京智源大会]具身智能：面向通用机器人的具身多模态大模型系统

news2026/2/11 21:35:37

面向通用机器人的具身多模态大模型系统
王鹤 | 北京大学助理教授，智源学者

边听边做一些记录
在这里插入图片描述

一、通用机器人的概念和发展趋势，以及实现通用机器人的基石层、大脑和小脑模型等方面的思考和探索。

主要观点：人形机器人，是未来发展的终局
人形，是能找到最大公约数，但是不等于都是人性，专业机器人有其他形态，但是，通用机器人应该是人形
直立时，手只能到这，摸不到脚，腿的重要性！
腿的作用：环境通用，另外一个作用，是辅助手，到达手到达不了的地方
今天做本体，机器人的腿还达不到人的程度，需要采用渐进式的发展方式
今天所有的人形机器人，给它一个地面的点，让它泛化的弯腰去捞这个点，这个人形机器人不摔，这在世界范围内没有实现
从本体层，需要思考，当下设计本体层，在非拥挤场景下达到人的灵活度和操作空间
通用机器人的未来还是属于腿，轮的方式还是有限制，什么时候腿可以弯曲，做各种动作不倒，是具身智能的一大挑战，希望未来五年可以发展出来
全身控制能力受腿技能不足和成本挑战，需务实考虑

二、人形机器人的发展现状和挑战，探讨了本体层和数据层的考虑因素，提出了合成数据是实现具身智能的关键。

数据：采集成本高昂，特斯拉靠人力采集自动驾驶数据，但未来需依赖机器人操作
数据：谷歌的RT系列的demo，和特斯拉的demo，都是来自人类的遥操作
把电池放到盒子里，特斯拉的采集，公开数据，有40人的团队进行遥操作，这个遥操作是一个排列组合的问题，考虑泛化，每一个技能都需要采集大量的数据，特斯拉的方案是几百万到上千万美元
谷歌是17个月，采集了13万条数据
特斯拉和谷歌，都依赖人力，这里有路径依赖
特斯拉靠人力采集，把自动驾驶作成了，这后面是100万量上亿小时的数据
但是，人形机器人，从0开始，这个数据很难突破
所以，综合考量，合成数据是从零到一转化的一个可能方式

三、一种基于合成数据的抓取技能训练方法

该方法能够实现对各种物体的稳定抓取，具有很高的自由度和泛化性。通过合成数据来回答scaling law问题，以及使用seem to real技术抓取关节类物体和操纵全身机器人的能力，并探讨了多模态大模型在开放语义抓取放置任务中的应用。
在这里插入图片描述
3D数据的适应性优势：
距离感知比二维数据有更多信息，可提高样本效率
对比2D数据有10000倍的采样效率
合成数据可实现泛化，提高技能稳定性

灵巧手随意抓取的demo，还没有看到，自由度有23个，但是训练难度也越大。从洗盘到二指到灵巧收，自由度越来越高，训练难度越来越大

在这里插入图片描述
具身智能数据可用于灵巧手抓取学习，做了试验，需要5亿以上数据进行训练，成功率达到85.8

灵巧手需要的数据太多，因为任务是无穷无尽。
所以什么时候涌现？还是路漫漫！

四、小脑之上的大脑，如何互动的问题

在这里插入图片描述
Google RT-2方案，VLA大模型，言出法随，实现了语言和动作一个模型输出，是大小脑一体模型，比较大一统，只做了55B的模型，但速度较慢

提出一个三层级的大模型，保证快速和泛化

Open6DOR ，提供训练集和 baseline，做到能抓也能放
在这里插入图片描述
CVPR的论文！进行跨类别的操作零部件的分割和识别

一个机器人系统，该系统使用了GP4V和大小模型的耦合来完成各种任务，包括抓取、放置、导航等。该系统的愿景是构建一个通用机器人系统。
描述水豚玩具的抓取和放置技能。
GP4V可以识别零部件并调用技能模型完成任务。

五、未来，还是端到端具身大模型

感知、规划、控制……再到端到端
在这里插入图片描述
大模型的魅力在于不需要深度图或点云，只需要视觉观察就能完成任务

最终，会有大脑大模型、小脑大模型一起把本体穿起来，形成本体技能。

最后，展示机器人的规划和操作能力，包括抓取、清理和泛化性操作。

视频链接：https://www.bilibili.com/video/BV1Zx4y147os/?spm_id_from=333.1007.tianma.2-3-6.click&vd_source=986224b0c4e79ec28556778dc7d42405

备注：最近读了文章《用苹果Vision Pro隔空操控机器人，英伟达：「人机合一」也不难嘛》（链接：https://mp.weixin.qq.com/s/jqkSDodUec4DMsV5U3rDoA），展示的数据思路：人类在真实机器人身上收集演示数据，而英伟达在仿真中将这些数据扩展千倍及以上

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1972192.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

基于SpringBoot+Vue的校园便利平台(带1w+文档)

基于SpringBoot+Vue的校园便利平台(带1w+文档)

基于SpringBootVue的校园便利平台(带1w文档) 基于SpringBootVue的校园便利平台(带1w文档) 本平台采用B/S架构、采用的数据库是MySQL，使用JAVA技术开发。该平台的开发方式无论在国内还是国外都比较常见，而且开发完成后使用普遍，可以给平台用户…

阅读更多...

多址技术（FDMA，TDMA，CDMA，帧，时隙）（通俗易懂）

多址技术（FDMA，TDMA，CDMA，帧，时隙）（通俗易懂）

多址技术是一种区分用户的技术。举个例子，一个基站发出信息，如何确定是发给谁的？ 这个技术就是解决这个问题的。多址技术常见的有三种： 频分多址（FDMA）、时分多址（TDMA）、码分…

阅读更多...

程序员学长 | 快速学习一个算法，UNet

程序员学长 | 快速学习一个算法，UNet

本文来源公众号“程序员学长”，仅用于学术分享，侵权删，干货满满。原文链接：快速学习一个算法，UNet 今天给大家分享一个超强的算法模型，UNet UNet 是一种卷积神经网络架构，最初由 Olaf Ronne…

阅读更多...

快速排序（下）

快速排序（下）

快速排序（下） 前言在上一篇文章中我们了解了快速排序算法，但那是Hoare的版本，其实还有别的版本：一种是挖坑法，它们的区别主要在于如何找基准值。霍尔的版本思路难理解但代码好理解，挖坑法则是…

阅读更多...

Java新特性（二） Stream与Optional详解

Java新特性（二） Stream与Optional详解

Java8新特性（二） Stream与Optional详解一. Stream流 1. Stream概述 1.1 基本概念 Stream（java.util.stream） 是Java 8中新增的一种抽象流式接口，主要用于配合Lambda表达式提高批量数据的计算和处理效率。Stream不是…

阅读更多...

【前端】中后台框架添加其他布局的探索

【前端】中后台框架添加其他布局的探索

文章目录前言需求整理第一步：实现可切换布局第二步：配置页面顶部的路由（一级路由）第三部：配置左侧二级和二级以上的路由第四部：给侧边栏加一个动画第五部：刷新页面之后顶部路由、左侧路由的回显…

阅读更多...

5款免费写作生成软件，自动生成原创文章很简单

5款免费写作生成软件，自动生成原创文章很简单

在人工智能时代的今天，创作者面对写作不再是一件令人望而生畏的事情。随着AI技术的不断发展，涌现出了许多优秀的免费写作生成软件，让自动生成原创文章变得轻松简单。以下为大家详细介绍5款备受赞誉的免费写作生成软件，下面跟随小编…

阅读更多...

硬盘数据丢失不再怕，四大恢复工具帮你轻松逆转局面！

硬盘数据丢失不再怕，四大恢复工具帮你轻松逆转局面！

硬盘故障、误删文件、病毒攻击等原因导致数据丢失的情况时有发生。面对这种情况，如何高效、快速地进行硬盘数据恢复呢？接下来几款好用的数据恢复软件推荐给大家。一、福昕数据恢复：全方位恢复，让数据无遗漏链接：ww…

阅读更多...

手把手教你OpenCV实现实时人脸检测（C++）

手把手教你OpenCV实现实时人脸检测（C++）

目录 1，原理介绍 2，代码讲解 3，全部代码 4，结果展示 1，原理介绍 haarcascade_frontalface_default.xml 是一个 XML 文件，它包含了使用 Haar 特征分类器训练得到的人脸检测模型。这个模型是 OpenCV 库自…

阅读更多...

【小知识】站在前人的肩膀上写程序——STL库初阶算法函数的使用

【小知识】站在前人的肩膀上写程序——STL库初阶算法函数的使用

【小知识】站在前人的肩膀上写程序——STL库初阶算法函数的使用 1.墨水瓶算法和swap函数2.打擂台算法和max，min函数3.排序——sort函数 1.墨水瓶算法和swap函数如果想交换两个墨水瓶的墨水该怎么办呢？我们可以准备第三个墨水瓶。将第一个墨水瓶的墨水倒…

阅读更多...

linux安装配置jdk

linux安装配置jdk

①下载jdk安装包，放在/opt/app/software/java下 cd /opt/app/software/java②进行解压操作 tar -zxvf jdk-8u251-linux-x64.tar.gz③解压完成之后，进行环境变量的配置，shell下执行 vi ~/.bash_profile根据jdk的安装目录，加入 …

阅读更多...

LeeCode Practice Journal | Day31_GA05

LeeCode Practice Journal | Day31_GA05

56. 合并区间题目：56. 合并区间 - 力扣（LeetCode） 题解：代码随想录 (programmercarl.com) 思路很清晰，对数组的操作稀烂，细节上也出现很多问题 solution public class Solution {public int[][] Merge(in…

阅读更多...

2024全新Thinkphp聊天室H5实时聊天室群聊聊天室自动分配账户完群组/私聊/禁言等功能/全开源运营版本

2024全新Thinkphp聊天室H5实时聊天室群聊聊天室自动分配账户完群组/私聊/禁言等功能/全开源运营版本

全开源运营版本聊天室H5实时聊天室群聊聊天室自动分配账户完群组/私聊/禁言等功能运营版本的聊天室，可以添加好友，建立群组，私聊，禁言功能 H5TP5.0mysqlPHP 源码开源不加密

阅读更多...

【python】Python二手房住房数据抓取可视化（源码+数据集+论文）【独一无二】

【python】Python二手房住房数据抓取可视化（源码+数据集+论文）【独一无二】

👉博__主👈：米码收割机 👉技__能👈：C/Python语言 👉公众号👈：测试开发自动化【获取源码商业合作】 👉荣__誉👈：阿里云博客专家博主、5…

阅读更多...

python爬取豆瓣电影top250-python实战项目，手把手教学，附源码

python爬取豆瓣电影top250-python实战项目，手把手教学，附源码

目录 1、分析网页2、请求服务器 2.1导入包2.2设置浏览器代理2.3请求服务器格式2.4请求服务器代码汇总 3.xpath提取信息 3.1获取xpath节点的方法3.2xpath提取内容3.2.1提取文本3.2.2提取链接3.2.3提取标签元素 4.正则表达式 4.1提取固定位置的信息4.2匹配出数字 5、提取一页中的…

阅读更多...

Java 并发编程：Java 线程池的介绍与使用

Java 并发编程：Java 线程池的介绍与使用

大家好，我是栗筝i，这篇文章是我的 “栗筝i 的 Java 技术栈” 专栏的第 024 篇文章，在 “栗筝i 的 Java 技术栈” 这个专栏中我会持续为大家更新 Java 技术相关全套技术栈内容。专栏的主要目标是已经有一定 Java 开发经验，并希望进…

阅读更多...

细分 Insight 合作伙伴 2024 年企业技术状况报告

细分 Insight 合作伙伴 2024 年企业技术状况报告

Insight Partners 的团队刚刚发布了 2024 年企业技术状况报告。在 60 幻灯片中有很多东西可以消耗，但我们挑选了应该让我们的观众感兴趣的东西 - 坦率地说，有很多有趣的东西。我将把调查方法的东西留给你使用，但足以说样本量很大，…

阅读更多...

dami支付漏洞

dami支付漏洞

使用burpsuite等抓包工具，抓取数据包后，修改数据包中的参数从而达到支付篡改的目的；篡改的参数：商品ID，购买价格，购买数量，手机号码，订单D，支付状态常见漏洞利用手段…

阅读更多...

国家网络身份个人认证方法

国家网络身份个人认证方法

申领网络身份认证后，用户会得到一张虚拟的“网络身份证”，它可以向需要实名认证的互联网平台进行认证，不再需要输入姓名和身份证号等信息。申请方式：各手机应用平台搜索国家网络身份认证即可（必须支持NFC才能申请&am…

阅读更多...

AI产品经理必备：什么是LLM,有什么优劣势

AI产品经理必备：什么是LLM,有什么优劣势

LLM（Large Language Model大型语言模型）是一种人工智能技术，能够理解和生成自然语言文本。LLM可以应用于多种场景，包括自然语言理解、文本生成、机器翻译、对话系统、问答系统、文本摘要、情感分析等。可以帮助人们快速生成文章、…

阅读更多...

推荐文章

最新文章