【AI学习】[2024北京智源大会]具身智能:面向通用机器人的具身多模态大模型系统

news2024/9/22 21:22:26

面向通用机器人的具身多模态大模型系统
王 鹤 | 北京大学助理教授,智源学者

边听边做一些记录
在这里插入图片描述

一、通用机器人的概念和发展趋势,以及实现通用机器人的基石层、大脑和小脑模型等方面的思考和探索。

主要观点:人形机器人,是未来发展的终局
人形,是能找到最大公约数,但是不等于都是人性,专业机器人有其他形态,但是,通用机器人应该是人形
直立时,手只能到这,摸不到脚,腿的重要性!
腿的作用:环境通用,另外一个作用,是辅助手,到达手到达不了的地方
今天做本体,机器人的腿还达不到人的程度,需要采用渐进式的发展方式
今天所有的人形机器人,给它一个地面的点,让它泛化的弯腰去捞这个点,这个人形机器人不摔,这在世界范围内没有实现
从本体层,需要思考,当下设计本体层,在非拥挤场景下达到人的灵活度和操作空间
通用机器人的未来还是属于腿,轮的方式还是有限制,什么时候腿可以弯曲,做各种动作不倒,是具身智能的一大挑战,希望未来五年可以发展出来
全身控制能力受腿技能不足和成本挑战,需务实考虑

二、人形机器人的发展现状和挑战,探讨了本体层和数据层的考虑因素,提出了合成数据是实现具身智能的关键。

数据:采集成本高昂,特斯拉靠人力采集自动驾驶数据,但未来需依赖机器人操作
数据:谷歌的RT系列的demo,和特斯拉的demo,都是来自人类的遥操作
把电池放到盒子里,特斯拉的采集,公开数据,有40人的团队进行遥操作,这个遥操作是一个排列组合的问题,考虑泛化,每一个技能都需要采集大量的数据,特斯拉的方案是几百万到上千万美元
谷歌是17个月,采集了13万条数据
特斯拉和谷歌,都依赖人力,这里有路径依赖
特斯拉靠人力采集,把自动驾驶作成了,这后面是100万量上亿小时的数据
但是,人形机器人,从0开始,这个数据很难突破
所以,综合考量,合成数据是从零到一转化的一个可能方式

三、一种基于合成数据的抓取技能训练方法

该方法能够实现对各种物体的稳定抓取,具有很高的自由度和泛化性。通过合成数据来回答scaling law问题,以及使用seem to real技术抓取关节类物体和操纵全身机器人的能力,并探讨了多模态大模型在开放语义抓取放置任务中的应用。
在这里插入图片描述
3D数据的适应性优势:
距离感知比二维数据有更多信息,可提高样本效率
对比2D数据有10000倍的采样效率
合成数据可实现泛化,提高技能稳定性

灵巧手随意抓取的demo,还没有看到,自由度有23个,但是训练难度也越大。从洗盘到二指到灵巧收,自由度越来越高,训练难度越来越大

在这里插入图片描述
具身智能数据可用于灵巧手抓取学习,做了试验,需要5亿以上数据进行训练,成功率达到85.8

灵巧手需要的数据太多,因为任务是无穷无尽。
所以什么时候涌现?还是路漫漫!

四、小脑之上的大脑,如何互动的问题

在这里插入图片描述
Google RT-2方案,VLA大模型,言出法随,实现了语言和动作一个模型输出,是大小脑一体模型,比较大一统,只做了55B的模型,但速度较慢
在这里插入图片描述
提出一个三层级的大模型,保证快速和泛化
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Open6DOR ,提供训练集和 baseline,做到能抓也能放
在这里插入图片描述
CVPR的论文!进行跨类别的操作零部件的分割和识别
在这里插入图片描述
在这里插入图片描述

一个机器人系统,该系统使用了GP4V和大小模型的耦合来完成各种任务,包括抓取、放置、导航等。该系统的愿景是构建一个通用机器人系统。
描述水豚玩具的抓取和放置技能。
GP4V可以识别零部件并调用技能模型完成任务。

五、未来,还是端到端具身大模型

感知、规划、控制……再到端到端
在这里插入图片描述
大模型的魅力在于不需要深度图或点云,只需要视觉观察就能完成任务
在这里插入图片描述
最终,会有大脑大模型、小脑大模型一起把本体穿起来,形成本体技能。

最后,展示机器人的规划和操作能力,包括抓取、清理和泛化性操作。

视频链接:https://www.bilibili.com/video/BV1Zx4y147os/?spm_id_from=333.1007.tianma.2-3-6.click&vd_source=986224b0c4e79ec28556778dc7d42405

备注:最近读了文章《用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛》(链接:https://mp.weixin.qq.com/s/jqkSDodUec4DMsV5U3rDoA),展示的数据思路:人类在真实机器人身上收集演示数据,而英伟达在仿真中将这些数据扩展千倍及以上

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1972192.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SpringBoot+Vue的校园便利平台(带1w+文档)

基于SpringBootVue的校园便利平台(带1w文档) 基于SpringBootVue的校园便利平台(带1w文档) 本平台采用B/S架构、采用的数据库是MySQL,使用JAVA技术开发。该平台的开发方式无论在国内还是国外都比较常见,而且开发完成后使用普遍,可以给平台用户…

多址技术(FDMA,TDMA,CDMA,帧,时隙)(通俗易懂)

多址技术是一种区分用户的技术。 举个例子,一个基站发出信息,如何确定是发给谁的? 这个技术就是解决这个问题的。 多址技术常见的有三种: 频分多址(FDMA)、时分多址(TDMA)、码分…

程序员学长 | 快速学习一个算法,UNet

本文来源公众号“程序员学长”,仅用于学术分享,侵权删,干货满满。 原文链接:快速学习一个算法,UNet 今天给大家分享一个超强的算法模型,UNet UNet 是一种卷积神经网络架构,最初由 Olaf Ronne…

快速排序(下)

快速排序(下) 前言 在上一篇文章中我们了解了快速排序算法,但那是Hoare的版本,其实还有别的版本:一种是挖坑法,它们的区别主要在于如何找基准值。霍尔的版本思路难理解但代码好理解,挖坑法则是…

Java新特性(二) Stream与Optional详解

Java8新特性(二) Stream与Optional详解 一. Stream流 1. Stream概述 1.1 基本概念 Stream(java.util.stream) 是Java 8中新增的一种抽象流式接口,主要用于配合Lambda表达式提高批量数据的计算和处理效率。Stream不是…

【前端】中后台框架 添加其他布局的探索

文章目录 前言需求整理第一步:实现可切换布局第二步:配置页面顶部的路由(一级路由)第三部:配置左侧二级和二级以上的路由第四部:给侧边栏加一个动画第五部:刷新页面之后顶部路由、左侧路由的回显…

5款免费写作生成软件,自动生成原创文章很简单

在人工智能时代的今天,创作者面对写作不再是一件令人望而生畏的事情。随着AI技术的不断发展,涌现出了许多优秀的免费写作生成软件,让自动生成原创文章变得轻松简单。以下为大家详细介绍5款备受赞誉的免费写作生成软件,下面跟随小编…

硬盘数据丢失不再怕,四大恢复工具帮你轻松逆转局面!

硬盘故障、误删文件、病毒攻击等原因导致数据丢失的情况时有发生。面对这种情况,如何高效、快速地进行硬盘数据恢复呢?接下来几款好用的数据恢复软件推荐给大家。 一、福昕数据恢复:全方位恢复,让数据无遗漏 链接:ww…

手把手教你OpenCV实现实时人脸检测(C++)

目录 1,原理介绍 2,代码讲解 3,全部代码 4,结果展示 1,原理介绍 haarcascade_frontalface_default.xml 是一个 XML 文件,它包含了使用 Haar 特征分类器训练得到的人脸检测模型。这个模型是 OpenCV 库自…

【小知识】站在前人的肩膀上写程序——STL库初阶算法函数的使用

【小知识】站在前人的肩膀上写程序——STL库初阶算法函数的使用 1.墨水瓶算法和swap函数2.打擂台算法和max,min函数3.排序——sort函数 1.墨水瓶算法和swap函数 如果想交换两个墨水瓶的墨水该怎么办呢?我们可以准备第三个墨水瓶。将第一个墨水瓶的墨水倒…

linux安装配置jdk

①下载jdk安装包,放在/opt/app/software/java下 cd /opt/app/software/java②进行解压操作 tar -zxvf jdk-8u251-linux-x64.tar.gz③解压完成之后,进行环境变量的配置,shell下执行 vi ~/.bash_profile根据jdk的安装目录,加入 …

LeeCode Practice Journal | Day31_GA05

56. 合并区间 题目:56. 合并区间 - 力扣(LeetCode) 题解:代码随想录 (programmercarl.com) 思路很清晰,对数组的操作稀烂,细节上也出现很多问题 solution public class Solution {public int[][] Merge(in…

2024全新Thinkphp聊天室H5实时聊天室群聊聊天室自动分配账户完群组/私聊/禁言等功能/全开源运营版本

全开源运营版本聊天室H5实时聊天室群聊聊天室自动分配账户完群组/私聊/禁言等功能 运营版本的聊天室,可以添加好友,建立群组,私聊,禁言功能 H5TP5.0mysqlPHP 源码开源不加密

【python】Python二手房住房数据抓取可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

python爬取豆瓣电影top250-python实战项目,手把手教学,附源码

目录 1、分析网页2、请求服务器 2.1导入包2.2设置浏览器代理2.3请求服务器格式2.4请求服务器代码汇总 3.xpath提取信息 3.1获取xpath节点的方法3.2xpath提取内容3.2.1提取文本3.2.2提取链接3.2.3提取标签元素 4.正则表达式 4.1提取固定位置的信息4.2匹配出数字 5、提取一页中的…

Java 并发编程:Java 线程池的介绍与使用

大家好,我是栗筝i,这篇文章是我的 “栗筝i 的 Java 技术栈” 专栏的第 024 篇文章,在 “栗筝i 的 Java 技术栈” 这个专栏中我会持续为大家更新 Java 技术相关全套技术栈内容。专栏的主要目标是已经有一定 Java 开发经验,并希望进…

细分 Insight 合作伙伴 2024 年企业技术状况报告

Insight Partners 的团队刚刚发布了 2024 年企业技术状况报告。在 60 幻灯片中有很多东西可以消耗,但我们挑选了应该让我们的观众感兴趣的东西 - 坦率地说,有很多有趣的东西。我将把调查方法的东西留给你使用,但足以说样本量很大,…

dami支付漏洞

使用burpsuite等抓包工具,抓取数据包后,修改数据包中的参数从而达到支付篡改的目的;篡 改的参数:商品ID,购买价格,购买数量,手机号码,订单D,支付状态 常见漏洞利用手段…

国家网络身份个人认证方法

申领网络身份认证后,用户会得到一张虚拟的“网络身份证”,它可以向需要实名认证的互联网平台进行认证,不再需要输入姓名和身份证号等信息。 申请方式:各手机应用平台搜索国家网络身份认证即可(必须支持NFC才能申请&am…

AI产品经理必备:什么是LLM,有什么优劣势

LLM(Large Language Model大型语言模型)是一种人工智能技术,能够理解和生成自然语言文本。LLM可以应用于多种场景,包括自然语言理解、文本生成、机器翻译、对话系统、问答系统、文本摘要、情感分析等。可以帮助人们快速生成文章、…