大模型机器人的爆发时刻：OpenAI参与打造的Figure 01——直接口头支配机器人干活

大模型机器人的爆发时刻：OpenAI参与打造的Figure 01——直接口头支配机器人干活

news2025/4/26 14:27:05

前言

一年多前，OpenAI重塑了聊天机器人，彻底推动大模型技术的突飞猛进，一个月前，OpenAI又重塑了视频生成，当sora的热度还在持续时，没想到OpenAI在机器人领域也出手了，和Figure联合打造的人形机器人，边与人类自然流畅对话、边干活(给人类苹果、整理桌面)

第一部分 Figure人形机器人

1.1 史无前例：Figure人形机器人的惊艳时刻

1.2 机器人与人类流畅对话并流畅干活背后的原理

Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了此次视频中机器人互动背后的原理

此次的突破，由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解，而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作

机器人所做出的所有行为都是出于已经学习过，内化了的能力，而不是来自远程操作

整个流程为：图像 + speech to text =》VLM推理得到response =》speak出来，具体则如下

研究人员将机器人摄像头中的图像输入(Figure 的机载摄像头以 10hz 的频率拍摄图像)，和机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的，可以理解图像和文本的多模态模型（VLM）中
由该模型处理对话的整个历史记录，得出语言响应
最后通过文本到语音的方式将其回复给人类

同样的模型，也负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令，将特定的神经网络权重加载到 GPU 上并执行策略

这也是为什么这个机器人，属于「端到端」的机器人控制。从语言输入开始，模型接管了一切处理，直接输出语言和行为结果，而不是中间输出一些结果，再加载其他程序处理这些结果

1.2.1 OpenAI的VLM模型

OpenAI 的模型的多模态能力，是机器人可以与世界交互的关键，我们能够从视频中展示中看到许多类似的瞬间，比如：

描述一下它的周围环境
做出决定时使用常识推理。例如，「桌子上的盘子和杯子等餐具接下来很可能会进入晾衣架」
将「我饿了」等模棱两可的高级请求转化为一些适合上下文的行为，例如「递给对方一个苹果」
用简单的英语描述*为什么*它会执行特定的操作。例如，「这是我可以从桌子上为您提供的唯一可食用的物品」

而模型能力的强大，使其还能够拥有短期记忆，比如视频中展示的「你能把它们放在那里吗？」「它们」指的是什么？「那里」又在哪里？正确回答需要反思记忆的能力

1.2.2 机器人动作的预测与执行

而具体的双手动作，可以分成两步来理解：

首先，互联网预训练模型对图像和文本进行常识推理，以得出高级计划。如视频中展示的：Figure 的人形机器人快速形成了两个计划：1）将杯子放在碗碟架上，2）将盘子放在碗碟架上。

其次，大模型以 200hz 的频率生成的 24-DOF 动作（手腕姿势和手指关节角度），充当高速「设定点（setpoint）」，供更高速率的全身控制器跟踪。全身控制器确保安全、稳定的动力，如保持平衡

所有行为均由Transformer 策略驱动(比如mobile aloha所用过的ACT算法)，将像素直接映射到动作

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1522265.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

JUC之Java对象内存布局

JUC之Java对象内存布局

Java对象对象在堆中的存储布局它保存了什么对象指向它的类元数据的指针，虚拟机通过这个指针来确定这个对象是哪个类的实例对象头有多大？在64位系统中，Mark Word占了8个字节，类型指针占了8个字节，一共是16个字…

阅读更多...

flink1.18.0报错 an implicit exists from scala.Int =＞ java.lang.Integer, but

flink1.18.0报错 an implicit exists from scala.Int =＞ java.lang.Integer, but

完整报错 type mismatch;found : Int(100)required: Object Note: an implicit exists from scala.Int > java.lang.Integer, but methods inherited from Object are rendered ambiguous. This is to avoid a blanket implicit which would convert any scala.Int to a…

阅读更多...

Qt 写一个邮件发送程序

Qt 写一个邮件发送程序

最近在完成一个邮箱代替的告警功能，写了一个邮件发送的demo 以下为代码： #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include<QTcpSocket> namespace Ui { class MainWindow; }class MainWindow : public QMainWin…

阅读更多...

【C语言初阶（五）】数组

【C语言初阶（五）】数组

❣博主主页: 33的博客❣ ▶文章专栏分类: C语言从入门到精通◀ 🚚我的代码仓库: 33的代码仓库🚚 目录 1. 前言2.一维数组的概念3.一维数组的创建和初始化3.1数组的创建3.2数组的初始化3.3数组的类型 4.一维数组的使用4.1数组下标4.2数组元素打印4.4数组元…

阅读更多...

Avalonia学习1：下载通用皮肤SukiUI，并在windows上启动成功

Avalonia学习1：下载通用皮肤SukiUI，并在windows上启动成功

目录 1、引言 2、碰到的问题 1、下载下拉VS2022老版本的用不了。 2、升级后，发现没有装wsl，导致启动不了，但wsl又由于国内的关系安装不了，怎么办呢， 1、引言最近在想有没有什么可以开发在Linux下运行…

阅读更多...

项目实践《招聘网站数据爬取》

项目实践《招聘网站数据爬取》

文章目录一、模块导入部分二、预定义参数部分三、函数定义部分：send_get(page)四、函数定义部分：process_data(data)五、函数定义部分：responsibility(job_url)六、函数定义部分：while_data()七、主程序执行部分：八、…

阅读更多...

antd5 虚拟列表原理（rc-virtual-list）

antd5 虚拟列表原理（rc-virtual-list）

github:https://github.com/react-component/virtual-list rc-virtual-list 版本 3.11.4(2024-02-01) 版本：virtual-list-3.11.4 Development npm install npm start open http://localhost:8000/List 组件接收 Props PropDescriptionTypeDefaultchildrenRender …

阅读更多...

57、服务攻防——应用协议RsyncSSHRDP漏洞批扫口令猜解

57、服务攻防——应用协议RsyncSSHRDP漏洞批扫口令猜解

文章目录口令猜解——Hydra-FTP&RDP&SSH配置不当——未授权访问—Rsync文件备份协议漏洞——应用软件-FTP&Proftpd搭建口令猜解——Hydra-FTP&RDP&SSH FTP：文本传输协议，端口21；RDP：windows上远程终端协议…

阅读更多...

华为WLAN配置攻击检测功能示例

华为WLAN配置攻击检测功能示例

华为WLAN配置攻击检测功能示例组网图形图1 配置攻击检测功能组网图配置流程组网需求配置思路配置注意事项操作步骤配置文件配置流程 WLAN不同的特性和功能需要在不同类型的模板下进行配置和维护，这些模板统称为WLAN模板，如域管理模板、射频模板、…

阅读更多...

Linux使用git命令行教程

Linux使用git命令行教程

. 个人主页：晓风飞专栏：数据结构|Linux|C语言路漫漫其修远兮，吾将上下而求索文章目录 git安装git仓库的创建.git 文件添加文件git 三板斧(add,commit,push)解释拓展git log.gitignore git安装首先输入git --version看看有没有安装git 如…

阅读更多...

力扣每日一题矩阵中移动的最大次数 DP

力扣每日一题矩阵中移动的最大次数 DP

Problem: 2684. 矩阵中移动的最大次数复杂度 ⏰ 时间复杂度: O ( n m ) O(nm) O(nm) 🌎 空间复杂度: O ( n m ) O(nm) O(nm) Code class Solution { public int maxMoves(int[][] grid){int n grid.length;int m grid[0].length;int[][] f new int[n][m]…

阅读更多...

嵌入式硬件设计（一）|利用 NodeMCU-ESP8266 开发板和继电器结合APP“点灯•blinker”制作Wi-Fi智能开关（附有关硬件详细资料）

概述本文主要讲述利用 NodeMCU-ESP8266 开发板和继电器通过手机 APP “ 点灯 • Blinker ” 制作一款能够由手机控制的WiFi 智能开关，从而实现智能物联。NodeMCU 是基于 Lua 的开源固件，ESP8266-NodeMCU是一个开源硬件开发板，支持WiFi功能&a…

阅读更多...

SAP CAP篇十五：写个ERP的会计系统吧，Part II

SAP CAP篇十五：写个ERP的会计系统吧，Part II

本文目录本系列文章目标开发步骤数据库表设计初始数据初始数据：AccountCategories初始数据：AccountUsages初始数据：ChartOfAccounts初始数据：AccountSubjects Service 定义生成Fiori AppApp运行本系列文章 SAP CAP篇一: 快速创…

阅读更多...

$ABC345(A-C)$

ABC345(A-C)

A - Leftrightarrow(100 points) 语法题，输入一个字符串，判断是否是：的样式，输入后只需判断是第一个和最后一个字符是否分别为">"和"<",再判断中间是否都是""即可。 #include<bits/stdc…

阅读更多...

zookeeper快速入门二：zookeeper基本概念

zookeeper快速入门二：zookeeper基本概念

本文是zookeeper系列之快速入门中的第二篇，欢迎大家观看与指出不足。目录一、zookeeper的存储结构二、什么是znode 三、znode节点的四种类型四、权限控制ACL（Access Control List） 五、事件监听watcher 一、zookeeper的存储结构 z…

阅读更多...

消息队列思想学习（以及池化思想延展）

消息队列思想学习（以及池化思想延展）

目录消息队列的功能消息中间件必备池化思想以及弹性线程池的设计弹性连接池 [核心参数：初始连接数，最大连接数，最大空闲时间] 弹性线程池 [核心参数：coreThreadCount, maxThreadCount] 引言：为啥要把消息队列…

阅读更多...

C语言从入门到熟悉------第五阶段

C语言从入门到熟悉------第五阶段

结构体结构体很重要，一定要掌握。但是在很多C语言书籍中结构体的内容讲得非常少，因为从结构体开始，后面介绍的内容已经超出C语言基础的范畴，属于C高级编程部分了。仅仅具备前面的知识是远远不够的，因为在实际编程中&…

阅读更多...

用 Visual Studio 调试器中查看内存中图像

用 Visual Studio 调试器中查看内存中图像

返回目录：OpenCV系列文章目录（持续更新中......） 前一篇：OpenCV4.9.0在windows系统下的安装后一篇： 警告本教程可以包含过时的信息。 Image Watch 是 Microsoft Visual Studio 的插件，可用于在调…

阅读更多...

鸿蒙Harmony应用开发—ArkTS声明式开发（基础手势：Rating）

鸿蒙Harmony应用开发—ArkTS声明式开发（基础手势：Rating）

提供在给定范围内选择评分的组件。说明： 该组件从API Version 7开始支持。后续版本如有新增内容，则采用上角标单独标记该内容的起始版本。子组件无接口 Rating(options?: { rating: number, indicator?: boolean }) 从API version 9开始&#…

阅读更多...

linux源配置：ubuntu、centos

linux源配置：ubuntu、centos

1、ubuntu源配置 1）先查电脑版本型号: lsb_release -c2）再编辑源更新，源要与上面型号对应参考：https://midoq.github.io/2022/05/30/Ubuntu20-04%E6%9B%B4%E6%8D%A2%E5%9B%BD%E5%86%85%E9%95%9C%E5%83%8F%E6%BA%90/ /etc/apt/…

阅读更多...

推荐文章

最新文章