OpenAI机器人,一出手就是王炸

news2025/1/16 3:58:09

「借助 OpenAI 的能力,Figure 01 现在可以与人全面对话了!」

本周三,半个硅谷都在投的明星机器人创业公司Figure,发布了自己第一个 OpenAI 大模型加持的机器人 demo。

这家公司在 3 月 1 日刚刚宣布获得 OpenAI 等公司的投资,才十几天就直接用上了 OpenAI 的多模态大模型。

如你所见,得到 OpenAI 大模型能力加持的 Figure 01 现在是这个样子的。

它可以为听从人类的命令,递给人类苹果。

将黑色塑料袋收拾进框子里。

将杯子和盘子归置放在沥水架上。

需要强调的是:你看到的这一切,只用到了一个神经网络。

广大网友在看到如此惊艳的 demo 后,对机器人的发展速度感到震惊,我们似乎正处在这场汹涌的进化浪潮中。甚至有人感叹,已经准备好迎接更多的机器人了。

还有网友调侃道:「波士顿动力:好的,伙计们,这是一场真正的竞争。让我们回到实验室,设计更多舞蹈套路。」

所有这些,全是机器人自学的!

Figure创始人Brett Adcock表示,视频中Figure 01展示了端到端神经网络框架下与人类的对话,没有任何远程操作。并且,机器人的速度有了显著的提升,开始接近人类的速度。

Figure机器人操作高级AI工程师Corey Lynch介绍了此次Figure 01的技术原理。他表示,Figure 01现在可以做到以下这些:

  • 描述其视觉体验

  • 规划未来的行动

  • 反思自己的记忆

  • 口头解释推理过程



他接着解释道,视频中机器人的所有行为都是学到的(再次强调不是远程操作),并以正常速度(1.0x)运行。

在具体实现过程中,他们将机器人摄像头中的图像输入,并将机载麦克风捕获的语音文本转录到由 OpenAI训练的大型多模态模型中,该模型可以理解图像和文本。该模型对整个对话记录进行处理,包括过去的图像,从而获得语言响应,然后通过文本到语音的方式将其回复给人类。

此外,该模型负责决定在机器人上运行哪些学习到的闭环行为以完成给定的命令,从而将特定的神经网络权重加载到GPU上并执行策略。



将Figure 01 连接到大型预训练多模态模型为其提供了一些有趣的新功能。Figure 01 + OpenAI 现在可以:

  • 描述其周围环境。

  • 使用常识推理做出决定。例如,「桌子上的盘子和杯子等餐具接下来可能需要放进沥水架」。

  • 将「我饿了」等模棱两可的高级请求转化为一些适合上下文的行为,例如「递给对方一个苹果」。

  • 用简单的英语描述为什么它执行特定的操作。例如,「这是我可以从桌子上为您提供的唯一可食用物品」。

理解对话历史的大型预训练模型为Figure 01提供了强大的短期记忆

考虑一个简单的问题:「你能把它们放在那里吗?」

其中 「它们」指的是什么?「那里」又是哪里?正确回答这个问题需要反思记忆的能力。

通过预训练模型分析对话的图像和文本历史记录,Figure 01快速形成并执行计划:1)将杯子放在沥水架上,2)将盘子放在沥水架上。

关于学到的低级双手操作,所有行为均由神经网络视觉运动transformer策略驱动,将像素直接映射到动作。这些网络以10hz 的频率接收机载图像,并以200hz的频率生成 24-DOF 动作(手腕姿势和手指关节角度)。

这些动作充当高速「设定点」,以供更高速率的全身控制器跟踪。这是一个有用的关注点分离,其中:

  • 互联网预训练模型对图像和文本进行常识推理,以得出高级规划。

  • 学习到的视觉运动策略执行计划,执行难以手动指定的快速反应行为,例如在任何位置操纵可变形的袋子。

  • 全身控制器确保安全、稳定的动力,例如保持平衡。

最后他表示,即使在几年前,自己还认为人形机器人规划和执行自身完全学得行为的同时与人类进行完整的对话是几十年后才能看到的事情。显然,现在已经发生了太多变化。

Figure,具身智能时代最热创业公司

最近,生成式 AI 的竞争正在走向长文本、多模态,各家科技公司和机构也没有忘记投资下个热点——具身智能。

具身智能,对于计算机视觉、机器人等领域来说是一个很有挑战的目标:假设 AI 智能体(机器人)不仅能接收来自数据集的静态图像,还能在三维虚拟世界甚至真实环境中四处移动,并与周围环境交互,那我们就会迎来技术的一次重大突破,从识别图像等机器学习的简单能力,转变到学习如何通过多个步骤执行复杂的类人任务。

被生成式 AI 龙头 OpenAI 看好的具身智能,最有希望通向具身智能的公司,似乎就是这家 Figure。

3月1日,Figure 宣布完成惊人的 6.75 亿美元 B 轮融资,公司估值达到 26 亿美元。一眼望去,感觉半个硅谷都投了它:微软、英特尔、OpenAI Startup Fund、Amazon Industrial Innovation Fund 、英伟达、贝索斯、「木头姐」的方舟投资、Parkway Venture Capital、Align Ventures 等。

该公司的产品 Figure 01,据称是世界上第一个具有商业可行性的自主人形机器人,身高 1.5 米,体重 60 公斤,可承载 20 公斤货物,采用电机驱动。它的可工作时长是 5 小时,行走速度每秒 1.2 米,可以说很多指标已经接近人类。

自 2023 年 1 月以来,人们对 Figure 的关注度一直在上升。虽然到目前为止,公司一共才发布过四个 demo 视频。其中的一个展示了 Figure 01 是如何制作咖啡的:

据Figure表示,机器人练习这些动作的方法是端到端的,神经网络的训练时间是10小时。

在 2 月 27 日的视频里,Figure 01 自主完成了一个典型的物流环节任务——搬运空箱。

当然,速度还是比人类慢了很多。不过在这些任务中,Figure 01 都是完全自主地执行任务。所谓「完全自主」,是指只需将机器人放在地面上(无论放在屋里什么地方),在没有其他用户输入的情况下,直接按开始就行。

在训练过的大型视觉语言模型( VLM )帮助下,人形机器人会先识别、定位目标箱子,然后推理合适的拿放姿势。接下来,Figure 01 会导航自己到目标跟前,检测抓取点和手部力量,尝试抓取成功并将箱子放到传送带上。

这些技术亮点也是 Figure 和一直希望回归机器人领域的 OpenAI 达成合作协议的重要原因之一——将 OpenAI 的研究与 Figure 的机器人经验结合起来,为人形机器人开发下一代 AI 模型。OpenAI 也希望将自己的高性能多模态大模型扩展到机器人领域。

除了接受大笔风投之外,Figure 也在积极拓展落地场景。目前,Figure 01 已经开始在宝马位于南卡罗来纳州斯帕坦堡的汽车工厂接受测试,人们计划让机器人替代人类从事一些危险度高的任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1515905.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

论文阅读——VSA

VSA: Learning Varied-Size Window Attention in Vision Transformers 方法: 给定输入特征X,VSA首先按照基线方法的例程,将这些标记划分为几个窗口Xw,窗口大小为预定义的w。我们将这些窗口称为默认窗口,并从默认窗口中…

(一)搭建Android Studio开发环境

一、JDK 1、下载 2、安装 双击进行安装,修改安装路径为:D:\Java\jdk-17.0.4.1即可,安装完成后目录如下: 配置环境变量 3、测试 WinR,输入cmd,按Enter后,键入:java --version&…

面试经典-18-合并两个有序链表

题目 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1: 输入:l1 [1,2,4], l2 [1,3,4] 输出:[1,1,2,3,4,4] 解 class Solution {// 成功public ListNode mergeTwoLists(ListN…

探索世界的第一步:新生儿抬头指南

引言: 新生儿的抬头能力是他们发展早期的重要里程碑之一。这不仅是对颈部肌肉的锻炼,更是对视觉和感觉系统的发展的重要促进。在这个阶段,父母的关注和引导至关重要,以帮助宝宝安全地探索和发展。 1. 激发兴趣: 从宝宝…

matlab调用nlopt时向目标函数中传入数据的案例

matlab调用nlopt时向目标函数中传入数据的案例,如代码所示: clc,clear,close allopt.algorithm NLOPT_LN_AUGLAG; opt.lower_bounds -10; opt.upper_bounds 10; opt.min_objective (x) goal_function(x,[1,2,3,4,5,6,7,8,9]); opt.xtol_rel 1e-8; …

week07day01(powerbi)

一. Power BI简介 1. 构成部分 power query: 进行简单的数据清洗power pivot : 进行指标计算power view : 进行报表视图 二. Power Query (进行数据清洗) 1. 如何获取数据: 点击获取数据 ——> 选择导入数据的类型——> 会出现 "加载&…

Python学习:数据类型转换

数据类型转换 对数据内置的类型进行转换,数据类型的转换,一般情况下你只需要将数据类型作为函数名即可。 Python 数据类型转换可以分为两种: 隐式类型转换 - 自动完成显式类型转换 - 需要使用类型函数来转换 隐式类型转换 Python 会自动…

c/c++ | 求叶子结点个数 |构建B树 | 动态规划--找叶子结点个数

是这样的&#xff0c;一道代码题&#xff0c;根据输入数据&#xff0c;计算运行结果 #include<bits/stdc.h> using namespace std; vector<int>g[10]; int ans 0; void dfs(int x){if(g[x].size() 0){ans;return;}for(int i 0; i < g[x].size(); i){dfs(g[x]…

CVE-2019-5782:kArgumentsLengthType 设置偏小导致优化阶段可以错误的去除 CheckBound 节点

文章目录 环境搭建漏洞分析笔者初分析笔者再分析漏洞触发源码分析 漏洞利用总结 环境搭建 sudo apt install pythongit reset --hard b474b3102bd4a95eafcdb68e0e44656046132bc9 export DEPOT_TOOLS_UPDATE0 gclient sync -D// debug version tools/dev/v8gen.py x64.debug ni…

学会这几步,让酷开系统的使用体验更加出色!

在当今数字化快速发展的时代&#xff0c;用户体验&#xff08;User Experience, UX&#xff09;已成为产品和服务成功的关键因素之一。随着市场竞争的加剧&#xff0c;仅仅提供功能性强大的产品已不足以满足用户的需求&#xff0c;如何提升整体体验、确保用户的满意度和忠诚度&…

uniapp开发的跳转到小程序

uniapp开发的h5跳转到小程序 https://www.cnblogs.com/xiaojianwei/p/16352698.html官方&#xff1a;使用 URL Scheme 打开小程序 https://developers.weixin.qq.com/miniprogram/dev/framework/open-ability/url-scheme.html 链接代码 <a href"weixin://dl/business/…

标准砂轮加工麻花钻或者铣刀螺旋槽齿形

螺旋槽与砂轮的空间位置运动关系可用下图表示&#xff0c;螺旋槽的形成靠工件绕轴线的旋转以及砂轮沿轴线的移动来完成的&#xff0c;以下坐标系可以清楚的描述二者之间的运动关系&#xff1a; 砂轮的形状如下&#xff1a; 经过坐标变换和下面这个重要的公式来计算工件的齿形…

【Docker】在 Ubuntu20.04 上配置 Docker 开发环境

【Docker】在 Ubuntu20.04 上配置 Docker 开发环境 1 安装 Docker2 加入 Docker 用户组 1 安装 Docker 参考文档: Link 卸载以避免冲突 for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done设…

水文监测站的工作原理

TH-SW3水文监测站是一种专门用于监测水文气象数据的设施或场所&#xff0c;通常位于河流、湖泊、水库或其他水体附近。其主要功能包括收集和记录与水文气象相关的数据&#xff0c;如降雨量、水位、水温、流量、蒸发量等信息。这些数据对于水资源管理、防洪抗旱、生态环境保护等…

vmware workstation虚拟机报错”该虚拟机似乎正在使用中“

虚拟机报错&#xff1a; 解决方法&#xff1a; 进入到虚拟机的安装目录里&#xff0c;将lck结尾的文件删掉即可 重新点击虚拟机恢复正常

小白学视觉 | 神经网络训练trick总结

本文来源公众号“小白学视觉”&#xff0c;仅用于学术分享&#xff0c;侵权删&#xff0c;干货满满。 原文链接&#xff1a;神经网络训练trick总结 来自 | 知乎 作者 | Anticoder 链接 | https://zhuanlan.zhihu.com/p/59918821 本文仅作学术交流&#xff0c;如有侵权&am…

LLM和自动驾驶强强联合 | DriveDreamer-2:自动驾驶定制视频生成世界模型!

文章链接&#xff1a;https://arxiv.org/pdf/2403.06845.pdf 项目文档&#xff1a;https://drivedreamer2.github.io/ 自动驾驶是最近几年非常火热的方向&#xff0c;那LLM和视频生成在自动驾驶领域有哪些应用呢&#xff1f;今天和大家一起学习一下最新的一篇工作————Driv…

什么是文档签名证书?文档签名证书有什么用?

在数字化高速发展的当今时代&#xff0c;各行各业都开始向数字化转型&#xff0c;随着国家大力倡导和积极推进数字化&#xff0c;电子文件的应用越来越广泛。然而&#xff0c;电子文件包含了个人隐私、金融交易、电子处方、合同协议等敏感信息&#xff0c;如何确保这些重要文件…

迷你内裤洗衣机排名前十名:2024年十大口碑一流内衣洗衣机推荐

如果你对于内衣物的卫生有特殊的清洗需求&#xff0c;那么一台内衣专用的迷你内裤洗衣机是十分值得买的&#xff0c;由于迷你内裤洗衣机的外观尺寸小、重量轻&#xff0c;所以很容易搬运和携带&#xff0c;适合单身公寓、旅馆、露营等场合&#xff0c;不用像传统的家庭洗衣机那…

Unity开发必备AI工具

人工智能&#xff08;AI&#xff09;正在迅速改变世界&#xff0c;游戏开发行业也不例外。 人工智能工具被用来创建更真实、更有吸引力的游戏、自动化任务并改进整体开发流程。 Unity 3D 游戏开发人员可以受益于使用 AI 工具来简化工作流程并提高游戏质量。 最近的统计数据显示…