机器人ChatGPT来了,80亿参数、前OpenAI人员经数年打造

news2024/11/24 19:17:39

严格地说,是“拾取与放置任务”版本的ChatGPT来了。除了自然语言交流,还能像Sora一样生成视频。

有了机器人基础模型RFM-1,使用简单英语就能指导机器人完成拣选工作。

机器人 AI 公司 Covariant CEO Peter Chen ‍坐在一个聊天机器人面前,界面和 ChatGPT 的很像。

“给我看看你面前的运送箱,” 他输入一段文本。然后出现了一段视频,一个机械臂悬在一个装有各种物品的运输箱上——里面有一双袜子、一管薯条和一个苹果。

聊天机器人可以和你讨论它看到的物品,也可以操纵它们。接着,Chen 要求它去抓一个水果,只见机械臂伸向苹果,轻轻抓住苹果后将它移到附近的另一个箱子里。

这个聊天机器人是该公司迈向“机器人 ChatGPT ”的重要一步。人们希望 AI 最终能够解决长期以来的编程难,并让它们做更多的事情。“在这一点上,说基础模型是机器人技术的未来是没有争议的。” Chen 说。

今天,Covariant 正式宣布推出机器人领域的通用基础模型 RFM-1。因为整合了语言数据,Chen 用简单英语就能指导机器人完成拣选工作。

更为重要的,“基础模型”意味着 RFM-1 可以接受更多数据的训练来完成更多的事情——目前都是关于仓库操作的任务,因为这就是它所接受的训练,但它的功能可以通过向其提供更多数据加以扩展。

“对于完成各种拾取和放置任务来说,现有的系统已经足够快速和灵活。” Covariant 联合创始人、机器人学习先驱  Pieter Abbeel 说,像 RFM-1 这样的模型可以让机器人更流畅转向新任务,走得更远。所谓远,既包括完成任何任务,也包括接入任何具身(不排除人形机器人),为全球数十亿机器人提供动力。

野心不小的 Covariant 成立于 2017 年,由加州大学伯克利分校电气工程和计算机科学教授 Pieter Abbeel 和他的三位华人博士生 Peter Chen、Rocky Duan 以及 Tianhao Zhang 创立。

Abbeel 在 2016 年成为 OpenAI 早期员工,就在 Chen 加入该公司一个月后。Rocky Duan 也曾担任 OpenAI 的研究科学家。后来他们离开 OpenAI,希望将 AI 从比特世界落地到真实世界,打造像人类一样通过推理来适应现实场景的机器人产品。

两位联合创始人,总裁兼首席科学家Pieter Abbeel(左)和 CEO Peter Chen(右)

四位创始人,从右到左:Pieter Abbeel (总裁兼首席科学家)、 Peter Chen(CEO)、Rocky Duan (CTO)以及 Tianhao Zhang

Covariant 核心技术是被称为“ Covariant Brain ”的机器人大脑(软件),主要部署在工业机械臂上。最初他们专注于拣选用例是因为可以创造真实价值——客户愿意掏腰包支付软件费用。不过,对于 Covariant 来说,最令人兴奋的部分是过去四年积累的大量现实世界的数据。

“完成我们正在做的事情的唯一方法是让机器人部署到世界各地真实客户现场,收集大量数据,”Abbeel 说。“这使我们能够训练一个具有独特能力的机器人基础模型。”

与 ChatGPT、谷歌 Gemini 和其他聊天机器人一样,机器人大军收集的来自真实世界的数千万条高质量多模态机器人数据(包括静态数据、动态视频、关节角度、力读数、吸盘强度等机器人操作中涉及关键数据),训练出 80 亿参数规模的 RFM-1 ,可以帮助机器人更像人类一样思考。

在真实世界中接触到各种拾取和放置物体对象,比如易变形、被高度遮挡、材质各异、不规则外形等,建立对真实物理世界的理解。

在不断变化的仓库环境中 24/7 全天候运行,系统也可以发现实验室的环境中难以遇到的长尾边缘案例。

我们可以将 RFM-1 视为一个视频生成器(就像 Sora )。输入拾取某些物体的命令,系统会使用其训练数据(形状、颜色、大小等)来识别面前与该描述最匹配的物体。然后生成视频,预测自己试图拿起这个物体时可能发生什么,并确定最佳行动方案。

下面是一个类似图生视频功能。输入初始图像(类似图片提示),RFM-1 即可生成相应的动态视频。本质上是一种模拟,以过去所有训练数据为基础。

上面两张图都是作为输入的初始图片,对应的下方动态内容是模型的输出,预测自己执行这一任务会是什么样子。

再比如,如果你想知道把一个圆柱体的物品放到传送带上会发生什么?也可以让 RFM-1 生成视频,它能准确显示圆柱体翻转和滚动的样子(比 Sora 还精准),因为在此之前它已经看过很多东西被放置在不同传送带上后的状态。这些视频在仓库业务中可能没有实际用途,但它生动显示出机器人对周围世界的理解。

无论是输入的是文本、语音、图片还是视频等,RFM-1 都会生成相应的文本、图片、视频甚至操作命令。

除了生成视频的能力,现在任何人都可以在几分钟内通过自然语言指导机器人执行特定操作。操作员用简单的英语指示机器人拾取某些物体。

在遇到问题时,RFM-1 甚至赋予机器人求助的本领。它们会将遭遇的困难直接告诉操作人员,并根据新建议尝试完成任务。

值得注意的是,虽然 RFM-1 最大亮点就是泛化能力,但泛化能力有限——“......它目前不能泛化到完全新的对象或情况。”  Abbeel 表示。换句话说,如果你希望机器人拿起一颗螺丝并把它拧进去,或者剥一块生姜,这并不是一个真正有关拾取和放置问题,RFM-1 暂时无能为力。

目前, RFM-1 也主要销售给只做某些仓库任务的公司。另外,就像 ChatGPT 也会有幻觉并出错,RFM-1 也有不理解要求并掉落东西的时候。错误的风险与成本取决于场景,制造等领域的容错率非常低。

不过,Abbeel 相信,只要有足够的数据,有用的世界模拟将是可能的。“从现在起的 5 年里,我们建造的将是唯一一种任何人都会使用的模拟器。”这是一个更强大的模拟器,一个从建造之初就带有碰撞检测等元素的模拟器。

所有这些东西都很难以任何方式构建到你的物理引擎中,更不用说让事物看起来像真实世界中的渲染器——“在某种意义上,我们正在走捷径。” 为了扩展 RFM-1 的能力,以实现为“全球数十亿机器人”提供动力的基础模型的长期愿景,下一步是向它提供更多数据。

“我们基本上已经构建了一个数据收集引擎,”Abbeel 说。“如果你愿意向我们提供不同类型的数据,我们也会收集这些数据。” 但是,这也会导致另一个局限性 —— 商业可行性。1X AI 副总裁 Eric Jang 提到过目前三种扩张机器人部署规模的路子。

除了耳熟能详的传统编程方法,一种是以特斯拉、1X、Figure.ai 这些人形机器人为代表的全栈路线(既做本体硬件也研发通用系统软件),另一种就是 Covariant 这种纯软的方式——建立一个“全能的大脑”控制机器人,每台机器人的硬件供应商都会来找你,要求接入“全能大脑”的 API 。

如果你能建立一个别人无法建立的模型,就能获得丰厚的软件利润,每个人都给你他们的数据。GPT-4 可能是最好的例子。但是,这种方法的缺点是涉及大量数据,你的硬件合作伙伴可能不想给你数据,他们的客户也不想给你数据。

RFM-1 目前尚未部署在人形机器人上,虽然它可以学习控制训练数据中没有的类似硬件(甚至人形机器人?),但一家人形机器人公司又会基于什么样的动机愿意将数据共享给你呢?

对此,Chen 表示,“我们的宗旨是帮助他们走进现实世界。”“我认为,真的没有多少公司拥有 AI,可以让他们的机器人在生产环境中真正自主。如果他们想要强大、能够帮助他们进入现实世界的 AI,我们确实是他们的最佳选择。”

也就是说,虽然每个机器人公司都可以单独训练自己的模型,但对于任何试图实现与现实交互操作的模型来说,其性能可能远不如使用 RFM-1 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1512339.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

图像分割损失函数

为什么要乘以2,是为了让DICE的值域在0和1之间 优化:两种LOSS相加 Focus loss:

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的田间杂草检测系统(深度学习模型+UI界面+Python代码+训练数据集)

摘要:开发用于田间杂草识别的系统对提高农业运营效率和提升作物产出至关重要。本篇文章详尽阐述了如何应用深度学习技术开发一个用于田间杂草识别的系统,并附上了完备的代码实现。该系统基于先进的YOLOv8算法,并对比了YOLOv7、YOLOv6、YOLOv5…

提前爆料:绝地求生七周年预告片餐厅改版,七周年主题战术手套

七周年预告片刚刚在官博上线,让我们一起逐帧分析一下都有哪些皮肤吧。 开局就是一个七周年喷漆 然后出生岛手里会拿着七周年的蛋糕,互相丢。 艾伦格的餐厅们进行改版,成为七周年主题 餐厅内有一个七周年的饮料机,不知道是不是和米…

浅淡 C++ 与 C++ 入门

我们知道,C语言是结构化和模块化的语言,适用于较小规模的程序。而当解决复杂问题,需要高度抽象和建模时,C语言则不合适,而C正是在C的基础之上,容纳进去了面向对象编程思想,并增加了许多有用的库…

C++的类和对象(六):友元、内部类

目录 友元 友元函数 友元类 内部类 匿名对象 拷贝对象时的一些编译器优化 再次理解类和对象 友元 基本概念:友元提供了一种突破封装的方式,有时提供了便利,但是友元会增加耦合度,破坏了封装,所以友元不宜多用&…

数据结构 第1章:绪论

文章目录 1. 绪论1.1. 数据结构 1.2. 算法1.2.1. 算法的基本概念1.2.2. 算法的时间复杂度1.2.3. 算法的空间复杂度 1. 绪论 程序 数据结构 算法 1.1. 数据结构 数据:是对客观事物的符号表示,在计算机科学中是指所有能输入到计算机中并被计算机程序处理…

【YOLOv9】训练模型权重 YOLOv9.pt 重新参数化轻量转为 YOLOv9-converted.pt

【YOLOv9】训练模型权重 YOLOv9.pt 重新参数化轻量转为 YOLOv9-converted.pt 1. 模型权重准备2. 模型重新参数化2.1 文件准备2.2 参数修改2.3 重新参数化过程 3. 重新参数化后模型推理3.1 推理超参数配置3.2 模型推理及对比 4. onnx 模型导出(补充内容)4…

MathType7最新软件产品秘钥2024中文版

MathType 7是一款功能强大的数学公式编辑器,专为教育工作者、学生、科研人员以及任何需要处理数学公式的人群设计。以下是对MathType 7的详细介绍: 一、功能特点: 广泛的符号和模板支持:MathType 7支持各种数学符号、公式、方程…

OpenAI:ChatGPT API 文档之 Embedding

在自然语言处理和机器学习领域,"embeddings" 是指将单词、短语或文本转换成连续向量空间的过程。这个向量空间通常被称为嵌入空间(embedding space),而生成的向量则称为嵌入向量(embedding vector&#xff0…

基于支持向量机SVM的沉降预测,SVM详细原理,Libsvm详解

目录 支持向量机SVM的详细原理 SVM的定义 SVM理论 Libsvm工具箱详解 简介 参数说明 易错及常见问题 完整代码和数据下载链接:基于支持向量机SVM的沉降预测资源-CSDN文库 https://download.csdn.net/download/abc991835105/88947544 SVM应用实例,基于支持向量机SVM的沉降预测…

LED基础知识分享(一)

大家好,我是砖一。 今天给大家分享一下,LED的基础知识,有照明行业,或者对LED感兴趣的朋友,可以学习一下,希望对你有用~ 一,什么是LED (Light Emitting Diode)? 1,LED是一种发出某…

力扣面试经典150 —— 16-20题

力扣面试经典150题在 VScode 中安装 LeetCode 插件即可使用 VScode 刷题,安装 Debug LeetCode 插件可以免费 debug本文使用 python 语言解题,文中 “数组” 通常指 python 列表;文中 “指针” 通常指 python 列表索引 文章目录 16. [困难] 接…

深度学习——第10章 优化神经网络:如何防止过拟合(DNN)

第10章 优化神经网络:如何防止过拟合(DNN) 目录 10.1 什么是过拟合 10.2 L1、L2正则化 10.3 L2正则化的物理解释 10.4 Dropout正则化 10.5 其它正则化技巧 10.6 总结 上一课,我们一步步搭建了一个深层神经网络来实现图片的分类。结果显示,随着网络层数加深,隐藏层数…

【力扣 - 合并区间】

题目描述 以数组 intervals 表示若干个区间的集合,其中单个区间为 intervals[i] [start_i, end_i] 。请你合并所有重叠的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间 。 示例 1: 输入:int…

剑指offer C ++双栈实现队列

1. 基础 队列:先进先出,即插入数据在队尾进行,删除数据在队头进行; 栈:后进先出,即插入与删除数据均在栈顶进行。 2. 思路 两个栈实现一个队列的思想:用pushStack栈作为push数据的栈&#xff…

Linux 多进程开发(下)

第二章 Linux 多进程开发 2.6 进程间通信2.6.1 匿名管道2.6.2 有名管道2.6.3 内存映射2.6.4 信号2.6.5 共享内存 2.7 守护进程 网络编程系列文章: 第1章 Linux系统编程入门(上) 第1章 Linux系统编程入门(下) 第2章 L…

word中图片位置问题(后续遇到问题再更新)

问题1:图片插入后显示不全 具体表现为:复制黏贴、或者插入图片后,出现插入的图片显示不全,或者不显示。 例如: 这是因为:图片被设定了固定行距 解决方案:ctrl1 效果: 问题2&am…

南昌云宸网络发展有限公司-小分类客户可自选

南昌云辰网络发展有限公司是华东地区最大的互联网公司。 公司业务涉及互联网营销策划、移动互联网、物联网、广告传媒、微电影、***等,依托以互联网技术为核心的B2B企业贸易平台和O2O电子商务平台,提供为用户提供一站式网络营销策划和解决方案。 &#…

String类(C++)详解与应用

1. 标准库中的string类 1.1 string类 http://www.cplusplus.com/reference/string/string/?kwstringhttp://www.cplusplus.com/reference/string/string/?kwstring1. 字符串是表示字符序列的类2. 标准的字符串类提供了对此类对象的支持,其接口类似于标准字符容器的…

【数据库】Oracle内存结构与参数调优

Oracle内存结构与参数调优 Oracle 内存结构概览oracle参数配置概览重要参数(系统运行前配置):次要参数(可在系统运行后再优化调整): Oracle数据库服务器参数如何调整OLTP内存分配操作系统核心参数配置Disabling ASMM(禁…