新火种AI|GPT-4诞生1年,OpenAI把它放到了机器人上

news2025/1/5 8:51:05

作者:一号

编辑:美美

ChatGPT拥有了身体,机器人也有了灵魂。

从OpenAI在去年3月14日拿出GPT-4后,已经过了整整一年。显然,在GPT-4诞生之后的这一年,一切都迭代得太快了,从GPT-4展现多模态能力,到千行百业都在谈论AI,再到Sora引爆AI生成视频的市场。

资深机器人专家Eric Jang在不久之前还预言,“ChatGPT曾在一夜之间出现。我认为,有智慧的机器人技术也将如此。”

他或许没错,在一年后的今天,一家名为Figure的公司在X上上传了一段人形机器人的视频。

在视频中,Figure的人形机器人Figure 01,能够完全与人类流畅对话,理解人类的想法,同时根据理解进行抓取和放置的操作,并解释自己这么做的原因。而这只是OpenAI宣布和Figure共同合作推进人形机器人领域前沿的第十三天。

这段Demo迅速吸引了广大网友的眼球,有人感叹,AGI的曙光似乎就在眼前了。

没弄虚未作假,这些都是机器人自学的

视频发布之后,Figure AI的掌门人Brett Adock,在X上来了一番精彩解读。

视频中Figure展示了端到端神经网络(end-to-end neural networks)框架下与人类对话的应用。在此过程中没有任何远程操作。并且机器人的速度也有了显著的提升,开始接近人类的速度。

那具体是怎么做到的呢?

首先,Figure AI会将机器人摄像头拍摄到的图像和通过板载麦克风记录到的语言转录成文本输入到一个由OpenAI训练的大模型中,这是一个能够同时处理图像和文本信息的模型。

然后,这个模型会处理整个对话的历史记录,包括以往的图像,然后通过文本到语音的方式,生成语音进行响应,向人类回话。

这个模型还同时负责决定执行哪种已学习的闭环行为来响应给定的命令,它将特定的神经网络权重加载到GPU上,并执行相应的策略。

这样做之后,Figure 01就有了很多有趣的新功能。例如描述它周围的环境、在做决定的时候运用常识进行推理,并且会理解一些含糊的高级指令,例如当人类说“我饿了”的时候,它会将桌面上唯一的食物——苹果,递给人类,并用简单的英语说明它为什么这么做。

而关于Figure 01通过学习掌握的精细双手操作技能,这些所有的行为都是由神经网络的视觉-运动转换器策略驱动,能将像素直接映射到动作。这些网络以每秒10帧的速率接收机载图像,并以200hz的频率生成24-DOF动作,包括手腕姿势和手指关节角度。

简单来说,预训练模型会首先对图像和文本进行常识推理,然后给出动作计划;接着,机器人再基于已学习的视觉-动作执行策略,做出快速的反应行动。同时通过全身控制器确保动作的安全性和稳定性,保持机器人的平衡。

Figure,众人看好的具身智能公司

人工智能的后半场,以机器人为代表的具身智能将成为新的智能增长点。

英伟达CEO黄仁勋曾说,“具身智能将引领下一波人工智能浪潮”。这样的观点正在被越来越多的公司所赞同。当前,生成式AI的竞争已经从连续对话走向长文本以及多模态,各家科技公司和机构也开始投资具身智能。

而这家名为Figure的具身智能公司,除了被OpenAI看好,还拿到了多方的投资,成为了硅谷备受关注的新星。

公开资料显示,Figure成立于2022年,成立之初就瞄准了通用人形机器人领域。在3月1日,它宣布完成了惊人的6.75亿美元B轮融资,公司估值达到了26亿美元。而它的投资方,几乎占据了硅谷的半壁江山。除了OpenAI,微软、英特尔、英伟达、亚马逊创始人贝索斯以及“木头姐”等,都是它的投资方。

而在获得融资之后,Figure也没有让人失望。在今年1月,它们的产品Figure就通过端到端神经网络,仅用10小时就掌握了制作咖啡的技能。1个月后,它又展示了把箱子搬运到传送带的新技能,而现在,它又学会了理解人类的意图。

当然,在商业化的道路上,Figure也在积极探索。目前,Figure已经和宝马制造公司签订了商业协议,Figure 01已经开始在宝马位于南卡罗来纳州斯帕坦堡的汽车工厂接受测试。

从ChatGPT到Figure 01,OpenAI想的依旧是AGI

尽管OpenAI在2021年夏天悄悄关闭了其机器人团队,但显然,OpenAI对于机器人领域的关注并未减少。

除了Figure,OpenAI在一年之前就投资了挪威一家名为1X Technologies的机器人制造商。与此同时,OpenAI还被彭博社爆料,说它投资了一家新成立的机器人AI公司Physical Intelligence,他们的创始团队分别来自谷歌研究团队、加州大学伯克利分校以及斯坦福大学教授等。而这家公司也是研究未来能够成为通用机器人系统的人工智能。

显然,将OpenAI大模型融入Figure 01是OpenAI有意的战略布局。

对于计算机视觉、机器人等领域来说,具身智能是一个很有挑战的目标:如果AI智能体(机器人)不仅能够接收来自数据集的静态图像,还能够在三维的世界中,无论是虚拟还是真实的,四处移动并与环境进行交互,那么我们将能迎来一次重大的突破,即从识别图像等机器学习的简单能力,转变到学习如何通过多个步骤执行复杂的类人任务。

而当机器人能够执行类人任务后,通过数据的迭代升级,将会越来越像人。而到了那个时候,也许AGI能够取得突破,这也是OpenAI一直以来的目标。

一年之前,OpenAI发布了GPT-4,向世界证明了大模型的威力,而在一年后的今天,Figure 01的表现,也许会是机器人领域的GPT-4时刻。不过,正与OpenAI争得不可开交的马斯克,他的Optimus也是机器人领域的佼佼者,这两者之间还会有什么样的故事,我们拭目以待。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1517746.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ChatGPT-Next-Web SSRF漏洞+XSS漏洞复现(CVE-2023-49785)

0x01 产品简介 ChatGPT-Next-Web 是一种基于 OpenAI 的 GPT-3.5 、GPT-4.0语言模型的产品。它是设计用于 Web 环境中的聊天机器人,旨在为用户提供自然语言交互和智能对话的能力。 0x02 漏洞概述 2024年3月,互联网上披露CVE-2023-49785 ChatGPT-Next-Web SSRF/XSS 漏洞,未经…

尚硅谷SpringBoot3笔记 (二) Web开发

Servlet,SpringMVC视频推荐:53_尚硅谷_servlet3.0-简介&测试_哔哩哔哩_bilibili HttpServlet 是Java Servlet API 的一个抽象类,用于处理来自客户端的HTTP请求并生成HTTP响应。开发人员可以通过继承HttpServlet类并重写其中的doGet()、do…

Android Button点击事件

一.Button点击事件 <!-- activity_main.xml --> <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android" xmlns:tools"http://schemas.android.com/tools"…

导入fetch_california_housing 加州房价数据集报错解决(HTTPError: HTTP Error 403: Forbidden)

报错 HTTPError Traceback (most recent call last) Cell In[3], line 52 from sklearn.datasets import fetch_california_housing3 from sklearn.model_selection import train_test_split ----> 5 X, Y fetch_california_housing(retu…

接上一篇:分布式调用链追踪系统设计

所以必须得记录父子关系&#xff1a; A---->B 是 B---->C 的父调用 A---->D 是 D---->E 的父调用 A---->D 还是 D---->F 的父调用 如何记录呢&#xff1f;需要给每个调用分配一个ID (称为 SpanID)&#xff0c;并且把这个 ID 传递给子调用&#xff0c; 子…

idea如何使用,从激活开始

idea到期后激活使用 如何使用 点击阅读 idea分享

Vue2 + node.js项目

1、Vue2 vue2主要功能包括登入、退出、用户权限、表格的增删改查、文件下载。 Vue2项目地址https://gitee.com/www6/finance1.git 2、node.js编写后端接口 2.1、项目初始化 后端地址https://gitee.com/www6/finance-backend.git 创建项目 npm install -g koa-generator …

算法笔记之蓝桥杯pat系统备考(2)

算法笔记之蓝桥杯&pat系统备考&#xff08;1&#xff09; 文章目录 五、数学问题5.2最大公约数和最小公倍数5.2.1最大公约数5.2.2最小公倍数 5.3分数的四则运算5.3.1分数的表示与化简5.3.2分数的四则运算5.3.3分数的输出 5.4素数&#xff08;质数&#xff09;5.4.1[素数的…

Python基于 opencv 的人脸识别考勤系统(V1.0),附源码

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12W、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

O2OA(翱途)开发平台系统安全-用户登录IP限制

O2OA(翱途)开发平台[下称O2OA开发平台或者O2OA]支持对指定的用户设置可以连接的客户端计算机的IP地址&#xff0c;以避免用户在不安全的环境下访问系统。本篇主要介绍如何开启O2OA用户登录IP限制。 一、先决条件&#xff1a; 1、O2Server服务器正常运行&#xff0c;系统安装部…

mac安全干净卸载Anaconda3

使用which python显示当前使用的是/Users/username/anaconda3/bin/python 现在想卸载Anaconda&#xff0c;恢复使用mac系统自带的Python 删除隐藏文件目录 rm -rf ~/.anaconda修改~/.bash_profile文件&#xff0c;将anaconda相关删除 也有可能不是~/.bash_profile而是~/.zs…

WEB三大组件之Filter

在很多项目中通常需要用到filter来实现用户身份识别&#xff0c;并将识别出来的用户信息&#xff0c;保存到ThreadLocal对应的上下文&#xff0c;这样在后续的请求链路中&#xff0c;在任何地方都可以直接获取当前的登录用户了。 来看一下Java WEB三大组件之一的过滤器Filter&…

flutter环境搭建实践

Dart Dart 是一种客户端和服务器端的编程语言&#xff0c;最早由 Google 提出。它被设计用于构建高性能、高度可伸缩和可靠的应用程序。Dart 可以编译成本地代码或者在虚拟机中直接运行。在移动应用开发中&#xff0c;Dart 主要用于开发 Flutter 应用。 Flutter 和 Dart 的关…

【数据结构和算法初阶(C语言)】队列实操(概念实现+oj题目栈和队列的双向实现,超级经典!!!)

1. 队列的概念及结构 队列&#xff1a;只允许在一端进行插入数据操作&#xff0c;在另一端进行删除数据操作的特殊线性表&#xff0c; 队列具有先进先出 FIFO(First In First Out) 入队列&#xff1a;进行插入操作的一端称为队尾 出队列&#xff1a;进行删除操作的一端称为…

基于单片机的车载酒精含量自检系统设计与实现

摘要:调查显示,大约50%的交通事故与酒后驾车有关,酒后驾车已成为车祸致死的首要原因。为从根本上杜绝酒后驾车,设计了一款基于STC89C52 单片机的车载酒精含量自检系统,该系统能很好地解决酒驾问题,控制简单、使用方便,具有很好的应用价值。 关键词:STC89C52 单片机;车…

Redis:持久化、线程模型、大 key

Redis持久化方式有什么方式&#xff1f; Redis 的读写操作都是在内存中&#xff0c;所以 Redis 性能才会高&#xff0c;但是当 Redis 重启后&#xff0c;内存中的数据就会丢失&#xff0c;那为了保证内存中的数据不会丢失&#xff0c;Redis 实现了数据持久化的机制&#xff0c…

【计算机视觉】二、图像形成:1、向量和矩阵的基本运算:线性变换与齐次坐标

文章目录 一、向量和矩阵的基本运算1、简单变换1. 平移变换2. 缩放变换3. 旋转变换4. 一般线性变换 2、齐次坐标0. 齐次坐标表示1. 2D点的齐次坐标变换2. 投影空间 ( x , y , w ) (x, y, w) (x,y,w)3. 2D直线的齐次坐标表示a. 直线的参数方程表示b. 直线的法向量和原点距离表示…

React——react 的基本使用

前提&#xff1a;安装全局的脚手架&#xff0c;通过create-creat-app 项目名&#xff0c;我们创建好一个新项目&#xff0c;cd进去&#xff0c;通过npm start去运行该项目 注意&#xff1a;简单看下demo的配置&#xff0c;在根目录我们可以看到&#xff0c;没有任何webpack的…

html5cssjs代码 018颜色表

html5&css&js代码 018颜色表 一、代码二、效果三、解释 这段代码展示了一个基本的颜色表&#xff0c;方便参考使用&#xff0c;同时也应用了各种样式应用方式。 一、代码 <!DOCTYPE html> <html lang"zh-cn"> <head><title>编程笔记…

15. jwt认证中间件

在上一篇登录功能的实现中&#xff0c;我们使用了jwt作为鉴权组件&#xff0c;其中登录后会颁发token。前端在访问后续请求时&#xff0c;可以带上这个token。对于一些需要权限校验的请求&#xff0c;我们就需要验证这个token&#xff0c;从token中获取到用户id&#xff08;有了…