将ChatGPT与物理机器人结合,波士顿动力开发了一只怪物!

news2024/12/16 1:50:24

10月27日,全球顶级机器人开发商波士顿动力(Boston Dynamics)在官网展示了一项新的研究,通过将ChatGPT、Spot以及其他AI模型相结合,开发了一种会说话的导游机器狗。

据悉,该机器狗能够根据文字、语音提示与人类进行交谈,同时提供了视觉问答功能,可以分析摄像头拍摄的画面,自动生成图像说明。

波士顿动力表示,ChatGPT等大语言模型展现出了强大的控制和输出能力,这让他们大受启发,可以用于控制物理机器人的行为和决策功能。例如,输入一些特定景点数据、图片等,可让机器人提供逻辑清晰、条理分明的导游功能。

此外,这也增强了物理机器人的拟人化能力,如为你讲一个冷笑话,做一个逗你开心的滑稽动作。如果采用传统的发方法,将是一件非常困难的事情。

导游机器狗技术原理

波士顿动力使用了自研的四足机器人Spot作为物理机器人框架,实现了行走、监控、导航、扫描等基础功能。

在这里插入图片描述

为了能让机器狗说话与人类互动,研发人员为其配备了Respeaker V2扬声器,这是一个带有 LED 的环形阵列麦克风,可通过USB将其连接到Spot的EAP 2实现数据传输。

在这里插入图片描述

1)Spot EAP 2)扬声器3) 蓝牙音箱4)点臂和夹具相机

使用了一台电脑作为机器狗的控制大脑,并通过Spot SDK与其实现数据交互。为了让机器狗具备拟人化动作,例如,点头,伸脖子等,使用了Spot的点臂和夹具相机。

用ChatGPT让机器狗说话

物理硬件环境搭建完成后,为了使机器狗具备对话功能,研发人员使用了GPT-3.5和GPT-4与Spot SDK相结合,并进行了简单的指令微调,让机器狗具备了初级导游判断和对话功能。

接下来,为了让Spot与人类和环境进行交互,集成了VQA和语音转文本软件。同时将机器人的抓手摄像头和前置机身摄像头输入BLIP-2,并以视觉问答模式(例如“这张图片有什么有趣的地方?”等简单问题)或图像字幕模式运行它。

该过程大约每秒运行一次,结果将直接输入到提示中。

在这里插入图片描述

为了让机器狗可以实现“听”的功能,研发人员将麦克风数据分块输入到OpenAI的语音模型Whisper中转换为英文文本。

在这里插入图片描述

为了让机器狗能与人类实现对话,需要将人类的语音指令转换成文本用于提示ChatGPT,因此还需要一个转换工具。开发人员在尝试了多种工具后,决定使用了云服务ElevenLabs。

实验中的惊奇现象

在多个测试对话过程中,研发人员发现了一个令人惊奇的现象,机器狗好像具备了简单的自我决策能力。

例如,向机器狗询问Marc Raibert(波士顿动力执行董事)是谁时?它回答:“我不知道他是谁,让我们去服务台问一问吧。”

到了服务台,机器狗继续向服务人员询问Marc Raibert是谁?

当研发人员提问:你的父母是谁?机器狗走向了Spot V1和Big Dog的展示区,并认为这些机器人是它的父辈们。实际上,它们之间确实有关联。

机器狗还展现出了有趣的一面,可以主动向路人询问,周围是否有神秘的生物。

波士顿动力表示,未来还会持续优化该产品的功能。ChatGPT与实体机器人的相结合,为大语言模型实现物理化落地打开了大门,可以在导游、娱乐、物流、陪伴等领域得到广泛应用。

关于波士顿动力

波士顿动力(Boston Dynamics)成立于1992年,总部位于马萨诸塞州波士顿。起初是麻省理工学院(MIT)的一个分支机构,后来发展成为一家独立的公司。

波士顿动力以开发高度先进、灵活且具有实用性的机器人而闻名,其产品在工业、研究和消费领域都有应用,主要代表机器人包括:BigDog、Atlas、Spot、Handle等。

在这里插入图片描述

本文素材来源波士顿动力官网,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1140814.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录算法训练营第三十五天 | LeetCode 435. 无重叠区间、763. 划分字母区间、56. 合并区间

代码随想录算法训练营第三十五天 | LeetCode 435. 无重叠区间、763. 划分字母区间、56. 合并区间 文章链接:无重叠区间 划分字母区间 合并区间 视频链接:无重叠区间 划分字母区间 合并区间 1. LeetCode 435. 无重叠区间 1.…

matlab Spongent算法

1、内容简介 略 5-可以交流、咨询、答疑 2、内容说明 Spongent 是一种轻量级 Hash 算法,其原理与“海绵”类似,分为“吸收” 和“榨取”两个阶段,所以又可以称之为“海绵结构”算法。 Hash 函数之所以有广泛的应用,是因为它具…

图的应用4.0-----关键路径(AOE网)

目录 前言 AOE网 1.基本概念 2.应用 关键路径 1.算法理论 2.代码实现(C/C) 前言 前面学习了图AOV网的应用,即拓扑排序,那这一期我们学习AOE网的应用,这是一个图的一个很广泛问题,也就是关键路径。那…

红色荧光PLGA聚乙酸-羟基乙酸共聚物纤维膜 红色荧光PLGA静电纺丝纤维膜

一种含有荧光染料的硝酸纤维素微孔膜及其制备方法。将提供供体荧光分子的荧光染料直接加到铸膜液中,经相转换直接生产出一种带荧光的硝酸纤维素微孔膜,微孔膜中的荧光强度可以通过添加不同剂量的荧光素来控制调节,该微孔膜适用于生产荧光淬灭…

京东平台数据分析:2023年9月京东扫地机器人行业品牌销售排行榜

鲸参谋监测的京东平台9月份扫地机器人市场销售数据已出炉! 根据鲸参谋平台的数据显示,9月份,京东平台扫地机器人的销量近14万,环比增长约2%,同比降低约4%;销售额为2.9亿,环比降低约4%&#xff0…

行情分析——加密货币市场大盘走势(10.27)

目前大饼开始了震荡盘整,目前远离EMA21均线,预计会有大的回调动作。而MACD日线来看,昨日和今日开始呈现绿色空心柱,也在说明大饼在做震荡盘整。不排除大跌的可能性,大饼可以开始布局中长线空单,可以再35000…

企业im即时通讯软件私有化部署,确保信息安全与高效办公

随着企业应用即时通讯(IM)的普及,信息安全问题成为了企业最为关心的话题。为了保障内部信息安全,让员工专心办公,企业可以选择将IM系统私有化部署在内网,与互联网隔离开来。 对于需要与外网通信的需求&…

Vue引入异步组件

defineAsyncComponent 函数:异步引入组件。 Suspense 标签:异步引入组件时,显示默认的内容。 异步引入组件的基本使用: 异步引入组件: import { defineAsyncComponent } from vue; const Child defineAsyncComponen…

基于安卓android微信小程序的投票系统

项目介绍 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,投票系统小程序被用户普遍使用,为方便用户…

关于JAVA中字节码文件版本号、产品版本号及开发版本号的关系

目录 关于字节码版本对应关系清单关于字节码格式说明的资料关于这些版本号 关于字节码版本 以二进制打开字节码文件: 如上图中第5-8标识(圈起来的)的即字节码版本号 十六进制: 34 十进制: 52 jdk 8 对应关系清单 …

网络策略实战

网络策略实战 网络策略 在命名空间 dev 中创建⽹络策略 dev-policy,只允许 命名空间 prod 中的 pod 连上 dev 中 pod 的 80 端⼝,注意:这⾥有 2 个 ns ,⼀个为 dev(⽬标pod的ns),另外⼀个为prod(访 问源pod的ns) 🔋创建…

熟悉项目过程中

刑天机器人本身 背景知识: 刑天与地平线的关系、旭日派的关系? 地平线是一家公司,刑天机器人是他们家的一款产品,是硬件,旭日派也是他们家的一款产品,用作刑天机器人的大脑。 刑天机器人的源代码能安装…

【网络安全无小事】汽车网络安全:只有开局,没有尽头,聚光向前,安全到达

“ 汽车网络安全: 只有开局,没有尽头,聚光向前,安全到达。” 01 — 引言 汽车一直以来都将速度、激情、男性荷尔蒙和阳刚气息联系在一起,这种联系似乎已经成为了文化符号。然而,作为一名安全从业者,我时常担…

汽车电子 -- Bin、Hex、Srec、s19、elf等文件的区别

一、烧写文件 烧写文件有很多种格式,比如bin、Hex、s19等。下面对这几种文件格式做一下介绍。 1、bin文件 参看:【嵌入式烧录/刷写文件】-3.1-详解二进制Bin格式文件 bin是binary的缩写,翻译为“二进制”。binary file 二进制文件是一个…

idea提交代码冲突后,代码意外消失解决办法

敲了大半天的代码,解决冲突后,直接消失了当时慌的一批CCCCC 右击项目Local History ----show History 找到最近提交的内容右击选择Revert,代码全回来了

python+request接口自动化框架

目前我们需要考虑的是如何实现关键字驱动实现接口自动化输出,通过关键字的封装实现一定意义上的脚本与用例的脱离! robot framework 的安装不过多说明,网上资料比较太多~ 实例:!!!&#xff01…

matlab simulink PMSM永磁电机DTC控制

1、内容简介 略 10-可以交流、咨询、答疑 2、内容说明 PMSM永磁电机DTC控制 PMSM、永磁电机、DTC控制 传 是 ,它的工作原理是:首先设定好运行期望值和滞环的容差值,然后把电机 到的差值 号输出,可以 示需要减小 大输出…

​LeetCode解法汇总1465. 切割后面积最大的蛋糕

目录链接: 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目: https://github.com/September26/java-algorithms 原题链接:力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 描述: 矩形蛋糕的…

ChatGLM系列七:LangChain+ChatGLM-6B

背景介绍 在开发过程中,我们经常会遇到需要构建基于本地知识库的问答系统的问题。这种系统需要能够根据用户提供的问题,在本地的知识库中查找并返回相关答案。然而,要实现这样的功能并不容易,涉及到语言模型的选择、知识库的管理…

OpenCV+OpenCvSharp实现图片特征向量提取与相似度计算

图片特征向量是一种用于描述图片内容的数学表示,它可以反映图片的颜色、纹理、形状等信息。图片特征向量可以用于做很多事情,比如图片检索、分类、识别等。 本文将介绍图片特征向量的提取以及相似度的计算,并使用C#来实现它们。 文章开始前&a…