PaLM-E: An Embodied Multimodal Language Model

news2025/1/12 12:11:31

发表时间:arXiv 6 Mar 2023

作者单位:Robotics at Google

Motivation:大型语言模型已被证明可以执行复杂的任务。然而,在现实世界中启用一般推理,例如对于机器人问题,提出了落地的挑战。

解决方法:提出了具身语言模型PaLM-E,将现实世界的连续传感器模式直接合并到语言模型中,从而建立单词和感知之间的联系。

实现方式:具身语言模型的输入是多模态句子,交织视觉、连续状态估计和文本输入编码。端到端地训练这些编码,以及预训练的大型语言模型,用于包括顺序机器人操作规划、视觉问答和字幕在内的多个具身任务。

输入:PaLM-E 对多模态句子进行操作,即来自任意模态(例如图像、神经 3D 表示或状态,绿色和蓝色)的输入与文本标记(橙色)一起插入作为 LLM 的输入,端到端训练。

图像和状态估计等输入被嵌入到与语言标记相同的潜在嵌入中,并由基于 Transformer 的 LLM 的自注意力层以与文本相同的方式进行处理。

把各个模态的数据,都转化为与 language tokens 相同维度的embedding。

对不同模态数据的处理:

  1. 对状态估计向量。状态向量,例如来自机器人或对象的状态估计,可能是输入到 PaLM-E 的最简单。设 s ∈ RS 是一个描述场景中对象状态的向量。例如,s 可以包含这些对象的姿势、大小、颜色等。然后,MLP 将 s 映射到语言嵌入空间中。

  2. 对2D图像:使用ViT.注意,ViT 嵌入的维度 ̃k 不一定与语言模型的维度相同。还可以通过后边的仿射变换改变它的维度.同时使用了Object-centric representations. We therefore also explore structured encoders that aim to separate visual inputs into distinct objects before injecting them into the LLM。也就是将图像表示分为不同的object。

  3. 对3D场景表示:3D-aware Object Scene Representation Transformer (OSRT),OSRT learns 3D-centric neural scene representations on in-domain data through a novel view synthesis task.

结构:PaLM-E 是一个仅 decoderLLM,它在给定前缀或提示的情况下自回归生成文本补全。我们称我们的模型 PaLM-E。

输出:PaLM-E 的输出是由模型自回归生成的文本,可以是问题的答案,也可以是 PaLM-E 以文本形式产生的一系列决策,这些决策应该由机器人执行。即输出的是high-level的规划。 训练方式:Most of our architectures consist of three parts, an encoder ̃φ, a projector ψ, and the LLM 。LLM是被冻住的,only update the small projector ψ。

Co-training across tasks:在我们的实验中,我们研究了协同训练我们的模型对各种不同数据的影响。主要由来自各种任务的一组不同的互联网规模的视觉和语言数据组成。设置采样频率,使得只有 8.9% 的完整混合是具身任务,for each embodiment有几个任务。----作者发现使用这种Co-training的方式会带来性能的提升。

实验:在仿真和两个不同的真实机器人中,考虑三种不同机器人实施例的不同机器人(移动)操作任务。

结论:多种任务:standard visual-language tasks such as VQA and image captioning, as well as language tasks. 我们的结果表明,与单个任务的训练模型相比,多任务训练提高了性能。这种跨任务的转移可能导致机器人任务的数据效率很高,例如,从少数训练示例中显著增加学习成功,甚至展示了对未见过对象的新组合的单镜头或零镜头泛化。

最大的模型 PaLM-E-562B 展示了诸如多模态思维推理链和对多个图像进行推理的能力等突出能力,尽管仅在单图像提示上进行训练

总结:是一个大脑,没有小脑。输出的是high-level的任务规划。如:第一步。。。第二步。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2036986.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

探索全新AI编码代理框架:Agent Zero

引言 在科技的不断进步中,人工智能(AI)正越来越多地融入我们的日常生活。今天,我要为大家介绍一款全新的AI编码代理框架——Agent Zero。这款框架不仅可以自动化处理编码任务,还能操作文本、应用程序前端等&#xff0…

【微信小程序】页面导航和导航传参

什么是页面导航 小程序中实现页面导航的两种方式 1.声明式导航 (1). 导航到 tabBar 页面 (2). 导航到非 tabBar 页面 (3).后退导航 2.编程式导航 (1).导航到 tabBar 页面 示例代码如下: (2).导航到非 tabBar 页面 示例代码如下: (3).后退导航 示例…

WSL2Linux 子系统(十)

WSL 中启用图形界面 上一篇文章 《WSL2Linux 子系统(九)》 讲解详细讲 WSL(Windows Subsystem for Linux)解几种常见硬盘挂载方法。本篇讲述 WSL 显示画面的几种方法。WSL 本身不直接支持图形界面,在 WSL 环境中播放视频画面需要额外处理或者…

进程的执行和进程的结束

exec函数族: 作用:可以在一个程序中启动另外一个功能,用新的进程段替换当前进程的段. exec函数族用于替换当前进程的映像,允许程序在运行时加载并执行新的程序代码。 execl: l:list path:要执行的文件的路径 arg:要执行的文件的参数&a…

C#利用ffmpeg和opencv进行视频的解码播放

目录 说明 效果 项目 代码 下载 说明 利用周杰大佬的开源项目 Sdcb.FFmpeg 项目地址:https://github.com/sdcb/Sdcb.FFmpeg/ 效果 C#利用ffmpeg和opencv进行视频的解码播放 项目 代码 using OpenCvSharp; using Sdcb.FFmpeg.Codecs; using Sdcb.FFmpeg.F…

【SpringBoot】【autopoi】java生成word,基于模版生成(文本、图片、表格)

基于模版生成word 1、引入maven2、word模版编写3、java代码4、效果 AutoPoi的主要特点 参考文献 https://help.jeecg.com/autopoi/autopoi/prequel/test.html 1.设计精巧,使用简单 2.接口丰富,扩展简单 3.默认值多,write less do more 4.spring mvc支持,web导出可以简单明了 1、…

【大模型从入门到精通17】openAI API 构建和评估大型语言模型(LLM)应用5

这里写目录标题 理论问题:实践问题:理论实践 理论问题: 1.描述评估LLM应用程序输出的重要性,并提及至少三个维度,这些输出应该在这几个维度上被评估。 2.解释在评估LLM应用程序时开发稳健的性能指标的作用&#xff0c…

uniapp多图上传uni.chooseImage上传照片uni.uploadFile,默认上传9张图

uniapp多图上传uni.chooseImage上传照片uni.uploadFile 代码示例: /**上传照片 多图*/getImage() {uni.chooseImage({count: 9, //默认9sizeType: [original, compressed], //可以指定是原图还是压缩图,默认二者都有sourceType: [album], //从相册选择/…

【论文理解】Pixel-level Extrinsic Calibration LiDAR and Camera

Pixel-level Extrinsic Self Calibration of High Resolution LiDAR and Camera in Targetless Environments 无目标环境中高分辨率激光雷达和相机的像素级外参估计 摘要 Our approach does not require checkerboards but can achieve pixel-level accuracy by aligning na…

数据结构8.13

作业&#xff1a;链栈&#xff0c;自己实现一遍&#xff0c;但是节点存储不是整数&#xff0c;存储学生信息&#xff08;年龄&#xff0c;分数&#xff0c;姓名&#xff09;三级引用。 1、建立学生信息结构体&#xff0c;将data改为学生信息结构体类型。 #include <myhead…

深度学习---------------卷积层

目录 从全连接到卷积分类猫和狗的图片重新考察全连接层原则1------平移不变性原则2------局部性 总结 卷积层二维交叉相关二维卷积层交叉相关 vs 卷积一维和三维交叉相关总结 图像卷积二维互相关运算实现二维卷积层图像中目标的边缘检测该部分总代码该部分总代码 问题 从全连接…

安装MySQL数据库【后端 8】

安装MySQL数据库 MySQL是世界上最流行的开源关系型数据库管理系统&#xff08;RDBMS&#xff09;之一&#xff0c;广泛应用于Web应用程序开发中。无论你是初学者还是有一定经验的开发者&#xff0c;掌握MySQL的安装都是必不可少的技能。本文将指导你如何在不同的操作系统上安装…

在 SOCKS 和 HTTP 代理之间如何选择?

在 SOCKS 和 HTTP 代理之间进行选择需要彻底了解每种代理的工作原理以及它们传达的配置。只有这样&#xff0c;您才能轻松地在不同类型的代理之间进行选择。 本文概述了 HTTP 和 SOCKS 代理是什么、它们如何运作以及它们各自带来的好处。此外&#xff0c;我们将比较这两种代理类…

1、Unity【基础】3D数学

3D数学 文章目录 3D数学1、数学计算公共类Mathf1、Mathf和Math2、区别3、Mathf中的常用方法&#xff08;一般计算一次&#xff09;4、Mathf中的常用方法&#xff08;一般不停计算&#xff09;练习 A物体跟随B物体移动 2、三角函数1、角度和弧度2、三角函数3、反三角函数练习 物…

三、虚拟机安装CentOS 7

编写目的&#xff1a; 1.做个记录&#xff0c;防止参考的博客被删 2.做个基础的虚拟机镜像&#xff0c;无应用&#xff0c;固定ip&#xff0c;能联网即可。后面直接克隆一个镜像&#xff0c;安装Jenkins等 目录 一、下载CentOS镜像 二、vmware配置CentOS虚拟机 1.打开vmw…

MSF经典attack示范

免责声明:本文仅做分享... 目录 Nessus官网 指定攻击 自动在线攻击 nmap扫 查看扫到的服务 查看主机 离线攻击 Msfvenom 本地快速传递文件的方法-->py 哈希传递攻击 提权 后渗透阶段 1-收集操作系统和版本信息 2-主机名称&环境变量 3-用户账户信息 4-远…

Stable Diffusion绘画 | ControlNet应用-NormalMap(法线贴图)

NormalMap(法线贴图)&#xff0c;指的是一张只有红绿蓝RGB颜色的图片&#xff0c;通过指定的发法线算法&#xff0c;用RGB颜色相互混合搭配来表示物体的凹凸情况&#xff0c;常用于3D贴图模型使用。 整体配置如下&#xff1a; ControlNet 的法线控制可以把任何的图片转化为法线…

Java Web —— 第四天(HTTP协议,Tomcat)

HTTP-概述 概念:Hyper Text Transfer Protocol&#xff0c;超文本传输协议&#xff0c;规定了浏览器和服务器之间数据传输的规则 特点: 1. 基于TCP协议:面向连接&#xff0c;安全 2.基于请求-响应模型的:一次请求对应一次响应 3. HTTP协议是无状态的协议: 对于事务处理没有…

书生浦语大模型全链路开源开放体系学习

书生浦语大模型的开源体系经过一年努力&#xff0c;已实现从数据收集到模型部署的全链路打通。课程介绍了书生浦语的最新进展&#xff0c;包括7B和20B模型的开源及其性能提升。新版本模型在推理能力和上下文处理上表现优异&#xff0c;支持超长上下文和复杂任务解决。开源工具涵…

Java并发类API--Executor与ThreadPoolExecutor

在 Java 中&#xff0c;Executor 和 ThreadPoolExecutor 是用于管理线程和执行任务的工具&#xff0c;帮助开发者更好地控制多线程环境。下面是它们的使用和区别。 1.Executor 简介 Executor 是一个接口&#xff0c;用来创建线程池&#xff0c;它定义了一个 execute(Runnable c…