【深度学习】大模型卷到机器人上了

【深度学习】大模型卷到机器人上了

news2026/2/12 19:54:49

当一项变革性技术出现后，以此为基础的技术就会像雨后春笋般蔓延。

就像Transformer出现后，以此为基础的大语言模型ChatGPT，视觉基础模型Segment Anything相继横空出世，并展现出强大的涌现能力。生成式AI可谓百花齐鸣，争相绽放。

继纯语言，纯视觉大模型后，多模态大模型也粉墨登场，最近Google DeepMind重磅推出Robotic Transformer 2（RT2），也被称为视觉-语言-行动模型（Vision-Language-Action）。用一句话概括：RT2可以将机器人对世界的观察（图片）以及用户的指令（文本）转换成机器人的控制指令（文本）。

论文地址：
https://robotics-transformer2.github.io/assets/rt2.pdf
官方文档：
https://robotics-transformer2.github.io
https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action

整体流程图

整体流程如上图所示，机器人接受人类的语音指令，将其转换为文本，同时利用自身的摄像头对现实场景进行拍照，将文本和图片同时输入到RT2中，模型输出机器人控制指令文本，最后将指令文本解码成机器人能识别的指令格式下达给机器人控制器。

机器人指令文本格式

机器人对人类下达的文本指令（pick robot）原本一无所知，但通过RT2将人类指令文本（pick robot）和机器人指令文本（A:=132 114 128 5 25 156）映射到了同一个向量空间，通过大量数据训练后，那么两者就具有相同的语义了。

纯语言模型和纯视觉模型的输入大多是单模态的，也就是只有文本或者图片，而RT2的输入既有文本也有图片，这种能够处理多模态信息的模型被称为视觉语言模型，目前有两种主流方法。

一种方法是CLIP，它的思路很简单，就是将图片和文本分别编码到同一个共享空间，在这个空间中，“a cat”和一只猫的图片余弦相似度最大。

另一种方法是具有{vision, text} → {text} 映射形式的模型，类似于视觉问答，这种方法也是本文RT2所采用的方法。

采用这种方法的另一个好处是不需要从零开始训练模型，目前已经有在大量网络数据上进行训练的视觉语言预训练模型，例如，PaLI-X PaLM-E，但只有网络通用数据无法直接应用于机器人领域，所以需要在预训练模型的基础上继续用专门的机器人训练数据进行微调，其整体训练过程如下。

训练过程

为了适应机器人场景，需要将用户文本指令进行简单的装饰后再送入网络进行训练，例如，用户的指令是：pick the football，装饰后的文本就是What robot should do to pick the football? 最后与图片一起送入网络。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1017556.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

性能测试-性能工程落地的4个阶段（21）

性能测试-性能工程落地的4个阶段（21）

性能工程按照不同的内容和目的划分为4个阶段，分别是线下单系统压测分析阶段、线下全链路压测分析阶段、生产只读业务压测及容量评估阶段、生产读写业务全链路压测及容量评估阶段。（也可以理解为一个企业性能测试体系的发展阶段）线下单系统压测分析阶段针对单系统的性能…

阅读更多...

那些你不得不知道的CSS知识点

那些你不得不知道的CSS知识点

目录 1、CSS的盒子模型1.1 css盒子模型有哪些：1.2 css盒子模型的区别1.3 通过css如何转换css盒子模型 2、css优先级3、line-height和height的区别4、如果用css画一个三角形？5、CSS选择符有哪些？哪些属性可以继承？6、一个盒子不给宽…

阅读更多...

《已解决 Go Error: panic: runtime error: index out of range BUG 》

《已解决 Go Error: panic: runtime error: index out of range BUG 》

🌷🍁 博主猫头虎（🐅🐾）带您 Go to New World✨🍁 🐅🐾 猫头虎建议程序员必备技术栈一览表📖： 💡 后端技术 Backend: 编程语言: &#…

阅读更多...

【计算机视觉】Image Data Augmentation算法介绍合集（二）

【计算机视觉】Image Data Augmentation算法介绍合集（二）

文章目录一、Random Grayscale二、GridMask三、Adversarial Color Enhancement四、Population Based Augmentation五、MaxUp六、SuperpixelGridCut, SuperpixelGridMean, SuperpixelGridMix七、InstaBoost八、Random Mix-up九、Sample Redistribution十、Batchboost十一、CutB…

阅读更多...

人工智能前景如何？人工智能所对应到企业中是什么样的岗位呢？

人工智能前景如何？人工智能所对应到企业中是什么样的岗位呢？

目录分布式计算在硕士阶段主要是在干什么呢，主要修的课程是些什么呢？ 分布式计算所对应到企业中是什么样的岗位呢？ 分布式计算前景如何？ 人工智能在硕士阶段主要是在干什么呢，主要修的课程是些什么呢？…

阅读更多...

vue国际化教程

vue国际化教程

需求背景项目需求要做国际化，结果网上找了好几篇文章，没有一个可以一次性搞定，现在这里总结一下。首先，我们分为两部分处理，一个是前端页面的静态文字，这个由前端vue.json自行处理。第二部分就是后端的错…

阅读更多...

基于springboot漫画管理系统springboot001

基于springboot漫画管理系统springboot001

摘要随着信息技术和网络技术的飞速发展，人类已进入全新信息化时代，传统管理技术已无法高效，便捷地管理信息。为了迎合时代需求，优化管理效率，各种各样的管理系统应运而生，各行各业相继进入信息管理时代&…

阅读更多...

vue+element-ui el-descriptions 详情渲染组件二次封装（Vue项目）

vue+element-ui el-descriptions 详情渲染组件二次封装（Vue项目）

目录 1、需求 2.想要的效果就是由图一变成图二编辑 3.组件集成了以下功能 4.参数配置示例代码参数说明 5,组件 6.页面使用 1、需求一般后台管理系统，通常页面都有增删改查；而查不外乎就是渲染新增/修改的数据（由输入框变成输…

阅读更多...

十四、流式编程（2）

十四、流式编程（2）

本章概要中间操作跟踪和调试流元素排序移除元素应用函数到元素在 map() 中组合流中间操作中间操作用于从一个流中获取对象，并将对象作为另一个流从后端输出，以连接到其他操作。跟踪和调试 peek() 操作的目的是帮助调试。它允许你无修改地查看…

阅读更多...

CMU 15-445 Project #3 - Query Execution（Task #1、Task #2）

CMU 15-445 Project #3 - Query Execution（Task #1、Task #2）

文章目录一、题目链接二、准备工作三、SQL 语句执行流程四、BusTub 表结构五、Task #1 - Access Method Executors5.1 顺序扫描执行器5.2 插入执行器5.3 删除执行器5.4 索引扫描执行器六、Task #2 - Aggregation & Join Executors6.1 聚合执行器6.2 循环连接执行器6.3 索…

阅读更多...

设计模式Java实战

设计模式Java实战

文章目录一、前置1.1 目的1.2 面向对象1.3 接口和抽象类二、七大设计原则2.1 单一职责2.2 接口隔离原则2.3 依赖倒转原则2.4 里氏替换原则2.5 开闭原则2.6 不要重复原则2.7 迪米特最少知道法则三、23种设计模式3.1创建型：创建对象3.1.1 单例模式定义最佳实践场景…

阅读更多...

【基础篇】ClickHouse 表引擎之集成Kafka

【基础篇】ClickHouse 表引擎之集成Kafka

文章目录 0.前言1.集成示例官方教程示例1：示例2：配置Kerberos 支持虚拟列参考文档 0.前言 ClickHouse为了方便与Kafka集成，提供了一个名为Kafka引擎的专用表引擎。Kafka引擎允许你在ClickHouse中创建一个表，这个表的数据源来自…

阅读更多...

react的状态管理简单钩子方法

react的状态管理简单钩子方法

1.recoil useProvider文件: import { atom, useRecoilState } from recoil;const initState atom({key: initState,default: {state: [],}, })// 将业务逻辑拆分到一个单独文件中，方便进行状态管理 export interface StateProps {id: number;text: string;isFini…

阅读更多...

学习Node js：raw-body模块源码解析

学习Node js：raw-body模块源码解析

raw-body是什么 raw-body的主要功能是处理HTTP请求体的原始数据。它提供了以下核心功能： 解析请求体：可以从HTTP请求中提取原始数据，包括文本和二进制数据。配置选项：通过配置项，可以设置请求体的大小限制、编码方式…

阅读更多...

主题教育活动知识竞赛小程序界面分享

主题教育活动知识竞赛小程序界面分享

主题教育活动知识竞赛小程序界面分享

阅读更多...

Git - Git 工作流程

Git - Git 工作流程

文章目录 Git WorkFlow图解小结 Git WorkFlow Git Flow是一种基于Git的工作流程，确实利用了Git作为分布式版本控制系统的优势。本地代码库 (Local Repository): 每个开发者都维护自己的本地代码库，这是Git分布式性质的体现。本地代码库包含了完整的项目…

阅读更多...

清华发力了，EUV光刻机技术取得重大突破，外媒：没想到如此快

清华发力了，EUV光刻机技术取得重大突破，外媒：没想到如此快

日前媒体纷纷传言清华研发成功EUV光刻机，这个其实夸大了事实，不过却也确实是EUV光刻机的重大突破，将绕开ASML等西方垄断的EUV光刻技术路线，开辟一条全新的道路。据了解清华研发成功的并非是EUV光刻机，而是可用于EUV光…

阅读更多...

输入M*N阶矩阵A和B，用函数编程计算并输出A与B之和

输入M*N阶矩阵A和B，用函数编程计算并输出A与B之和

#include<stdio.h> #define M 2 #define N 3 void scanfjuzhen(int arr[M][N])//向二维数组输入数据 {int i 0;int j 0;for (i 0; i < M; i){for (j 0; j < N; j)scanf("%d", &arr[i][j]);} } void sumjuzhen(int a[M][N], int b[M][N],int c[M]…

阅读更多...

性能测试 —— Jmeter 常用三种定时器

性能测试 —— Jmeter 常用三种定时器

1、同步定时器位置：HTTP请求->定时器->Synchronizing Timer 当需要进行大量用户的并发测试时，为了让用户能真正的同时执行，添加同步定时器，用户阻塞线程，知道线程数达到预先配置的数值，才开始执行…

阅读更多...

Rust踩雷笔记（7）——一个链表题例子初识裸指针

Rust踩雷笔记（7）——一个链表题例子初识裸指针

题目在这https://leetcode.cn/problems/palindrome-linked-list/，leetcode 234的回文链表，思路很简单，就是fast和slow两个指针，fast一次移动两个、slow一次一个，最后slow指向的链表反转后和head比较就行了。很简单一…

阅读更多...

推荐文章

最新文章