视频中自监督学习:「我的世界」下指令理解与跟随

news2025/1/22 15:01:16

本文介绍了北京大学人工智能研究院梁一韬助理教授所带领的 CraftJarvis 团队在「我的世界」环境下探索通用智能体设计的新进展,题为“GROOT: Learning to Follow Instructions by Watching Gameplay Videos”。

GROOT.png
GROOT

该研究的核心目标是探索能否摆脱文本数据的标注以及与环境的在线交互,而是仅通过观看游戏视频的方式来教会智能体理解世界、遵循指令,进而在开放世界下解决无穷的任务。考虑到视频数据广泛分布于互联网,而高质量的“文本-视频”数据对则难以获得,因此团队创新地提出使用一段“参考视频”作为指令的描述形式,并设计一套简洁的架构和自监督训练方法来联合学习指令空间和指令跟随策略。通过在本文提出的 Minecraft SkillForge 基准上进行细致的评测,该方法超过了目前现有的基线方法,并拉近了与人类玩家之间的差距。这对于复杂环境下通用智能体的设计有重要意义。

本文的第一作者是由梁一韬助理教授指导的博士生蔡少斐,通讯作者为梁一韬。论文的作者还包括北京大学的张博为、王子豪,UCLA 的刘安吉以及北京通用人工智能研究院的马晓健研究员。

image.png

 

论文题目: GROOT: Learning to Follow Instructions by Watching Gameplay Videos

论文链接: https://arxiv.org/abs/2310.08235 

项目网站:GROOT: Learning to Follow Instructions by Watching Gameplay Videos

01. 研究背景

在开放世界下开发类人级别的具身智能体以解决开放式任务一直是人工智能领域长期以来追求的目标。随着 ChatGPT 的流行,近年来涌现了一批利用大语言模型(LLM)的规划推理能力来解决「我的世界」中复杂长期任务的尝试,如 DEPS、Voyager、GITM 等工作。然而,与理想的通用智能体相比,这些基于 LLM 的工作主要强调发掘语言模型的潜力而忽略了提升底层控制器(low-level controller)的重要性。事实上,底层控制器负责将 LLM 规划出来的 plan 映射到具体动作空间(键盘与鼠标操作),并与环境直接进行交互。因此,其掌握的技能库中技能的数量和质量决定了智能体能力上限。该团队的此项研究旨在构建具备指令理解能力的基础决策大模型。通过将技能库从有限推广至无限,实现了由封闭式指令向开放式指令理解的迈进。

02. 研究动机

2.1 自监督预训练范式促进大规模任务学习

自监督预训练范式已经相继在自然语言处理(NLP)和计算机视觉(CV)领域展现出了极强的泛化能力,大有统一深度学习的趋势。然而,在强化学习(RL)和决策控制领域的相关研究则相对滞后。本文作者认为预训练的学习范式对于构建决策大模型来说至关重要。考虑到任务的多样性,为每个任务单独定义一套奖励函数并让智能体在与环境交互的方式中学习是非常昂贵且不安全的。因此,利用网上的海量视频数据对智能体进行自监督预训练使其大规模“领悟”技能的道路则非常有前景。

2.2 “视频”做指令表达能力强,数据易收集

为了使预训练出来智能体能够理解人类的指令并执行相应的任务,必须对指令空间的形式进行定义。目前主流的指令形式主要包括「任务指示器」、「未来的结果」(又分为「未来的状态」、「预期的累计奖励」等)、「自然语言」。本文作者认为,尽管在这些指令形式下智能体容易使用“后见经验重放”之类的技巧学习,然而指令的表达能力却十分有限。以「未来的状态」举例,一张房屋的照片并不能告诉智能体房子是如何被建造出来的,因为其缺乏细致的过程性描述。此外,这种指令也存在很强的歧义性,例如一张站在房屋前的图片并不能让智能体区分是要构建这样一座房屋还是找到这样一座房屋。尽管对于过程描述足够细致的自然语言指令可以规避上述所说的问题,然而互联网上并不存在如此多高质量的“视频-文本”数据对可供训练。

观察到主流指令形式的局限性之后,研究团队旨在找到指令的表达能力与智能体学习的成本之间的平衡。作者发现视频形式的指令则可以同时兼顾这两个要求。一方面,一段“参考”视频可以描述完成任务所需的所有细节信息,具备极强的表达能力;另一方面,视频模态数据大规模分布在互联网上,因此训练数据十分易于收集。

03. 研究方法

image.png
GROOT 基于编码器-解码器的架构设计

遵循上述设计原则,研究团队采用了流行的编码器-解码器架构来实现整个模型,并命名为 GROOT。具体来说,研究团队采用了非因果 Transformer 来实现视频编码器,用于提取视频中蕴含的语义信息;采用了一个因果 Transformer 作为解码器(即策略)用于遵照指令的语义信息在环境中做出相应的行为。在训练过程中,输入到编码器的视频和送到解码器中状态序列是完全一致的,模型在 KL 散度的约束下使用行为克隆进行自我模仿。在推理过程中,将输入到编码器中的视频换成任意一段描述某个任务执行过程的参考视频,智能体便可与环境进行交互从而完成相应的任务。

04. 评测基准

「我的世界」 环境具备极高的自由度,为了全面评估 GROOT 在解决复杂多样化任务上的能力。研究团队提出了一组新的评测基准「Minecraft SkillForge」。该基准包含了 「我的世界」 环境中的 30 个基础任务,涵盖「资源收集」、「生存维持」、「物品制作」、「自由探索」、「工具使用」和「结构建造」6 大类别。以下展示了「结构建造」、「对敌战斗」和「资源收集」三大类任务。

image.png
结构建造
image.png
生存维持
image.png
资源收集
image.png
工具使用

 

image.png
物品制作
image.png
自由探索

「挖三填一」是 「我的世界」 中安全度过黑夜的有效方法,它描述了构建一个简易庇护所所需的步骤:垂直向下挖掘 3 个泥土,抬头将 1 个泥土放置在上方做成封闭空间。

「蜘蛛进行搏斗」指玩家需要在保证生存的情况下使用钻石剑击杀尽可能多的蜘蛛。

「收集水草」任务指的是玩家需要跳进海中,潜泳游到海底破坏水草方块。

该评测基准既包含一些常见的任务(如收集木头、羊毛、草),也包含一些十分罕见的任务(如挖三填一、建造雪傀儡、切割石块)。因此该基准可以充分反应模型的泛化能力,对未来 「我的世界」 下多任务智能体的研究也有较大的意义。

05. 实验结果

5.1 天梯系统与人工评测

由于任务的多样性,并不存在一种统一的指标来评估所有任务。因此,研究团队使用 Elo Rating 系统结合人工比较的方式评估了 GROOT 与现有基线在「Minecraft SkillForge」基准上的性能差异。如图所示,可以发现 GROOT (1829 分)显著超越了目前所有的基线方法(1679 分),进一步缩小了与人类玩家(2034 分)的差异。如中间图所示,在一些不常见的任务(如「架构建造」和「工具使用」)上,相比之前的最优方法 STEVE-1,GROOT 获得了很高的对战胜率(>83%)。

image.png
天梯系统与人工评测

5.2 程序性任务评测结果

右图展示了 GROOT 和基线方法在 9 种代表性任务上的成功率对比。GROOT 除了在所有任务上都取得领先优势之外,也是唯一一个在「装备附魔」、「挖三填一」、「建造雪傀儡」任务上取得非零成功率的智能体。

5.3 指令空间 t-SNE 可视化结果

image.png
指令空间 t-SNE 可视化

为了直观了解指令空间的学习情况,研究团队额外展示了训练前后指令空间在 7 种类别任务视频上的编码效果。可以发现,经过自监督训练之后,指令空间的表达能力得到了极大的提升。在没有任何语义标签辅助下,仅通过自监督预训练就可以较好地提取视频中存在的语义信息。

5.4 组合多个指令解决复杂长期任务

image.png
钻石挑战

「我的世界」 中存在很多任务需要串行执行多个指令才可以解决,其中最经典的就是「钻石挑战」。钻石稀疏地分布于 「我的世界」 地下 7-12 层的位置。为了方便展现 GROOT 在解决「钻石挑战」上的表现,作者通过给智能体一把铁镐简化了钻石挑战任务,即省略了制作铁镐的过程。现在智能体只需向下挖掘到指定层数,再水平挖掘(可能需要很久)挖到💎即可。作者初始化给智能体的指令是一段向下挖掘的视频,并实时检测智能体高度,当高度到达 12 时,将给智能体的指令切换为一段描述水平挖掘的视频。研究团队发现 GROOT 可以以 16% 的较高成功率挖到💎。而相较而言,以「未来的结果」作为指令形式的STEVE-1 则无法获得钻石。作者推测,这可能是由于「未来的结果」无法表达水平挖掘这一概念,因此容易掉到基岩层并卡住,从而导致任务失败。

06. 结论与展望

本文提出了一种通过观看游戏视频来学习遵循指令的预训练范式。作者认为视频指令是一个很好的目标空间形式,它不仅表达了开放式任务,还可以通过自我监督进行训练。基于此,研究团队在 「我的世界」 中构建了一个名为 GROOT 的编码器-解码器 Transformer 架构智能体。无需依赖任何标注数据,GROOT 表现出非凡的指令跟随能力并霸榜 Minecraft SkillForge 基准。此外,作者还展示了它在「钻石挑战」任务中作为下游控制器的潜力。研究团队相信这种架构和训练范式具有很强的应用前景,并希望将其应用于更复杂的开放世界环境。

07. 相关工作

CraftJarvis 团队长期关注于在开放世界下构建自主智能体。除了构建指令跟随智能体 GROOT 完成开放世界下的短期任务,团队还使用预训练的大语言模型作为 Planner 来增强智能体完成长期任务的能力。

7.1 DEPS

DEPS 是第一个使用大语言模型在开放世界 「我的世界」 上进行任务规划和任务执行的智能体。DEPS 基于大语言模型设计了一个包括“描述、解释、规划并选择”的流程,通过整合计划执行过程的描述并在规划阶段遇到失败时大语言模型提供的自我解释反馈,从而在初步 LLM 生成的计划失败时更好的修正错误并重新规划。此外,它还包括一个目标选择器,这是一个可学习的模块,根据预估完成步骤来对候选子目标进行排序,从而提高语言计划在开放世界下的可执行性。DEPS 可以在「我的世界」环境中零样本的实现长序列任务,例如在生存模式下从头开始获得钻石。

Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents 
arXiv: https://arxiv.org/pdf/2302.01560.pdf 

Code:https://github.com/CraftJarvis/MC-Planner 

该文章被收录于NeurIPS 2023,并在ICML 2023的TEACH Workshop上被评选为最佳论文。

image.png
DEPS

7.2 JARVIS-1

JARVIS-1 是一个开放世界智能体,基于预训练的多模态语言模型,能够感知多模态输入(视觉观察和人类指令),生成复杂计划,并在「我的世界」中执行具身控制。JARVIS-1 还配备了一个多模态记忆,它利用预训练知识和实际游戏生存经验来提高规划能力。JARVIS-1 是现有「我的世界」中最通用的智能体,能够使用与人类一致的控制和观察空间完成200多个不同任务,从短期任务(例如“砍树”)到长期任务(例如“获得一把钻石镐”)。在经典的长期任务“获得钻石镐”中,JARVIS-1 的成功率为当前最先进智能体的5倍,并能成功完成更长时间跨度和更具挑战性的任务。

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models 
arXiv: https://arxiv.org/pdf/2311.05997.pdf 

Project: JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models

image.png
Jarvis-1

08. 本文作者

蔡少斐,北京大学人工智能研究院博士生,CraftJarvis 研究团队成员之一,导师是梁一韬教授。他的研究兴趣主要包括决策大模型、语言大模型以及游戏智能。他已在 CVPR 、NeurIPS 等人工智能顶会上发表过多篇论文,并专注于开放世界下智能体决策控制研究。担任 ICML、NeurIPS 、 ICLR 等国际学术会议审稿人。

个人主页:https://phython96.github.io

王子豪,北京大学人工智能研究院博士生,CraftJarvis 研究团队成员之一,导师为梁一韬教授。曾获国家奖学金、北京市优秀毕业生等荣誉。主要研究方向为开放世界下多任务智能体的构建,尤其关心基于基础模型的智能体的泛化能力。近年来在CVPR、NeurIPS等人工智能顶会上发表多篇论文,曾获ICML研讨会最佳论文奖。担任ICML、NeurIPS、ICLR等多个国际机器学习会议审稿人。

个人主页: https://zhwang4ai.github.io

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1302475.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

12.11 作业

1, 完善对话框,点击登录对话框,如果账号和密码匹配,则弹出信息对话框,给出提示”登录成功“,提供一个Ok按钮,用户点击Ok后,关闭登录界面,跳转到其他界面 如果账号和密码…

MySQL笔记-第01章_数据库概述

视频链接:【MySQL数据库入门到大牛,mysql安装到优化,百科全书级,全网天花板】 文章目录 第01章_数据库概述1. 为什么要使用数据库2. 数据库与数据库管理系统2.1 数据库的相关概念2.2 数据库与数据库管理系统的关系2.3 常见的数据库…

关于王道3.4_3GBN协议中对滑动窗口大小范围的讲述模糊表述的思考

这里是假设滑动窗口大小为4的不合理环境下,对为什么不合理原因的模糊表述。 下面是我对理解:为什么不可以是4 发送方在收到第一个ack0之后滑动窗口后移,可发送窗口内为1230, 接收方收到ack0此时存在二义性: 1、发送方发…

DelteE2000计算,C代码实现

CIEDE2000色差公式主要对CIE94公式做了如下几项修正: 重新标定近中性区域的a*轴,以改善中性色的预测性能; 将CIE94公式中的明度权重函数修改为近似V形函数; 在色相权重函数中考虑了色相角,以体现色相容限随颜色的色相…

springboot 极简案例

安装idea File -> New Project 选择依赖 创建controller文件 输入controller类名 输入代码 运行项目 访问 localhost:8080/hello/boot package com.example.demo;import org.springframework.web.bind.annotation.RequestMapping; import org.springframework.web.…

让你从此不再惧怕ANR

原文链接 让你从此不再惧怕ANR 这篇文章是基于官方的Diagnose and fix ANRs翻译而来,但也不是严格的翻译,原文的内容都在,又加上了自己的理解以及自己的经验,以译注的形式对原文的作一些补充。 当一个Android应用的UI线程被阻塞时…

【Jeecg Boot 3 - 第二天】1.1、后端 docker-compose 部署 JEECGBOOT3

一、场景 二、实战 ▶ 2.1 修改配置文件 > 目的一:将 dev 变更为生产环境 prod > 目的二:方便spring项目调用docker同个network下的redis和mysql ▶ 2.2 编写dockerfile ▶ 2.3 编写docker-compose.yaml ▶ 2.4 打…

老师们居然这样把考试成绩发给家长

教育是一个复杂而多元的过程,其中考试成绩的发布和沟通是教育过程中的一个重要环节。然而,有些老师在发布考试成绩时,采取了一些不恰当的方式,给家长和学生带来了不必要的困扰和压力。本文将探讨老师们不应该采取的发布考试成绩的…

Docker | 自定义网络

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏:Docker系列 ✨特色专栏: MySQL学习 🥭本文内容: Docker | 自定义网络 📚个人知识库: 知识库,欢迎大家访问 1.前言 大家好,我是Leo哥…

最小体力消耗路径(广度优先搜索)

最小体力消耗路径 看见这题第一眼-动态规划,再看BFS。 用动态规划做的话不能一次保证当前位置能获得最小的最大值,因为需要周围的四个(或者两个)元素值。 这里我纯用的BFS,宽度优先搜索。类似于n皇后问题。见代码吧…

Course3-Week1-无监督学习

Course3-Week1-无监督学习 文章目录 Course3-Week1-无监督学习1. 欢迎1.1 Course3简介1.2 数学符号约定 2. K-means算法2.1 K-means算法的步骤2.2 代价函数2.3 选择聚类数量2.4 代码实例-图像压缩 3. 异常检测3.1 异常检测的直观理解3.2 高斯分布3.3 异常检测算法3.4 选取判断阈…

紧固件的标准有哪些

紧固件的行业标准 紧固件是一个涉及几乎所有结构、机械和人们日常使用的产品的稳定性、安全性和结构完整性的广泛话题。紧固件作为一种功能强大、高效的机械设备,其功能和特性的规格多种多样,根本无法低估。由于紧固件是工程和机械的支柱,因此…

如何使用Imagewheel本地搭建一个简单的的私人图床公网可访问?

文章目录 1.前言2. Imagewheel网站搭建2.1. Imagewheel下载和安装2.2. Imagewheel网页测试2.3.cpolar的安装和注册 3.本地网页发布3.1.Cpolar临时数据隧道3.2.Cpolar稳定隧道(云端设置)3.3.Cpolar稳定隧道(本地设置) 4.公网访问测…

新版Spring Security6.2架构 (三) - Authorization

前言 书接上文,在经过了authentication后就是authorization了,本文还是对官网文档authorization的一个架构翻译和个人理解,后续的博客在写具体使用例子,从数据中认证,融合authentication和authorization的概念。 Aut…

堆的相关时间复杂度计算(C语言)

目录 前言 建堆的时间复杂度 向上调整建堆的时间复杂度 向下调整建堆的时间复杂度 维护堆的时间复杂度 top K问题的时间复杂度 前言 在前面的三篇文章中我们成功的实现了堆排序的升降序以及基于堆的top K问题,现在我们来解决它们的时间复杂度问题 建堆的时间…

【精选】 VulnHub (超详细解题过程)

🍬 博主介绍👨‍🎓 博主介绍:大家好,我是 hacker-routing ,很高兴认识大家~ ✨主攻领域:【渗透领域】【应急响应】 【python】 【VulnHub靶场复现】【面试分析】 🎉点赞➕评论➕收藏…

前后端请求之nginx配置

问题: 前端发送的请求,是如何请求到后端服务器的? 如,前端请求地址:http://loclhost/api/employee/login: 后端相应请求地址:http://loclhost:8080/admin/employee/login 回答: …

Firmware Analysis Plus (Fap)固件模拟安装教程(最新)

最近在搞IoT的研究,但是难在设备比较难弄,只有固件,而没有设备,买吧,又太费钱,不划算。好在有很多项目可以在模拟环境中运行固件。但是几乎没有一个平台能够模拟所有硬件设备。IoT产品的架构也不尽相同。 …

Idea spring项目中 resource图标错误解决方案

1.resources错误显示示例 2.resources正确显示示例 3.解决方案 第一步: 第二步: 点击完成即可。