DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

news2025/1/18 20:58:43

内容一览:强化学习是多学科领域的交叉产物,其本质是实现自动决策且可做连续决策。本文将介绍 DeepMind 最新研发成果:扩大强化学习应用范围的通用算法 DreamerV3。 关键词:强化学习 DeepMind 通用算法

本文首发自微信公众号:HyperAI超神经

北京时间 1 月 12 日,DeepMind 官方推特发文,正式官宣 DreamerV3,这是首个能在游戏「我的世界」(Minecraft) 中不参考人类数据,就能从头开始收集钻石的通用算法,解决了 AI 领域中的又一重要挑战。

DeepMind 在推特官宣 DreamerV3

强化学习扩展成问题,发展还需通用算法

强化学习使得计算机可以通过互动解决某一任务,如 AlphaGo 在围棋比赛中战胜人类,OpenAI Five 在 Dota 2 中战胜业余人类玩家。

OpenAI Five 在比赛中战胜人类玩家研发团队与人类玩家合照

然而,要想将算法应用于新的应用场景,如从棋盘游戏转到视频游戏或机器人任务,就需要工程师不断开发专门的算法 (specialized algorithms),如连续控制、稀疏奖励、图像输入以及 spatial environments 等。

这要求大量的专业知识和计算资源来微调算法,极大阻碍了模型的扩展。创建无需调优就能学习掌握新 domain 的通用算法,成为扩大强化学习应用范围、解决决策问题的重要途径。

由此,由 DeepMind 和多伦多大学联合研发的 DreamerV3 应运而生。

DreamerV3:基于世界模型的通用算法

DreamerV3 是一种基于世界模型 (World Model) 的通用和可扩展的算法,能在固定超参数的前提下,应用于广泛域 (domain),比专门的算法更出色。

这些 domain 包括连续动作 (continuous action) 和离散动作 (discrete action),视觉输入和低维输入,2D 世界和 3D 世界,不同的数据预算、奖励频率和奖励尺度等。

DreamerV3 通用算法与专门算法性能对比

DreamerV3 由 3 个从回放经验 (replayed experience) 中同时训练,且不共享梯度的神经网络组成:

1、world model:预测潜在动作的未来结果

2、critic:判断每种情况的 value

3、actor:学习如何使有价值的情况成为可能

DreamerV3 的训练过程

如上图所示,world model 将 sensory input 编码为一个离散表征 zt。zt 由一个具备 recurrent state ht 的序列模型预测得出,并给出动作 at。input 被重构为学习信号 (learning signal) 进而 shape 表征。

actor 和 critic 从 world model 预测的抽象表征 trajectory 中学习。

为了更好地适应跨域任务,这些组件需要适应不同的信号强度 (signal magnitudes),并在其目标中稳健地平衡 terms。

工程师在超过 150 个固定参数的任务上对 DreamerV3 进行了测试,并与文献中记载的最佳方法进行比较,实验表明,DreamerV3 对于不同 domain 的任务,均具备较高通用性和可扩展性。

基准概览  所有 agent 都是在 NVIDIA V100 GPU 上训练

DreamerV3 在 7 个基准测试中都取得了优异成绩,并在 state 和 image 的 continuous control、BSuite 和 Crafter 上都建立了新的 SOTA 水平。

然而 DreamerV3 仍然具备一定的局限性,例如当 environment steps 在 1 亿以内时,算法并不能像人类玩家一样,在所有场景中都捡到钻石,而是偶尔捡到。

站在巨人的肩膀上,回顾Dreamer家族发展史

一代目:Dreamer

发布时间:2019 年 12 月

参与机构:多伦多大学、DeepMind、Google Brain

论文地址:https://arxiv.org/pdf/1912.01603.pdf

算法简介:

Dreamer 是一个强化学习 agent,可以仅通过 latent imagination 从图像中解决 long-horizon 任务。

它基于模型预测的反向传播,来利用 world model 实现高效的行为学习。在 20 个极具挑战性的视觉控制任务中,Dreamer 在数据效率、计算时间和最终性能方面均超过了当时的主流方法。

Dreamer 与当时主流方法的性能比较

Dreamer 继承了 PlaNet 的数据效率,同时超过了当时最好的 model-free agent 的渐近性能 (asymptotic performance)。5×106 个 environment step 后,Dreamer 在各个任务中的平均性能达到了 823,而 PlaNet 仅为 332,最高的 model-free D4PG agent 在 108 步之后为 786。

二代目:DreamerV2

发布时间:2020 年 10 月

参与机构:Google Research、DeepMind、多伦多大学

论文地址:https://arxiv.org/pdf/2010.02193.pdf

算法简介:

DreamerV2 是一个强化学习 agent,可以从 world model 紧凑隐空间 (compact latent space) 的预测中学习行为。

注:该 world model 使用离散表征,并且与策略分开训练。

DreamerV2 是第一个通过在单独训练的 world model 中学习行为,在 Atari 基准的 55 项任务中达到人类水平的 agent。在相同的计算预算和 wall-clock time 情况下,DreamerV2 达到了 2 亿帧,超过了顶级 single-GPU agents IQN 及 Rainbow 的最终性能。

此外,DreamerV2 也适用于有连续动作的任务,它学习了一个复杂的类人型机器人的 world model,只通过像素输入就解决了站立和行走问题。

玩家在 Atari 基准 55 个游戏的正则化中位数得分

推特网友评论区带头玩梗

对于 DreamerV3 的诞生,不少网友也在 DeepMind 推特留言区抖起了机灵。

解放人类,再也不用玩「我的世界」了。

别光顾着玩游戏了,干点正事儿吧!@DeepMind 和 CEO Demis Hassabis

「我的世界」终极 BOSS 末影龙瑟瑟发抖中。

近年来,游戏「我的世界」已成为强化学习研究的一个焦点,围绕在「我的世界」中进行钻石收集的国际竞赛已经举办多次。

在没有人类数据的情况下解决这一挑战,被广泛认为是人工智能的一个里程碑,因为在这个程序生成的开放世界环境 (open-world environment) 中,奖励稀少、探索困难、时间跨度长,这些障碍的存在使得先前的方法都需要基于人类数据或教程。

DreamerV3 是第一个从 0 开始在「我的世界」中完全自学收集钻石的算法,它使得强化学习的应用范围进一步扩大,正如网友们所说,DreamerV3 已经是个成熟的通用算法了,该学会自己挂机升级打怪,跟终极 BOSS 末影龙对线了!

关注 HyperAI超神经,了解更多有趣的 AI 算法、应用;还有定期更新教程,一起学习进步!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/161726.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

沙溢44岁、沈腾、邓超43岁、马丽40岁,他们就不能上春晚了吗

最近笔者浏览网络,发现很多吐槽央视春晚的声音,有些吐槽感觉有理有据,有些就有些强词夺理了。比如说,有人把今年参加春晚演员的年龄,做了一个简单的梳理,似乎想证明一些什么东西。 在这张年龄盘点表当中&am…

spring之面向切面编程AOP概述

文章目录前言一、介绍AOP二、面向切面编程的七大术语三、切点表达式前言 AOP(Aspect Oriented Programming)面向切面编程,是一种编程技术。 AOP是对OOP(面向对象)的补充延伸。 AOP底层使用的就是动态代理实现的。 Spr…

论文投稿指南——中文核心期刊推荐(地理学 2)

【前言】 🚀 想发论文怎么办?手把手教你论文如何投稿!那么,首先要搞懂投稿目标——论文期刊 🎄 在期刊论文的分布中,存在一种普遍现象:即对于某一特定的学科或专业来说,少数期刊所含…

2017双11交易系统TMF2.0技术揭秘,实现全链路管理

摘要: 本文是《2017双11交易系统TMF2.0技术揭秘》演讲整理,主要讲解了基于TMF2.0框架改造的交易平台,通过业务管理域与运行域分离、业务与业务的隔离架构,大幅度提高了业务在可扩展性、研发效率以及可维护性问题,同时以…

2023年网络爬虫实训(第一天)

任务1:理解http协议。https协议,tcp协议。udp协议。掌握http的通讯过程。掌握客户端是如何获取respnse并展示数据的。 HTTP协议是建立在请求/响应模型上的。首先由客户建立一条与服务器的TCP链接,并发送一个请求到服务器,请求中包…

基于微信小程序的电影交流平台小程序

文末联系获取源码 开发语言:Java 框架:ssm JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 5.7/8.0 数据库工具:Navicat11 开发软件:eclipse/myeclipse/idea Maven包:Maven3.3.9 浏览器…

Three.js 粗糙度贴图与金属度贴图

在开始介绍贴图之前,我们先介绍一下粗糙度属性以及金属度属性。 粗糙度属性 .roughness 表示材质的粗糙程度,0 表示平滑的镜面反射,1 表示完全漫反射,而金属度属性 .metalness 表示材质与金属的相似度,非金属材质&…

Java基础学习笔记(十四)—— 集合(2)

集合1 Set 集合1.1 Set 集合概述1.2 Set 集合的使用2 TreeSet 类2.1 TreeSet 类概述2.2 TreeSet 基本使用2.3 TreeSet 排序3 HashSet 类3.1 HashSet 类概述3.2 HashSet 基本使用3.3 哈希值3.4 HashSet 案例4 Map 集合4.1 Map 集合概述4.2 Map 常用方法4.3 Map 的遍历5 HashMap …

mysql:存储过程的创建与使用

一、创建存储过程 使用MySql Workbench创建存储过程,一定要记得使用delimiter指明结束符,否则会报错:Statement is incomplete, expecting: ;’ 错误示例: create procedure area_pro1(in mylevel tinyint) beginselect * from…

回看2022,展望2023

目录一、回看2022求职心路身份过度二、展望20232023年,祝大家天天开心,身体健康,万事如意,一起加油!一、回看2022 求职心路 2022年过去了,2023年到来了。在2022年我印象比较深刻的是8-11月份的日子&#…

【正点原子FPGA连载】第十六章Petalinux设计流程实战摘自【正点原子】DFZU2EG_4EV MPSoC之嵌入式Linux开发指南

1)实验平台:正点原子MPSoC开发板 2)平台购买地址:https://detail.tmall.com/item.htm?id692450874670 3)全套实验源码手册视频下载地址: http://www.openedv.com/thread-340252-1-1.html 第十六章Petalin…

大数据必学Java基础(一百二十一):Maven项目结构介绍

文章目录 Maven项目结构介绍 一、标准目录结构 二、结构图 Maven项目结构介绍 一、标准目录结构

商场导视图用什么软件做,专业、便捷的室内电子地图绘制平台

在一些大型商场,顾客很多时候找不到店铺和需要的商品、不了解商家的优惠促销信息、大型活动日排队和消费等等。在这个全民习惯于手机导航的时代,假如商场的活动信息也能够全部显示在手机上,并且能实时的进行导航,那该有多方便&…

剑指offer----C语言版----第十八天----面试题24:反转链表

目录 1. 反转链表 1.1 题目描述 1.2 思路一:反转指针 1.3 思路二:头插到新链表 1.4 往期回顾 1. 反转链表 原题链接: 剑指 Offer 24. 反转链表 - 力扣(LeetCode)https://leetcode.cn/problems/fan-zhuan-lian-biao-…

4700. 何以包邮?(简单的dp 01背包思想)

题目如下: 输入样例1: 4 100 20 90 60 60输出样例1: 110样例1解释 购买前两本书 (2090) 即可包邮且花费最小。 输入样例2: 3 30 15 40 30输出样例2: 30样例2解释 仅购买第三本书恰好可以满足包邮条件。 输入样例…

分享128个ASP源码,总有一款适合您

分享128个ASP源码,总有一款适合您 ASP源码 分享128个ASP源码,总有一款适合您 链接:https://pan.baidu.com/s/1FXTm501s200ASY8XYTIk7w?pwd474b 提取码:474b 下面是文件的名字,我放了一些图片,文章里不…

安凯微在科创板IPO过会:计划募资10亿元,小米等为其股东

1月13日,上海证券交易所披露的信息显示,广州安凯微电子股份有限公司(下称“安凯微”)首发符合发行条件、上市条件和信息披露要求,即IPO过会。目前,安凯微的上市申请状态已经变更为“上市委会议通过”。 本次…

线程学习基础(1):单线程爬虫和多线程爬虫的效率比照

线程学习基础:单线程爬虫和多线程爬虫的效率比照1. 并发线程的需求2. 线程提速方法3. 如何选择并发编程的三种方式3.1 什么是CPU密集型计算、IO密集型计算?3.1.1 CPU密集型(CPU-bound)3.1.2 IO密集型(IO-bound)3.2 多线程Thread、…

三维空间中散点平面拟合方法

1、三点求平面方程、平面法向量和点到平面的距离 已知三点p1(x1,y1,z1),p2(x2,y2,z2),p3(x3,y3,z3), 要求确定的平面方程,关键在于求出平面的一个法向量 为此做向量p1p2(x2-x1,y2-y1,z2-z1), p1p3(x3-x1,…

Linux-8 用户管理

Linux-8 用户管理 什么是用户? Linux/Windows通过用户来管理和维护系统; Windows下的管理员用户:AdministratorLinux下的管理员用户:root Windows/Linux都是多用户系统 Windows同一时间只能使用1个用户Linux可以多用户同时登陆&…