Understanding the model of openAI 5 (1024 unit LSTM reinforcement learning)

news2025/1/6 20:38:42

题意:理解 OpenAI 5(1024 单元 LSTM 强化学习)的模型

问题背景:

I recently came across openAI 5. I was curious to see how their model is built and understand it. I read in wikipedia that it "contains a single layer with a 1024-unit LSTM". Then I found this pdf containing a scheme of the architecture.

我最近了解了 OpenAI 5。我很好奇他们的模型是如何构建的,并希望了解它。我在维基百科上读到,它“包含一个具有 1024 单元的 LSTM 层”。然后我找到了这份包含架构示意图的 PDF

My Questions        我的问题

From all this I don't understand a few things:

从这些信息中,我有几个地方不太明白

  • What does it mean to have a 1024-unit LSTM layer? Does this mean we have 1024 time steps with a single LSTM cell, or does this mean we have 1024 cells. Could you show me some kind of graph visualizing this? I'm especially having a hard time visualizing 1024 cells in one layer. (I tried looking at several SO questions such as 1, 2, or the openAI 5 blog, but they didn't help much).

拥有一个 1024 单元的 LSTM 层是什么意思?这是否意味着我们有 1024 个时间步长和一个单独的 LSTM 单元,还是说我们有 1024 个单元?你能给我展示一些可视化的图表吗?我特别难以想象在一层中有 1024 个单元。(我尝试查看了几个 SO 问题,例如 1、2,或 OpenAI 5 的博客,但没有太大帮助。)

  • How can you do reinforcement learning on such model? I'm used to RL being used with Q-Tables and them being updated during training. Does this simply mean that their loss function is the reward?

你如何在这样的模型上进行强化学习?我习惯于使用 Q 表进行强化学习,并在训练过程中对其进行更新。这是否意味着他们的损失函数就是奖励

  • How come such large model doesn't suffer from vanishing gradients or something? Haven't seen in the pdf any types of normalizations or so.

为什么这样的大型模型不会受到梯度消失等问题的影响?我在 PDF 中没有看到任何类型的归一化或类似的内容

  • In the pdf you can see a blue rectangle, seems like it's a unit and there are N of those. What does this mean? And correct me please if I'm mistaken, the pink boxes are used to select the best move/item(?)

在 PDF 中,你可以看到一个蓝色的矩形,似乎它是一个单元,并且有 N 个这样的单元。这是什么意思?如果我错了,请纠正我,粉色的框是用来选择最佳动作/项目的


In general all of this can be summarized to "how does the openAI 5 model work?

总的来说,这些问题可以归结为:“OpenAI 5 模型是如何工作的?

问题解决:

  • It means that the size of the hidden state is 1024 units, which is essentially that your LSTM has 1024 cells, in each timestep. We do not know in advance how many timesteps we will have.

这意味着隐藏状态的大小是 1024 单元,这基本上意味着你的 LSTM 在每个时间步都有 1024 个单元。我们事先不知道会有多少个时间步

  • The state of the LSTM (hidden state) represents the current state that is observed by the agent. It gets updated every timestep using the input received. This hidden state can be used to predict the Q-function (as in Deep Q-learning). You don't have an explicit table of (state, action) -> q_value, instead you have a 1024 sized vector which represents the state and feeds into another dense layer, which will output the q_values for all possible actions.

LSTM 的状态(隐藏状态)表示智能体当前观察到的状态。它会在每个时间步通过接收到的输入进行更新。这个隐藏状态可以用来预测 Q 函数(如深度 Q 学习中所示)。你没有一个明确的(状态,动作)-> Q 值的表格,而是有一个 1024 维的向量,它代表状态,并输入到另一个全连接层,该层会输出所有可能动作的 Q 值

  • LSTMs are the mechanism which help stop vanishing gradients, as the long range memory also allows the gradients to flow back easier.

LSTM 是帮助防止梯度消失的机制,因为其长程记忆功能使得梯度更容易反向传播

  • If you are referring to the big blue and pink boxes, then the pink ones seem like they are the input values which are put through a network and pooled, over each pickup or modifier. The blue space seems to be the same thing over each unit. The terms pickup, modifier, unit, etc., should be meaningful in the context of the game they are playing.

如果你指的是大的蓝色和粉色框,那么粉色框似乎是输入值,它们通过网络处理并在每个拾取物或修饰物上进行汇总。蓝色区域似乎是相同的东西,只是针对每个单位。拾取物、修饰物、单位等术语应该在他们玩的游戏的上下文中具有特定含义

Here is an image of the LSTM - the yellow nodes at each step are the n: 

这是 LSTM 的一张图片——每一步的黄色节点是 n

The vector h is the hidden state of the LSTM which is being passed to both the next timestep and being used as the output of that timestep.

向量 h 是 LSTM 的隐藏状态,它被传递到下一个时间步,同时也作为该时间步的输出

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2134342.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络29——Linux基本命令vim,gcc编译命令

1、创建新用户 2、给用户设置密码 3、切换到新用户 切换到root用户 4、删除用户 5、查看ip 6、ping 查看物理上两台主机是否联通 7、netstatus 8、nslookup 查看网址的地址 9、负载均衡与容灾备份 负载均衡:指将负载(工作任务)进行平衡、分…

为什么mac打不开rar文件 苹果电脑打不开rar压缩文件怎么办

你是否遇到过这样的情况,下载了一个rar文件,想要查看里面的内容,却发现Mac电脑无法打开。rar文件是一种常见的压缩文件格式,它可以将多个文件或文件夹压缩成一个文件,节省空间和传输时间。如此高效实用的压缩文档&…

JavaEE:网络初识

文章目录 网络初识网络中的重要概念IP地址端口号认识协议(最核心概念)OSI七层模型TCP/IP五层(或四层)网络模型网络设备所在分层封装和分用 网络初识 网络中的重要概念 网络互联的目的是进行网络通信,也是网络数据传输,更具体一点,是网络主机中的不同进程间,基于网络传输数据.…

论文解读《LaMP: When Large Language Models Meet Personalization》

引言:因为导师喊我围绕 “大语言模型的个性化、风格化生成” 展开研究,所以我就找相关论文,最后通过 ACL 官网找到这篇,感觉还不错,就开始解读吧! “说是解读,其实大部分都是翻译哈哈哈&#x…

域控操作十七点五:域用户无管理员权限下安装IT打包的软件

1,需要软件Runasspcadmin三件套和winrar压缩软件 2,将需要打包的软件放进这个文件夹内,使用播放器举个例子 3,打开runasspcadmin.exe 按图片写就行了 文件夹现在是这样的然后全选右击,用WinRAR添加到压缩包 这个可以自…

量化交易backtrader实践(一)_数据获取篇(4)_通达信数据应用

在第2节实践了从金融数据接口包例如tushare.pro或akshare获取数据,在第3节实践了直接从网页上爬取股票数据。其实,我们的电脑上怎么可能没有几个股票软件,在这些股票软件里,历史行情,实时行情都有,我们能否…

Windows环境本地部署Oracle 19c及卸载实操手册

前言: 一直在做其他测试,貌似都忘了Windows环境oracle 19c的部署,这是一个很早很早的安装记录了,放上来做个备录给到大家参考。 Oracle 19c‌:进一步增强了自动化功能,并提供了更好的性能和安全性。这个版本在自动化、性能和安全性方面进行了重大改进,以满足现代企业对数…

运维人员转行 AI 大模型全攻略:史上最详尽总结,一篇在手,转行无忧!

前言 做运维的苦,谁做谁懂。有时候真感觉自己就像个杂役,在公司都快成修电脑的了。不装了,我要转行!在此给大家分享点经验,希望能帮到你们。 运维工程师若要转行至大模型领域,需要学习一系列全新的技能与…

开放式耳机原理?五款超强单品推荐!

开放式耳机的原理其实挺直观的,它们不像那些把耳朵完全罩住或者塞住的封闭式耳机。开放式耳机通常就是轻轻地挂在耳朵上,声音通过空气传播,直接送到你的耳朵里。 这种设计有几个好处。首先,因为耳朵没有被完全封闭,所…

【开源项目】数字孪生公园~云南某湿地公园—开源工程及源码

飞渡科技数字孪生湿地公园管理平台,基于园林行业定制硬件以及传感器、摄像头等终端采集数据,借助自主研发国产渲染引擎,以人工智能、物联网、数字孪生技术作为核心,还原公园内外的真实场景,同时实现海量数据处理、系统…

DB-GPT部署和试用

前言 DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents)。 目的是构建大模型领域的基础设施,通过开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Mu…

哇!原来vscode的终端可以这么美

相信很多开发小伙伴经常可以看到,为什么别人的vscode的终端可以这么美,又有提示,还有git是提示,时刻告诉你现在正在处于哪个分支,接下来,就让我为大家告诉一个美化vscode终端的方法 先看效果 只要来到这个网…

linux_L2_linux删除文件

linux 删除文件 在Linux下删除文件有多种实现方法,以下是其中几种常见的方法: 方法一:使用rm命令删除单个文件 rm 文件路径例如,删除当前目录下的文件file.txt: rm file.txtQuestion :当你在Linux系统中使用rm命令删…

【视频教程】基于PyTorch深度学习无人机遥感影像目标检测、地物分类及语义分割实践技术应用

随着无人机自动化能力的逐步升级,它被广泛的应用于多种领域,如航拍、农业、植保、灾难评估、救援、测绘、电力巡检等。但同时由于无人机飞行高度低、获取目标类型多、以及环境复杂等因素使得对无人机获取的数据处理越来越复杂。最近借助深度学习方法&…

无线领夹麦克风哪个牌子好,口碑最好的麦克风品牌,领夹麦推荐

在数字化时代的浪潮中,无线领夹麦克风作为现代通讯与创意表达不可多得的工具,正迅速渗透至各类专业及日常场景。在其便捷性与高效性备受推崇的背后,行业内不为人知的秘密也正逐渐浮出水面。近期,五大无线领夹麦克风行业痛点被曝光…

VPSA制氧机与PSA制氧机的差异

制氧机在现代工业及环保等多个领域具有广泛应用,其中VPSA(变压吸附)制氧机和PSA(压力吸附)制氧机是两种常见的制氧设备。尽管两者在基本原理上相似,但在实际应用中却存在诸多显著差异。 工作原理 VPSA制氧机采用变压吸附技术,通过改变吸附剂的…

无线麦克风哪个好,领夹麦克风哪个品牌音质最好,无线麦克风推荐

随着科技的进步,无线领夹麦克风市场迎来了智能化浪潮,各种功能宣传铺天盖地。然而,在这场技术革新的盛宴中,也不乏商家利用信息不对称,设置“智商税”陷阱。从夸大其词的降噪效果到实际使用中的频频失效,再…

Mac上的rar文件怎么解压?Mac上解压RAR文件超实用的方法

rar文件是一种常见的压缩文件格式,它可以将多个文件或文件夹打包成一个文件,从而节省空间和方便传输。但是,mac系统并没有自带的工具可以直接打开或解压rar文件。在这篇文章中,我们将详细解答关于mac解压rar文件的问题。希望我们能…

CI/CD中gitlab和jenkins讲解

一 CICD是什么 CI/CD 是指持续集成(Continuous Integration)和持续部署(Continuous Deployment)或持续交付(Continuous Delivery) 1.1 持续集成(Continuous Integration) 持续集成…

“京东云深海数据平台” 焕新升级

深海数据平台 致力于为每一个数据客户提供灵活化、一站式、智能化的数据开发与管理工具。同时,根据客户行业提供成熟的数据业务全链路解决方案,包括数据集成、开发、元数据管理等功能,帮助数据开发人员快速高效地完成数据相关工作&#xff0c…