Alphago Zero的原理及实现:Mastering the game of Go without human knowledge

news2024/10/5 12:51:35

近年来强化学习算法广泛应用于游戏对抗上,通用的强化学习模型一般包含了Actor模型和Critic模型,其中Actor模型根据状态生成下一步动作,而Critic模型估计状态的价值,这两个模型通过相互迭代训练(该过程称为Generalized Policy Iteration GPI过程),最终将收敛到某个近优的点。

但对于围棋游戏来说,早些年很多人作为通过计算机来战胜人类顶尖棋手是不可能的,因为围棋总共下法大概在$9.593*10^{104}\sim2.08*10^{170}$范围,比可观测宇宙的原子数目都要大很多,如此巨大的状态空间和动作空间,通过传统的强化学习方法来进行探索几乎是不可能的。

早期Alphago所采用方法是先通过监督学习专家决策序列,然后再通过强化学习策略来优化。而Alphago Zero是Alphago的升级版,它完全依赖自我对弈的强化学习,无需人类专家的动作监督。

Alphago Zero通过采用MCTS策略,从大量的动作空间中搜索当前最优的动作序列,然后让模型根据这些最优动作序列进行训练,不需要先监督学习专家决策,就能通过自我学习达成最优的效果。

Alphago Zero的训练主要分为了self-play、训练网络和网络评估三个阶段:

1. self-play阶段

在self-play阶段,采用了一种高效样本探索策略MCTS(Monte Carlo Tree Search),其从庞大的动作空间中寻找出当前最优的动作序列,并将其作为后续强化模型训练的优质样本。通过这种方式,MCTS能够在大规模、复杂的环境中做出明智且有效的决策,并帮忙逐步优化强化模型的学习。

在每轮self-play过程中,都会通过MCTS策略采样生成一系列的游戏轮数,每轮游戏都是指游戏结束(直接出现获胜者)或者游戏步数达到设定最大值(以当前游戏得分判定获胜者)。

每轮游戏都包含围棋双方在整轮过程全部(状态State、动作Action、价值Value)元组,其都是根据MCTS策略进行决策和计算的。每轮游戏在开始前,会构建一个搜索树,然后依次根据当前状态决策动作,具体决策动作方式:

在每轮self-play过程中,通过MCTS策略进行采样,生成一系列的游戏轮次。每轮游戏以两种方式结束:一是游戏直接出现获胜者,二是游戏步数达到设定的最大值,此时根据当前游戏得分判定获胜者。

每轮游戏都会记录下围棋双方的完整过程,包括每步中状态State、动作Action和价值Value等信息,这些数据都是基于MCTS策略进行决策和计算的。

  1. 状态State:这是围棋的当前局面,包括棋盘上的黑白棋子布局、提子情况等。

  2. 动作Action:这是围棋的下一步行动(如落子在棋盘的某个位置)。

  3. 价值Value:当前状态下的获胜概率

每轮游戏在开始之前会构建一个搜索树,然后根据当前状态依次决策动作。具体决策动作的方式如下:

  • 动作选择概率$p(a_t^i|s_t)$计算,其中Z是归一化因子,$\tau$是温度控制的超参数,可以随着本轮动作进行,会越趋向于选择概率最大的动作。

\left\{\begin{matrix} \frac{1}{Z}U(s_t,a_t^i)^{\frac{1}{\tau^t}} & \text{if } {\tau}^t > 0.1 \\ 1.0 & \text{if } {\tau}^t \leq 0.1 \text{ and } a_t^i=argmax_{a_t^i} U(s_t,a_t^i) \\ 0.0 & \text{if } {\tau}^t \leq 0.1 \text{ and } a_t^i \neq argmax_{a_t^i} U(s_t,a_t^i) \end{matrix}\right.

  • U(s_t,a_t^i)=\frac{1}{Z_N}N(s_t, a_t^i)
  • $N(s_t, a_t^i)$的计算逻辑:
  • 如果$s_t$已经在搜索树中,即该轮游戏已经探索。
    • 选择最优的动作,此时为$(s_t, a_t^i)$的一次访问$a_t^i|s_t=argmax_{a^j} Q(s_t, a_t^j) + c_{puct} P(s_t, a_t^j)\frac{\sqrt{\textbf{N}(s_t)+1}}{N(s_t, a_t^j) + 1}$
    • $c_{puct}$是一个平衡先验后验动作概率的超参数。
    • $W(s_t, a_t^i)+=\pm v_{\phi}(s_{t+\tau})$表示当前状态-动作的价值估计累计值,$\tau$表示从$(s_t, a_t^i)$继续探索直到遇到一个未探索的结点,$\pm$表示当未探索结点为对手状态时取负号,否则为正号。

    • $N(s_t,a_t^j)$表示当前状态-动作在本轮游戏的访问次数,每轮访问后$+1$

    • $\textbf{N}(s_t)=\sum N(s_t,a_t^j)$表示当前状态的本轮游戏的访问次数

    • $Q(s_t, a_t^i)=\frac{W(s_t, a_t^i)}{N(s_t, a_t^i)}$

    • $P(s_t, a_t^j)=\frac{1}{Z_p}p_\theta(s_t,a_t^j)$表示归一化的模型先验预估动作概率

  • 如果$s_t$不在搜索树中,即未被探索。

    • 通过模型求解$v_{\phi}(s_{t+\tau})$$p_\theta(s_t,a_t^j)$,并返回。

  • 上述过程也可以用select、expand、Backup、play四个阶段来表示:

    • Select:表示选择最优的动作$a_t^i|s_t$
    • Expand:表示在选择最优动作后,一直继续探索直到一个未探索的结点,通过模型预估其先验动作概率$p_\theta(s_{t+\tau},a_{t+\tau}^j)$及状态价值$v_\phi(s_{t+\tau})$,如果是中途遇到已探索的结点,通过Select选择最优的动作。
    • Backup:表示在探索直到一个未探索的结点后,沿路径更新树上各状态结点的$W(s_{t...\tau}, a_{t...\tau}^i)$$N(s_{t...\tau}, a_{t...\tau}^i)$
    • Play:该轮游戏采样并确定动作,进入下一状态。

2. 训练网络阶段

经过每轮self-play后,会生成一系列的游戏轮数,每轮游戏都会保存正反双方在每步的状态$s_t$、动作概率$\bold{p}(a_t|s_t)$、价值$v(s_t)$,作为此轮网络训练阶段的数据,其中:

$v(s_t)=w*\frac{\min(5, T)}{5}+e*(1-\frac{\min(5, T)}{5})$

  • $w$表示当前状态$s_t$所属棋方最终是否胜出,其值为$-1,0,+1$,分别表示负平胜。

  • $e$表示根据该轮游戏在过程中的双方的得分数归一化的值。

  • $T$表示该轮游戏总共的走子数,该项主要是为了平衡初始开局的噪声。

最终loss包含了三个部分:动作分类交叉熵损失、价值预估的MSE损失、参数正则项

$Loss(\theta,\phi)=-\bold{p}^T(s_t,a_t)\log(\bold{p}_{\theta}(s_t,a_t))+(v(s_t)-v_{\phi}(s_t))^2+c\|\theta,\phi\|^2$

3. 网络评估阶段

该阶段主要判断上述经过新一轮训练后的新模型是否是最优,如果是最优的替换最优模型进入下一轮的self-play阶段。

评估最优的方式同self-play阶段是类似的,每一步动作都是还需要通过MCTS策略来进行决策。只不过正反双方分别基于基线模型和更新模型来进行比较。

4. 特征组织形式

  • 状态$s_t$的维度为$19\times19\times17$,其中$19\times19$表示围棋棋盘的二维结构,并在第3维叠加黑白双方在过去8步的位置信息,另外为了区分当前走子是黑子还是白子,增加了一维来标识。

  • 动作$a_t$的维度为$19\times19+1$,表示在$19\times19$棋盘中下子的位置以及不走子的动作。在实际决策动作时,会直接将不合法的动作概率置为0。

5. 模型结构

  • 输入卷积层:

  • 残差模块层

  • policy层

  • value层

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1185563.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YOLOv8-Seg推理详解及部署实现

目录 前言一、YOLOv8-Seg推理(Python)1. YOLOv8-Seg预测2. YOLOv8-Seg预处理3. YOLOv8-Seg后处理4. YOLOv8-Seg推理 二、YOLOv8-Seg推理(C)1. ONNX导出2. YOLOv8-Seg预处理3. YOLOv8-Seg后处理4. YOLOv8推理 三、YOLOv8-Seg部署1. 源码下载2. 环境配置2.1 配置CMakeLists.txt2.…

JavaScript 作用域链(Scope Chain)是什么?有什么作用?

结论先行: 当在函数内部访问一个变量的时候,(JS 引擎)程序会先在当前作用域中查找(是否存在该变量),如果找到了就直接使用。否则就会向上层作用域逐级查找,直到找到全局作用域为止。…

高等数学教材重难点题型总结(一)函数与极限

强化阶段的另一个专题,本专题主要总结高数课本上的经典例题与课后题,尤其一部分加*标的题目,对于冲击高分的同学来说,必须熟练掌握。 (蓝色代表难点,红色代表重点,紫色代表重难点) …

Origin2023绘制双轴

在水文气象研究中,经常是把降水右轴并在顶部。具体操作如下: 1.先绘制径流曲线图 2.再添加一个图层,insert→new layer→Top-X-Right-Y 3.图层设置,添加降水序列,样式为柱状图 4.设置右轴的标注为600到0(保证倒立)&am…

没有接口文档如何进行接口测试(超详细~)

前言 在进行接口测试之前,一般开发会提供接口文档,给出一些接口参数和必要熟悉,便于我们编写接口脚本。但如果没有提供接口开发文档的请求下,我们该如何编写接口测试脚本呢?在编写测试脚本前要做哪些必要的准备呢&…

网络原理---拿捏网络层:IP协议

文章目录 IP协议4位版本4位首部长度、选项8位服务类型(TOS)16位总长度16位标识、3位标志、13位片偏移8位生存时间(TTL)8位协议16位首部校验和32位源IP地址、32位目的IP地址解决IP地址不够用的问题动态分配IP地址NAT机制&#xff0…

好消息,微信消费者投诉工具升级,可以直接回复用户、处理投诉了。。。

大家好,我是小悟 兄弟们,阅读本文之前,建议先阅读【连夜干出来一个自动处理【微信消费者投诉管理系统】,支持多商户】。 为了使工具更好用,也为帮助商户更好地处理消费者投诉,提升用户满意度,…

谷歌提出 AGI 完整路线图:目前 ChatGPT 只处于 AGI 的第一阶段

本心、输入输出、结果 文章目录 谷歌提出 AGI 完整路线图:目前 ChatGPT 只处于 AGI 的第一阶段前言谷歌 DeepMind 发布 AGI 分级框架发展 AGI 必须遵循6个基本原则什么是AGI图灵测试详解六大原则AGI 的五大发展过程阶段原文参考弘扬爱国精神谷歌提出 AGI 完整路线图:目前 Cha…

Fabric区块链浏览器搭建

目录 一、创建区块链浏览器相关目录二、配置docker-compose三、配置区块链浏览器四、启动区块链浏览器 书接这一回 Fabric二进制建链,在建好链之后,将为这条链部署一个区块链浏览器。 Hyperledger Fabric区块链浏览器地址:https://github.co…

计网----数据库(一)

计网----数据库(一) 一.什么是数据库 数据库是”按照数据结构来组织、存储和管理数据的仓库“。是一个长期储存在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。 二.数据库的特点 1.规范化的本地存储 2.加密 3.共享 三.数据库的好处…

[动态规划] (十四) 简单多状态 LeetCode LCR 091.粉刷房子

[动态规划] (十四) 简单多状态 LeetCode LCR 091.粉刷房子 文章目录 [动态规划] (十四) 简单多状态 LeetCode LCR 091.粉刷房子题目解析解题思路状态表示状态转移方程初始化和填表顺序返回值 代码实现总结 LCR 091. 粉刷房子 题目解析 (1) 一排房子,共有n个 (2) 染…

【电路笔记】-基尔霍夫电路定律

基尔霍夫电路定律 文章目录 基尔霍夫电路定律1、框架和定义2、基尔霍夫电流定律3、基尔霍夫电压定律4、基尔霍夫定律应用5、基尔霍夫定律的局限性6、总结 在本文中,将介绍最基本、最重要的电路定律之一。 这些法律由德国医生古斯塔夫基尔霍夫 (Gustav Kirchoff) 于 …

java数据结构--双端队列

一.概念 双端队列的意思是可以在头部和尾部添加和删除元素&#xff0c;更一般的单向链表队列比起来更加的灵活&#xff0c;下面我们用双向循环带哨兵链表和数组来分别实现 二.定义接口Dequeue /*** 双端队列*/ public interface Dequeue<E> {//队头添加元素boolean off…

MSSQL 配置ORACLE ​链接服务器

在有些场景&#xff0c;我们需要整合其他异构数据库的数据。我们可以使用代码去读取&#xff0c;经过处理后&#xff0c;再将数据保存到MSSQL数据库中。如果数据量比较大&#xff0c;但处理的逻辑并不复杂的情况下&#xff0c;这种方式就不是最好的办法。这时可以使用使用链接服…

C++笔记之表驱动法-全局静态结构体变量的应用实例ColorMAP

C笔记之表驱动法-全局静态结构体变量的应用实例ColorMAP code review! 代码 #include <ros/ros.h> #include <visualization_msgs/Marker.h>struct RGBA{RGBA(){red.r 1; green.r 0; blue.r 0;red.g 0; green.g 1; blue.g 0;red.b 0; green.b 0; blue.b…

Netty入门指南之NIO Buffer详解

作者简介&#xff1a;☕️大家好&#xff0c;我是Aomsir&#xff0c;一个爱折腾的开发者&#xff01; 个人主页&#xff1a;Aomsir_Spring5应用专栏,Netty应用专栏,RPC应用专栏-CSDN博客 当前专栏&#xff1a;Netty应用专栏_Aomsir的博客-CSDN博客 文章目录 参考文献前言ByteBu…

终究还是翻车了,人肉运维100 次后

翻车现场 5年前的一个晚上&#xff0c;我接到数据组同事的消息&#xff0c;要求将A用户的磁盘快照共享给B用户。我对这个线上运维工作早已轻车熟路&#xff0c;登录线上服务器仅用了2分钟就完成了。 我继续忙着其他事情&#xff0c;3分钟后&#xff0c;我正要打开新的控制台页…

【多线程】synchronized的特性

文章目录 synchronized 的特性互斥可重入synchronized的使用加锁过程 synchronized 的特性 互斥 synchronized 会起到互斥效果&#xff0c;某个线程执行到某个对象的 synchronized 中时&#xff0c;其他线程如果也执行到同一个对象 synchronized 就会阻塞等待。进入 synchron…

【源码篇】基于SSM+JSP实现的网上花店系统

系统介绍 基于SSMJSP实现的网上花店系统采用了时下流行的 Java 程序设计语言进行开发&#xff0c;系统开发的工具采用 Idea 开发工具&#xff0c;普通用户可以在该系统完成注册、登录、购买等一系列操作&#xff0c;致力于为用户提供一个方便快捷的在线购花平台。 前台系统功…

Oracle(14) Managing Password Security and Resources

目录 一、基础知识 1、Profiles 配置文件 2、Password Management 密码管理 3、Enabling Password Mgmt 启用密码管理 4、Password Verification 密码验证 ​编辑5、User-Provided Passwd Func 用户提供的密码功能 6、Verif Func: VERIFY_FUNCTION验证函数介绍 7、Reso…