蒙特卡洛树搜索(Monte Carlo Tree Search)揭秘

news2025/1/10 17:57:48

一. 什么是蒙特卡洛树搜索

蒙特卡洛树搜索(MCTS)是一种启发式搜索算法,一般用在棋牌游戏中,如围棋、西洋棋、象棋、黑白棋、德州扑克等。MCTS与人工神经网络结合,可发挥巨大的作用,典型的例子是2016年的AlphaGo,以4:1的比分战胜了韩国的9段棋手李世石。

二. 蒙特卡洛树搜索蒙特卡罗方法的区别

蒙特卡罗方法使用随机抽样来解决其他方法难以或不可能解决的确定性问题,是一类计算方法的统称。它被广泛用在数学、物理的问题中,基本上能解决具有概率解释的任何问题。蒙特卡罗方法的应用领域包括:统计物理学、工程学、计算生物学、计算机图形学、AI游戏、金融和商业等。而蒙特卡洛树搜索(MCTS)就是其在AI游戏中的应用,它用于搜索游戏中的最佳动作

三. MCTS的工作原理

MCTS使用一个tree来记录搜索结果,它更新tree的方法就是模拟游戏。就像人类在下棋时会在大脑中模拟对手的着法,厉害的甚至计算10步、20步以后,MCTS也是类似的原理。它先模拟几次游戏,然后把游戏结果记录在tree中,再根据最好的模拟结果选择最佳的动作。

MCTS一共包含4个步骤:选择(Selection)、扩展(Expansion)、模拟(Simulation)、反向传播(BackPropagation)。

1)选择(Selection)是从根节点开始,连续选择子节点,一直到达某个叶子节点,然后在那个节点上进行更新。也就是说,select时只会选leaf node(叶子节点)。

注意:根节点是当前的游戏状态,叶节点是尚未启动模拟的任何潜在子节点。

2)扩展(Expansion)也叫expand,是指一个节点往下,产生新的子节点。

3)模拟(Simulation)也叫rollout,是随机模拟,即以目前的状态开始,模拟一场游戏直到结束。有时也叫播放推出

expand和rollout区别是,如果目前节点是全新的,就进行rollout,如果节点已经被更新过,就进行expand。(这种说法可能不准确!)

4)反向传播(BackPropagation)就是把leaf node的更新一直往上传,直到根节点。有点类似神经网络的BP,但更简单,不涉及微积分。

MCTS整个执行过程如下

第一次模拟

我们有一个node,记录wi和ni的值,其中wi代表赢了几场,ni代表总场数。对于围棋来说,我们一般用wi代表黑棋赢的场数。

在一开始,我们没进行任何游戏,因此wi和ni都为0

第一步,选择一个没有child的node,目前只有root节点可选。

第二步,因为是全新的节点,需要进行rollout。由于root代表开局状态,黑棋和白棋都没下过,所以进行rollout没任何意义,因此先进行expand。在19x19的棋盘上,一共361个位置可以下。因此expand之后有361个child节点。

为了简单起见,假设只有两个位置可以选。

在expand之后,黑色root节点不再是leaf节点。

第三步,选择一个leaf节点进行rollout。从root开始寻找,此时有两个child选项。如何决定选哪个?这时候要用到一个概念,叫做UCB1(Upper Confidence Bound),也叫上置信度边界1。如下

其中wi表示当前node赢的次数ni表示当前node总共的模拟次数Ni表示当前node的父节点的模拟次数C是可以自己调整的参数,最常用的是\sqrt{2}

对于左下角的leaf节点,还没模拟过,因此wi=0,ni=0,它的父节点即root,也是0/0,因此Ni=0,所以套用ucb1公式发现,分母为0无法计算。所以当做ucb1的结果无限大。同样右下角的节点也是无限大。

由于两个都是无限大,所以按顺序选节点即可,比如选择左下角节点

此节点是leaf node,同时也是全新的节点,现在对它rollout。因为root节点代表黑棋下,所以现在轮到白棋下,然后黑棋再下,一直到游戏结束。

假设下到最后,黑棋赢了,那就更新这个node的值。因为黑棋赢了一场,就将wi更新为1,ni也更新为1.

接下来进行最后一步,即反向传播。因此黑色root节点也变为了1/1,如下

此时完成了一次MCTS模拟。一共需要几次模拟,是你可以自行设置的。模拟越多次,MCTS最后搜索的结果越准确,提供的着法越强大。一般需要跑几万几十万次甚至更多。这个例子,我们再进行几次更新说明。

第二次模拟

第一步,选择一个没有child的node,有两个选项,需要计算两个node的ucb1

左边的ucb1是1(代入公式可得),右边的ucb1是无穷大,右边更大,选择它。

第二步,因为是全新的节点,需要进行rollout(无需expand)。假设这次黑棋输了,如下

此时wi不会增加,仍为0,但是ni加1,于是有

第三步,反向传播。把黑色root节点的ni也加1,即有

第三次模拟

第一步,选择一个没有child的node,有两个选项,需要计算两个node的ucb1

左边是2.177,右边是1.177,因此选择左边。

第二步,因为该leaf节点已经被更新过,所以先expand。同样假设生成两个子节点。此时白色节点不再是leaf node,需要继续往下select。和前面一样,两个children节点都是新的,ucb1都是无穷大,因此按顺序选左边那个。

第三步,对左下角leaf节点进行rollout。和前面一样,随机下到游戏结束为止。这次假设黑棋输了。

此时把ni更新为1,而wi保持不变。

第四步,反向传播。依次更新白色、黑色节点为1/2、1/3.

第四次模拟

第一步,选择一个没有child的node,第二层白色节点有两个,需要计算两个node的ucb1,左边是1.548,右边是1.482,左边更大选它。

由于没到达leaf节点,需要继续往下select;此时轮到白的下,在计算ucb1的时候,要使用白棋的wi;而目前节点上记录的都是黑棋的胜率,需要进行换算;假设不考虑和棋(围棋的确没有和棋),白棋赢的次数=总场次-黑棋赢的次数;即ni-wi就是白棋赢的次数;所以左路径白棋的wi是1,得出ucb1为2.177;右路径白棋的wi是0,得出ucb1为无穷大;所以选择右边

第二步,因为该leaf node是全新的节点,需要进行rollout(无需expand)。这次假设是黑棋赢,我们把wi和ni都加1,则0/0变为1/1

第三步,反向传播。白色节点、root节点依次变为2/3、2/4

四次模拟结束,你就可以决定该下哪步了。黑棋下左边的位置胜率为2/3,而右边胜率为0。所以下左边。

UCB1公式的意义

ucb1的公式分为左右两部分,左边是胜率,如果一个node的胜率越高,那么ucb1值也越高,即胜率越高的一步棋,越容易继续被选中。MCTS需要模拟足够多的次数,来让胜率越准确。

右边这一项,ni在分母,Ni在分子,因此模拟中一条路走过的次数越多,ni相对Ni就越大,就会导致ucb1相对变小。换言之,已经走过很多次的路,MCTS就不想再走了,这是为了探索其他路径会不会有更好的着法

ucb1公式体现了游戏中平衡开发(exploitation)和探索(exploration)的思想。开发(exploitation)为了选择已知最好策略探索(exploration)为了选择探索其他路线。如果只做exploitation,而忽略exploration,即永远选择胜率最高的路径,可能就无法发现更好的着法。如果只做exploration,而忽略exploitation,意味着对围棋361个位置进行平均的探索,会浪费很多时间探索胜率很低的路径,效率太差,MCTS的深度到不了太深,着法也不会准确。

四. AlphaGo如何使用MCTS

AlphaGo如何将MCTS和deep learning相结合的呢?

AlphaGo在搜索的时候,使用了两个神经网络,value network(值网络)policy network(策略网络),如下

policy network作用和原理:只要喂给policy network目前棋盘上的状态,它就可以得出下一步的最佳落点;policy network能给棋盘每个位置打分来选择下一步(即move),这样就能取代ucb1;能减小search的广度(breadth),并提高准确性

value network作用和原理:value network用来取代rollout,意思是不需要真正模拟到分出胜负。用value network就能根据棋局状态(即board positions)得出双方输赢的概率;能减小search的深度(depth),并提高准确性

说明:AlphaGo的policy network有两种, supervised learning (SL) policy network和reinforcement learning (RL) policy network,即基于监督学习的策略网络和基于强化学习的策略网络,区别是训练数据来源的不同。SL的数据来自人类专家棋谱数据。RL的数据来自AI自我博弈(selfplay)。

policy network和value network的训练过程

policy network首先在人类专家数据上进行监督学习,从而能预测人类专家的着法;然后利用policy-gradient强化学习算法进行优化。value network利用两个训练好的policy network相互博弈来进行预测输赢。

扩展:AlphaGoAlphaGo ZeroAlphaGo Master三者区别

AlphaGo Zero是只基于自我博弈(selfplay)强化学习训练得到的,没有任何人类数据的监督。AlphaGo Zero使用了单个neural network,而不是分开的policy network和value network两个网络。如果说AlphaGo中MonteCarlo rollout和value network同时存在,互相补充,那么在AlphaGo Zero中rollout则被neural network完全取代了。AlphaGo Zero的MCTS更加简化。AlphaGo Master和AlphaGo Zero使用的算法和模型一样,但使用了部分人类专家数据。

五. MCTS的优缺点

MCTS能够非常聪明的去探索胜率较高的路径,和dfs这类暴力穷举算法比起来,可以花费较少的运算资源,就能达到不错的效果,尤其对于围棋这类每步棋都有200种左右选择的游戏,使用MCTS的效果非常显著。但与此同时也要指出,MCTS并不能保证一定找到最佳路径和着法。AlphaGo和李世石比赛就输了一盘,说明不一定能百分百找到最优解。不过论整体胜率,AlphaGo和AlphaGo Zero已远远超过了人类。既然围棋的变化(10的360次方)比宇宙中的原子还多,比起dfs或minimax等算法,使用MCTS还是非常有优势和有必要的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1208491.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

可以通过电脑远程控制安卓设备的软件

有些时候,我们需要用电脑远程控制安卓设备,比如远程维护门店设备、安卓系统的户外广告牌等等。我们来探索和比较几款允许用户通过电脑远程控制安卓设备的软件。 1、Splashtop Business Splashtop 是一种多功能远程访问解决方案,以其高性能流…

hadoop 如何关闭集群 hadoop使用脚本关闭集群 hadoop(八)

1. hadoop22, hadoop23, hadoop24三台机器 2. namenode 所在hadoop22关闭 hdfs: # 找到/etc/hadoop位置 cd /opt/module/hadoop-3.3.4/etc/hadoop # 找到shell脚本,关闭即可sbin/stop-dfs.sh 3. 关闭yarn脚本,我的在hadoop23: # 找到/etc…

数据库期末考前复习题(单选+多选+判断+解答)

文章目录 #数据库考前复习题一、 选择1.单选题2.多选题 二、判断题三、解答请描述数据库中的三大范式关系型数据库ACID特性 #数据库考前复习题 一、 选择 1.单选题 1.使用limit进行分页查询,其中每页10条数据,查询第5页应该写为? SELECT *…

压测工具主要功能是什么?该怎样选择?

压测工具是一类用于模拟并评估系统在不同负载条件下的性能的软件应用程序。通过模拟大量用户同时访问系统,压测工具能够帮助开发者识别系统的瓶颈、性能瓶颈以及潜在的故障点。这种实时、模拟的方式允许开发者在正式投入使用之前发现并解决问题,提高系统…

Java学习之路 —— Day2(OOP)

文章目录 1. 方法2. OOP2.1 static2.2 单例模式2.3 继承2.4 多态 3. 常用API3.1 包3.2 String3.3 ArrayList 1. 方法 方法定义时要使用public static修饰,这是和C最不同的地方,因为java都是基于类执行的。 Java的参数传递机制是值传递,即传…

树莓派Ubuntu20.04设置静态IP后无法联网的问题及解决

一、问题描述 在使用虚拟机进行ssh远程连接时,需要知道目标机Ubuntu系统的用户名和IP地址,若IP地址是动态的,则每次远程连接前都需要接上显示器查看IP信息,很繁琐,所以需要设置静态的IP。 二、设置步骤 首先&#x…

HackTheBox-Starting Point--Tier 2---Vaccine

文章目录 一 Vaccine 测试过程1.1 打点1.1.1 FTP匿名登录1.1.2 SQL注入 1.2 权限提升 二 题目 一 Vaccine 测试过程 1.1 打点 1.端口扫描 nmap -sV -sC 10.129.191.631.1.1 FTP匿名登录 2.FTP允许匿名登录,发现backup.zip ftp 10.129.191.63解压backup.zip&#x…

王道计网:网络层

转发是路由器内部 路由选择是路由器之间 一、概述和功能

Vue基础必备掌握知识点-Vue的指令系统讲解(二)

Vue指令系统继续讲解 v-for 作用:基于数据进行循环,多次渲染整个元素 数据类型:数组.对象.数字。。。 遍历数组语法:v-for"(item,index)" in 数组 item:表示每一项 index:则是表现下标 注意:v-for中的key值,key属性唯一的…

《从零开始读懂相对论》

内容简介 相对论诞生至今已逾百年,但依然被人们津津乐道。相对论为什么如此有魅力?爱因斯坦为什么要创立相对论?本书从“零”开始,紧抓“相对”二字,将所有问题置于历史的背景下,竭力展现人类探索运动本质…

腾讯云2核4G服务器CVM标准型S5实例租用5年价格表

腾讯云服务器网整理五年云服务器活动 txyfwq.com/go/txy 配置可选2核4G和4核8G,公网带宽可选1M、3M或5M,系统盘为50G高性能云硬盘,标准型S5实例CPU采用主频2.5GHz的Intel Xeon Cascade Lake或者Intel Xeon Cooper Lake处理器,睿频…

软考架构师学习心得和资料分享

23年11月的软考架构师终于考完了,相信很多朋友都觉得这次考试的内容有点难,我是从9月份报名后才开始准备的,一边工作一边学习确实压力很大,感觉更难了。 报名后还在闲鱼上买了份学习资料,后来又在芝士架构群里找了一些…

一文搞定接口自动化测试框架搭建orPytest_知识点总结

pytest编写的规则: 1、测试文件以test_开头(以_test结尾也可以) 2、测试类以Test开头,并且不能带有__init__方法 3、测试函数以test_开头 4、断言必须使用assert pytest.main([-s,-v]) :用来执行测试用例 -s 打印prin…

使用matlab制作声音采样率转换、播放以及显示的界面

利用matlab做一个声音采样率转换、播放以及显示的界面 大抵流程: 图形界面创建:使用figure函数创建名为“声音采样率转换”的图形界面,并设置了其位置和大小。 按钮和文本框:使用uicontrol函数创建了选择音频文件的按钮、显示当前…

JavaScript_表单校验用户名和密码

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>注册页面</title><style>*{margin: 0px;padding: 0px;box-sizing: border-box;}body{background: url("img/register_bg.png") …

计算机视觉基础(7)——相机基础

前言 从这一节开始&#xff0c;我们来学习几何视觉。中层视觉包括相机模型、单目几何视觉、对极几何视觉和多目立体视觉等。在学习几何视觉最开始&#xff0c;我们先来学习一下相机模型&#xff0c;了解相机的基本原理&#xff0c;了解相机如何记录影像。 一、数字相机 1.1 基…

SpringCloud微服务:Ribbon负载均衡

目录 负载均衡策略&#xff1a; 负载均衡的两种方式&#xff1a; 饥饿加载 1. Ribbon负载均衡规则 规则接口是IRule 默认实现是ZoneAvoidanceRule&#xff0c;根据zone选择服务列表&#xff0c;然后轮询 2&#xff0e;负载均衡自定义方式 代码方式:配置灵活&#xff0c;但修…

SpringBoot整合WebSocket实现订阅消息推送

目录 一、什么是WebSocket1.HTTP协议2.WebSocket协议 二、WebSocket使用场景1.消息推送2.实时聊天3.弹幕4.实时数据更新 三、SpringBoot整合WebSocket&#xff08;以实现消息推送为例&#xff09;1.添加依赖2.创建消息类2.WebSocket配置类3.工具类4.测试连接5.服务调用 一、什么…

JAVA基础9:Debug

1.Debug概述 Debug:是供程序员使用的程序调试工具&#xff0c;它可以用于查看程序的执行流程&#xff0c;也可以用于追踪程序执行过程来调试程序。 2.Debug操作流程 Debug调试&#xff0c;又被称为断点调试&#xff0c;断点其实是一个标记&#xff0c;告诉我们从哪里开始查看…

自动化接口差异测试-diffy 回归测试 charles rewrite 请求

1、前言 大家好&#xff0c;今天小编向大家介绍一款自动化接口diff平台–diffy。diffy是twitter的开源项目&#xff0c;通过同时运行新/老代码&#xff0c;对比运行结果&#xff0c;发现潜在bug。diffy的原理是作为代理&#xff0c;截取请求并发送至所有运行的服务实例&#x…