基于博弈树的开源五子棋AI教程[3 极大极小搜索]

news2024/10/2 6:28:57

基于博弈树的开源五子棋AI教程[3 极大极小搜索]

  • 引子
  • 极大极小搜索原理
  • alpha-beta剪枝
  • 负极大搜索
  • 尾记

引子

极大极小搜索是博弈树搜索中最常用的算法,广泛应用于各类零和游戏中,例如象棋,围棋等棋类游戏。算法思想也是合乎人类的思考逻辑的:博弈双方轮流决策,并且认为双方都是理性的,都希望自己的利益最大化或者对手利益最小化。
在介绍算法前,了解博弈树的基本知识是必要的。博弈树的节点代表状态,在五子棋中就代表一个盘面;博弈树的边代表决策,对于五子棋就是落子的位置。博弈树搜索算法就是通过特定的顺序从根节点遍历整个博弈树来找到最佳的决策路径,这一路径在后文被称为PV路径(主要变例路径,Principal Variation)。
1博弈树

极大极小搜索原理

极大极小搜索双方轮流决策,尽可能的使得己方得分最大化。其将博弈双方命名为Max层和Min层,Max层最大化自己得分,Min层最小化对方得分,然后通过树的深度优先遍历获取PV路径。这里给出wiki中文给出的伪代码。

function  minimax(node, depth, maximizingPlayer) is
    if depth = 0 or node is a terminal node then
        return the heuristic value of node
    if maximizingPlayer then
        value := −∞
        for each child of node do
            value := max(value, minimax(child, depth − 1, FALSE))
        return value
    else (* minimizing player *)
        value := +for each child of node do
            value := min(value, minimax(child, depth − 1, TRUE))
        return value

极大极小搜索

alpha-beta剪枝

五子棋虽然复杂度比不上围棋,在我看到一些文章中指出五子棋的分支因子为35,意味着每个盘面平均有35个合理着法。对于指数膨胀的博弈树,深度加深后,叶子节点的数量是恐怖的,想完整遍历完整个树几乎是不可能完成的事,剪枝算法应运而生。

AB剪枝
alpha-beta剪枝(AB剪枝)是常见的优化方法,算法可以在保证最终的搜索结果不变的情况下尽可能的减少搜索节点。对于每一个节点都有一个alpha值和beta值来记录从根节点搜索到当前节点获取到的搜索信息,alpha值保存了当前max层玩家最好的走法,beta值记录了max层最坏的走法。当发现最好的走法的得分比最坏走法得分还高是(alpha>=beta)这个节点就应当被裁剪。
这种说法看着比较难以理解,下面给出四个AB剪枝例子来加深概念。
在这里插入图片描述
在这里插入图片描述

函数 alphaBeta(node, depth, α, β, maximizingPlayer):
    如果 depth = 0 或 node 是一个终端节点:
        返回 node 的评估值

    如果 maximizingPlayer:
        最大值初始化为 -∞
        对于每个子节点 child of node:
            最大值 = max(最大值, alphaBeta(child, depth - 1, α, β, False))
            α = max(α, 最大值)
            如果 β ≤ α:
                跳出循环(剪枝)
        返回 最大值

    否则:
        最小值初始化为 +∞
        对于每个子节点 child of node:
            最小值 = min(最小值, alphaBeta(child, depth - 1, α, β, True))
            β = min(β, 最小值)
            如果 β ≤ α:
                跳出循环(剪枝)
        返回 最小值

AB剪枝的搜索效率高度依赖子节点顺序,PV路径将更有利于剪枝发生。后面将在启发式搜索中详细介绍节点排序技术。

负极大搜索

极大极小的搜索中需要区分Max,Min玩家,为了代码简约提出了负极大搜索算法。算法认为对于任何一个节点,一个玩家的得分和另一玩家的损失是一样的。

函数 negaMax(node, depth, α, β):
    如果 depth = 0 或 node 是一个终端节点:
        返回 node 的评估值

    最大值初始化为 -∞
    对于每个子节点 child of node:
        分数 = -negaMax(child, depth - 1, -β, -α)
        最大值 = max(最大值, 分数)
        α = max(α, 分数)
        如果 α ≥ β:
            跳出循环(剪枝)
    返回 最大值

值得注意的一点,极大极小搜索和负极大搜索的评分函数是不一样。极大极小搜索中,无论是max层最大化自己得分,还是min层最小化对方得分,其评分的视角始终是最大层玩家。然而在负极大搜索中,max层和min层的概念已然不复存在,无论哪一方在进行决策时关注点都是最大化己方得分,因此其评分视角是当前层玩家,而不是最大层玩家。
选择负极大搜索的意义不仅在于代码简约,逻辑清晰,还有最重要的一点是置换表。极大极小搜索中,在交换双方玩家,或者将博弈树中某一中间节点作为根节点(玩家身份发生变化max玩家变成min玩家)时,我们需要考虑很多问题,置换表中的分数是不是合理的?评分视角是不是我们希望的?置换标记位是不是合理的?评分的上界是不是依旧可靠?是不是应该变成下界?但是在负极大搜索中我们就无需考虑,因为无论是分数还是标记位视角都是当前层玩家。由于我们在评分过程中,不同视角不是完全对称,其分数并不是严格相等的,置换表在玩家角色变化时并不是严格安全的,可能会造成不稳定的现象,但是这种变化在我看来时完全可以接受的。

//fail-soft negMax Alpha-Beta pruning search
int GameAI::NABSearch(int depth, int alpha, int beta, bool maximizingPlayer, quint8 searchSpaceType)
{
    int score;
    int evalPlayer = globalParam::AIPlayer;
    MPlayerType searchPlayer = maximizingPlayer ? evalPlayer : UtilReservePlayer(evalPlayer);

    if(zobristSearchHash.getNABTranspositionTable(score, depth, alpha, beta)) {
        return score;
    }

    //  或 游戏结束
    // ??或 分数过大过小
    score = evaluateBoard(evalPlayer);//负极大搜索中评估必须searchPlayer
    if(!maximizingPlayer) score *= -1;

    if (qAbs(score) > globalParam::utilGameSetting.MaxScore || checkSearchBoardWiner() != PLAYER_NONE){
        //保存置换表
        return score;
    }
    // 达到搜索深度
    if (depth == 0){
        //保存置换表
        //VCF
        QList<MPoint> vcf, vcfpath;
        if(VCXSearch(globalParam::utilGameSetting.MaxVctSearchDepth, maximizingPlayer, VCT_SEARCH, vcf, vcfpath)){
            qDebug() << "NABsearch : find vct";
            if(maximizingPlayer) return globalParam::utilGameSetting.MaxScore;
            else return -globalParam::utilGameSetting.MaxScore;
        }
        return score;
    }

    // 着法生成
    QVector<MPoint> searchPoints;
    getSortedSearchSpace(searchPoints, evalPlayer, searchPlayer, searchSpaceType);

    int scoreBest = -INT_MAX;
    int hashf = hashfUperBound;
    MPoint moveBest(InvalidMPoint);
    quint16 savedSearchBoardPatternDirection[boardSize][boardSize];

    for (const auto &curPoint : searchPoints) {
        if (!searchBoardHasPiece(curPoint)) {
            setSearchBoard(curPoint, searchPlayer, savedSearchBoardPatternDirection);// searchPlayer落子
            score = -NABSearch(depth - 1, -beta, -alpha, !maximizingPlayer,searchSpaceType);
            setSearchBoard(curPoint, PLAYER_NONE, savedSearchBoardPatternDirection);// 撤销落子

            if (score > scoreBest) {
                scoreBest = score;
                moveBest = curPoint;
                if (score >= beta) {
                    hashf = hashfLowerBound;
                    appendSearchKillerTable(curPoint, depth, hashf);
                    aiCalInfo.cutTreeTimesCurrentTurn ++;
                    break; // Alpha-Beta 剪枝
                }
                if (score > alpha) {
                    alpha = score;
                    hashf = hashfExact;
                }
            }
        }
    }
    //更新历史表
    appendSearchHistoryTable(moveBest, depth, hashf);
    // 更新置换表
    zobristSearchHash.appendNABTranspositionTable(depth, scoreBest, hashf, moveBest, UtilReservePlayer(searchPlayer));

    return scoreBest;
}

尾记

最后本来想讨论下AB剪枝中fail-softfail-hard的区别的,限于篇幅就以参考文档的方式放在后面。其次是没有展开AB值的更新以及为什么要剪枝的实际含义,展开说容易绕晕,没有几个合适的例子理解的快。
理解AB剪枝搜索是博弈树搜索的基石,后面利用置换表,杀手表以及多线程加速搜索有这重要的作用。
关于fail-hard和fail-soft的讨论
MTD+置换表
wiki AB剪枝
Minmax 搜索动画

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1378169.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Tomcat性能优化学习

Tomcat 服务器是一个开源的轻量级Web应用服务器&#xff0c;在中小型系统和并发量小的场合下被普遍使用&#xff0c;是开发和调试Servlet、JSP 程序的首选。相信大家对于 Tomcat 已经是非常熟悉了&#xff0c;本篇将介绍tomcat的常见优化。那么为什么要对tomcat进行优化呢。因为…

Linux上如何一键安装软件?yum源是什么?Linux如何配置yum源?

这几个问题是Linux操作的入门问题&#xff0c;但是确实也会让刚上手Linux小伙伴头疼一阵&#xff0c;故特有此文&#xff0c;希望能对刚入门的小伙伴有一些帮助~ 众所周知 在linux上在线安装软件需要用到yum命令&#xff0c;经常下述命令来安装 yum install [-y] 包名 #-y的…

自动化测试数据校验神器!

在做接口自动化测试时&#xff0c;经常需要从接口响应返回体中提取指定数据进行断言校验。 今天给大家推荐一款json数据提取神器: jsonpath jsonpath和常规的json有哪些区别呢&#xff1f;在Python中&#xff0c;json是用于处理JSON数据的内置模块&#xff0c;而jsonpath是用…

Python基础知识:整理12 JSON数据格式的转换

首先导入python中的内置包json import json 1 准备一个列表&#xff0c;列表内每个元素都是字典&#xff0c;将其转换为JSON 使用json.dumps()方法 data [{"name": "John", "age": 30}, {"name": "Jane", "age":…

Wpf 使用 Prism 实战开发Day11

仓储&#xff08;Repository&#xff09;/工作单元&#xff08;Unit Of Work&#xff09;模式 仓储&#xff08;rep&#xff09;:仓储接口定义了对实体类访问数据库及操作的方法。它统一管理数据访问的逻辑&#xff0c;并与业务逻辑层进行解耦。 简单的理解就是对访问数据库的一…

百家大吉·夕阳关爱——昌岗街微型养老博览会

居民热情参与博览会 为让长者了解及选择适合自己的养老服务&#xff0c;昌岗街在2023年12月27日开展以“百家大吉夕阳关爱”为主题的昌岗街微型养老服务公益博览会活动&#xff0c;通过搭建养老服务机构供需服务平台&#xff0c;拓宽社区长者了解正规养老服务机构的渠道&#…

视频转码:掌握mp4视频格式转FLV视频的技巧,视频批量剪辑方法

在多媒体时代&#xff0c;视频格式的转换成为一种常见的需求。把MP4格式转换为FLV格式&#xff0c;FLV格式的视频文件通常具有较小的文件大小&#xff0c;同时保持了较好的视频质量。批量剪辑视频的方法能大大提高工作效率。下面来看云炫AI智剪如何进行MP4到FLV的转码&#xff…

写在学习webkit过程的前面

webkit起源于KHTML&#xff0c;是KDE开源项目的KHTML和KJS引擎的一部分。在它的诞生和发展过程中&#xff0c;由两家著名的公司参与开发过程中&#xff0c;造成两次裂变。诞生两个内核webkit和blink&#xff0c;并发展和产生了两个主流的浏览器&#xff0c;分别为safari和chrom…

Unity网络通讯学习

---部分截图来自 siki学院Unity网络通讯课程 Socket 网络上的两个程序通过一个双向的通信连接实现数据交换&#xff0c;这个连接的一端称为一个 Socket &#xff0c;Socket 包含了网络通信必须的五种信息 Socket 例子{ 协议&#xff1a; TCP 本地&#xff1a; IP &#xff…

【Linux Shell】9. 流程控制

文章目录 【 1. if else 判断 】1.1 if1.2 if else1.3 if elif else1.4 实例 【 2. case 匹配 】【 3. 循环 】3.1 for 循环3.2 while 循环3.3 until 循环3.4 无限循环3.5 跳出循环3.5.1 break 跳出所有循环3.5.2 continue 仅跳出当前循环 【 1. if else 判断 】 1.1 if fi 是…

【双指针】001移动零_C++

题目链接&#xff1a;移动零 目录 题目解析 代码书写 知识补充 题目解析 题目让我们求必须在不复制数组的情况下,编写一个函数将所有 0 移动到数组的末尾&#xff0c;同时保持非零元素的相对顺序。 这题我们可以用双指针的方法来写&#xff1a; 我们这里将用两个数组下标来…

Linux tail命令详解和高级用法举例

目 录 一、概述 二、tail命令解释 1&#xff0e;命令格式; 2&#xff0e;功能 3&#xff0e;选项 4&#xff0e;选项的基本用法 &#xff08;1&#xff09; 显示行号 &#xff08;2&#xff09;忽略指定字符数 &#xff08;3&#xff09; 不显示文件名 三…

GVM垃圾收集算法

分代收集理论 目前主流JVM虚拟机中的垃圾收集器&#xff0c;都遵循分代收集理论&#xff1a; 弱分代&#xff1a;绝大多数对象都是朝生夕灭强分带&#xff1a;经历越多次垃圾收集过程的对象&#xff0c;越难以回收&#xff0c;难以消亡 按照分代收集理论设计的“分代垃圾收集…

鸿蒙原生应用再添新丁!天眼查 入局鸿蒙

鸿蒙原生应用再添新丁&#xff01;天眼查 入局鸿蒙 来自 HarmonyOS 微博1月12日消息&#xff0c;#天眼查启动鸿蒙原生应用开发#作为累计用户数超6亿的头部商业信息查询平台&#xff0c;天眼查可以为商家企业&#xff0c;职场人士以及普通消费者等用户便捷和安全地提供查询海量…

迅为RK3588开发板编译 Buildroot单独编译图形化界面三

第三步&#xff1a;编译 Recovery 首先在 linux 源码目录下输入以下命令进入编译的 UI 界面&#xff0c;进入之后如下所示&#xff1a; ./build.sh 然后将光标移动到第四个 recovery&#xff0c;点击回车即可开始 recovery 的编译&#xff0c;编译过程如下所示&#xff1a; 编…

python爬虫实战(6)--获取某度热榜

1. 项目描述 需要用到的类库 pip install requests pip install beautifulsoup4 pip install pandas pip install openpyxl然后&#xff0c;我们来编写python脚本&#xff0c;并引入需要的库&#xff1a; import requests from bs4 import BeautifulSoup import pandas as p…

C++多线程学习[二]:线程的传参以及传参的一些坑

一、线程的传参 #include<iostream> #include<thread> #include<string> using namespace std; void threadtest(int a,double b,string str) {this_thread::sleep_for(100ms);cout << a << " " << b << " " &…

【K8s学习】

k8s的简单执行流程&#xff1a; Kubernetes Master&#xff08;API Server、Scheduler等组件&#xff09;负责调度Pod到合适的Node上。 当Pod被调度到某个Node时&#xff0c;该Node上的kubelet代理会收到指令并开始执行Pod的生命周期管理任务&#xff0c;包括创建、监控和终止P…

基于stm32f4的蓝牙控制小车

1. 引言 蓝牙的创始人是瑞典爱立信公司&#xff0c;蓝牙技术是一种无限数据与语音通信的开放性全球规范&#xff0c;它以低成本的近距离无线连接为基础&#xff0c;为固定与移动设备通信环境建立一个特别连接。手机之间通过蓝牙实现数据共享成为常理&#xff0c;将手机变为遥…

500mA High Voltage Linear Charger with OVP/OCP

一、General Description YHM2810 is a highly integrated, single-cell Li-ion battery charger with system power path management for space-limited portable applications. The full charger function features Trickle-charge, constant current fast charge and const…