算法——结合实例了解Minimax算法（极小化极大算法）

计算机科学中最有趣的事情之一就是编写一个人机博弈的程序。有大量的例子，最出名的是编写一个国际象棋的博弈机器。但不管是什么游戏，程序趋向于遵循一个被称为Minimax算法，伴随着各种各样的子算法在一块。本篇将简要介绍 minimax 算法，并通过实例分析帮助大家更好的理解。

一、概念

Minimax算法又名极小化极大算法，是一种找出失败的最大可能性中的最小值的算法。Minimax算法常用于棋类等由两方较量的游戏和程序，这类程序由两个游戏者轮流，每次执行一个步骤。我们众所周知的五子棋、象棋等都属于这类程序，所以说Minimax算法是基于搜索的博弈算法的基础。该算法是一种零总和算法，即一方要在可选的选项中选择将其优势最大化的选择，而另一方则选择令对手优势最小化的方法。

（1）Minimax是一种悲观算法，即假设对手每一步都会将我方引入从当前看理论上价值最小的格局方向，即对手具有完美决策能力。因此我方的策略应该是选择那些对方所能达到的让我方最差情况中最好的，也就是让对方在完美决策下所对我造成的损失最小。

（2）Minimax不找理论最优解，因为理论最优解往往依赖于对手是否足够愚蠢，Minimax中我方完全掌握主动，如果对方每一步决策都是完美的，则我方可以达到预计的最小损失格局，如果对方没有走出完美决策，则我方可能达到比预计的最悲观情况更好的结局。总之我方就是要在最坏情况中选择最好的。

二、实例分析

实例一、井字棋中的应用

游戏规则和局面评估：井字棋是在 3×3 的棋盘上进行的游戏，玩家轮流在空格中放置自己的棋子（假设一方为 X，另一方为 O），率先将自己的三个棋子连成一线（横、竖或斜）的玩家获胜。如果棋盘填满后仍未出现连成一线的情况，则为平局。我们可以为每个局面定义一个评估值：如果 X 获胜，评估值为 + 1；如果 O 获胜，评估值为 - 1；如果是平局，评估值为 0。
构建游戏树：以 X 玩家为先手开始构建游戏树。在根节点处，X 玩家有 9 种可能的落子位置，每个位置对应一个子节点。对于每个子节点，O 玩家又有 8 种可能的落子位置，依此类推，直到游戏结束（出现获胜局面或平局）。
Minimax 算法执行过程
- 叶节点评估：当到达游戏结束的局面（叶节点）时，根据游戏结果赋予评估值，如 X 获胜则评估值为 + 1，O 获胜则为 - 1，平局为 0。
- 回溯计算：从叶节点开始回溯，假设当前轮到 X 玩家（Max 玩家）决策，在其所处的节点，它会选择子节点中评估值最大的那个作为自己的最优策略。若当前轮到 O 玩家（Min 玩家）决策，它会选择子节点中评估值最小的那个。比如，在某个中间节点，X 玩家的三个子节点评估值分别为 - 1、0、1，那么 X 玩家会选择评估值为 1 的子节点对应的走法。

   |   |   
---|---|---
   |   |   
---|---|---
   |   |

假设当前棋盘为空，X 玩家考虑第一步的走法。算法会模拟所有可能的后续情况：

X 选择左上角：然后 O 可能有多种回应，假设 O 选择中心位置。接着 X 再走，可能形成不同局面，继续模拟下去直到游戏结束，得到一个评估值。
X 选择其他位置：同样依次模拟后续 O 的走法和 X 的应对，直到得出所有以 X 第一步不同走法为根节点的子树的评估值。假设经过计算，X 选择左上角后最终的评估值最高，那么算法就会认为 X 的第一步最优走法是左上角。

局限性和改进方向

局限性：Minimax 算法的时间复杂度和空间复杂度较高，随着游戏树的深度和广度增加，计算量呈指数级增长。在复杂的游戏中，如国际象棋、围棋等，可能无法在合理时间内计算出所有可能。
改进方向：为了减少计算量，可以采用 α-β 剪枝技术，在搜索过程中剪掉一些不可能影响最终结果的分支。还可以结合启发式函数，对局面进行更快速的评估，减少不必要的搜索深度。

实例二、纸币面值最大化最小

题目：现在考虑这样一个游戏：有三个盘子A、B和C，每个盘子分别放有三张纸币。A放的是1、20、50；B放的是5、10、100；C放的是1、5、20。单位均为“元”。有甲、乙两人，两人均对三个盘子和上面放置的纸币有可以任意查看。

游戏分三步：

（1）甲从三个盘子中选取一个。

（2）乙从甲选取的盘子中拿出两张纸币交给甲。

（3）甲从乙所给的两张纸币中选取一张，拿走。

其中甲的目标是最后拿到的纸币面值尽量大，乙的目标是让甲最后拿到的纸币面值尽量小。

基本思路：一般解决博弈类问题的自然想法是将格局组织成一棵树，树的每一个节点表示一种格局，而父子关系表示由父格局经过一步可以到达子格局。Minimax也不例外，它通过对以当前格局为根的格局树搜索来确定下一步的选择。而一切格局树搜索算法的核心都是对每个格局价值的评价。

解题：下图是上述示例问题的格局树：

格局树（1）

注意，由于示例问题格局数非常少，我们可以给出完整的格局树。这种情况下我可以找到Minimax算法的全局最优解。而真实情况中，格局树非常庞大，即使是计算机也不可能给出完整的树，因此我们往往只搜索一定深度，这时只能找到局部最优解。

我们从甲的角度考虑。其中正方形节点表示轮到我方（甲），而三角形表示轮到对方（乙）。经过三轮对弈后（我方-对方-我方），将进入终局。黄色叶结点表示所有可能的结局。从甲方看，由于最终的收益可以通过纸币的面值评价，我们自然可以用结局中甲方拿到的纸币面值表示终格局的价值。

下面考虑倒数第二层节点，在这些节点上，轮到我方选择，所以我们应该引入可选择的最大价值格局，因此每个节点的价值为其子节点的最大值：

格局树（2）

这些轮到我方的节点叫做max节点，max节点的值是其子节点最大值。

倒数第三层轮到对方选择，假设对方会尽力将局势引入让我方价值最小的格局，因此这些节点的价值取决于子节点的最小值。这些轮到对方的节点叫做min节点。

最后，根节点是max节点，因此价值取决于叶子节点的最大值。最终完整赋值的格局树如下：

完整赋值的格局树

总结一下Minimax算法的步骤：

（1）首先确定最大搜索深度D，D可能达到终局，也可能是一个中间格局。

（2）在最大深度为D的格局树叶子节点上，使用预定义的价值评价函数对叶子节点价值进行评价。

（3）自底向上为非叶子节点赋值。其中max节点取子节点最大值，min节点取子节点最小值。

（4）每次轮到我方时（此时必处在格局树的某个max节点），选择价值等于此max节点价值的那个子节点路径。

在上面的例子中，根节点的价值为20，表示如果对方每一步都完美决策，则我方按照上述算法可最终拿到20元，这是我方在Minimax算法下最好的决策。格局转换路径如下图红色路径所示：

格局转换路径

注意几点：

（1）真实问题一般无法构造出完整的格局树，所以需要确定一个最大深度D，每次最多从当前格局向下计算D层。

（2）因为上述原因，Minimax一般是寻找一个局部最优解而不是全局最优解，搜索深度越大越可能找到更好的解，但计算耗时会呈指数级膨胀。

（3）也是因为无法一次构造出完整的格局树，所以真实问题中Minimax一般是边对弈边计算局部格局树，而不是只计算一次，但已计算的中间结果可以缓存。

三、伪代码

def minimax(node, depth, is_maximizing):
    if depth == 0 or node是终止节点:
        return 评估值
    
    if is_maximizing:
        value = -∞
        for child in node的子节点:
            value = max(value, minimax(child, depth-1, False))
        return value
    else:
        value = +∞
        for child in node的子节点:
            value = min(value, minimax(child, depth-1, True))
        return value