博弈论简介

news2025/7/3 17:14:24

博弈分类

合作与非合作博弈：

同时与顺序博弈：

完全信息与不完全信息博弈：

零和与非零和博弈：

囚徒困境的例子

纳什平衡

代码示例

博弈论是一个数学分支，研究多个理性决策者之间的战略互动。它的主要目的是理解决策者（称为玩家）之间的相互影响如何塑造他们的行为和最终的结果。

博弈分类

博弈可以分为以下几类：

合作与非合作博弈：
- 合作博弈：玩家可以通过合约等方式进行绑定承诺。玩家之间可以沟通和签订可执行合同，以实现相互协作的策略。在合作博弈中，玩家可以形成联盟，共同协商并约束彼此的行为，以实现共同利益的最大化。合作博弈关注的是联盟和协议的形成，以及联盟如何分配博弈的总收益。
- 非合作博弈：玩家无法进行绑定承诺。玩家不能沟通或制定可执行合同。每个玩家独立地制定自己的策略，并试图最大化自己的收益，而不考虑与其他玩家的合作。非合作博弈的解通常通过纳什均衡来找到，纳什均衡下的策略是每个玩家在给定其他玩家策略的情况下最优的策略。
同时与顺序博弈：
- 同时博弈：所有玩家同时做出决策。
- 顺序博弈：玩家按照某种顺序做出决策。
完全信息与不完全信息博弈：
- 完全信息博弈：每个玩家都完全了解博弈的结构和其他玩家的信息。
- 不完全信息博弈：某些玩家的信息对其他玩家来说是未知的。
零和与非零和博弈：
- 零和博弈：一个玩家的收益正好等于另一个玩家的损失。
- 非零和博弈：所有玩家的收益和损失不一定相等。

博弈论的解决方案通常涉及以下概念：

纳什均衡：没有玩家能通过改变策略而单方面提高自己的收益的情况。
次优均衡：一个或多个玩家可以通过改变策略来改善自己的情况，但其他人可能会受到损害。
支配策略：无论其他玩家采取什么策略，某个策略始终至少与其他策略同样好的情况。

囚徒困境的例子

以下是一个经典的囚徒困境（Prisoner's Dilemma）例子：

囚徒困境是一个非合作、同时、完全信息、非零和博弈的例子。

假设有两名犯罪嫌疑人A和B被捕。他们被分开审讯，没有沟通的机会。每个人都有两个选择：合作（保持沉默）或背叛（告发对方）。他们的选择将决定彼此的刑罚。

如果A和B都保持沉默，每人被判监禁1年。
如果A告发B，而B保持沉默，A将被释放，B被判监禁3年，反之亦然。
如果A和B都告发对方，他们都将被判监禁2年。

在这个情况下，每个人的理性选择是告发对方，因为无论对方做什么，告发似乎都更有利。然而，这将导致双方都受到更重的惩罚。如果他们能够相互信任并合作，即保持沉默，他们将获得更轻的刑罚。这个博弈展示了个人理性追求最大利益可能会导致集体利益的损失。

纳什平衡

这个博弈的纳什均衡是两人都选择背叛，即使合作/合作的选择将带来更好的总体结果。

纳什均衡的定义是：在纳什均衡下，每个玩家的策略是针对其他玩家当前策略的最优反应，也就是说，没有玩家有动机改变自己的策略。

在囚徒困境中，两人都选择背叛的情况是纳什均衡。原因是，无论另一个玩家选择合作还是背叛，每个玩家都有动机选择背叛，因为背叛总是带来更好的个人结果。

然而，这个纳什均衡的结果是次优的，因为两人都选择合作将带来更好的总体结果（即总刑期最短）。这个问题揭示了个体理性追求可能导致集体不理想结果的悖论，反映了非合作博弈的复杂性和困难性。

代码示例

# 定义策略，合作为True，背叛为False
player_a_cooperates = True
player_b_cooperates = False

# 定义收益矩阵
payoff_matrix = {
    (True, True): (-1, -1),   # 两人合作
    (True, False): (-3, 0),   # A合作，B背叛
    (False, True): (0, -3),   # A背叛，B合作
    (False, False): (-2, -2)  # 两人背叛
}

# 计算收益
payoff_a, payoff_b = payoff_matrix[(player_a_cooperates, player_b_cooperates)]

print(f"Player A's payoff: {payoff_a}")
print(f"Player B's payoff: {payoff_b}")