- 一、背景介绍
- 二、收益矩阵计算
- 2.1 博弈主体策略
- 2.2 概率
- 2.3 具体公式
- 2.4 计算过程
- (1)企业
- (2)政府
- (3)环境NGO
- 三、期望与复制动态方程
- 3.1 企业平均期望
- 3.2 政府平均期望
- 3.3 环境NGO平均期望
- 3.4 三方演化博弈的均衡点及稳定性分析
- 四、均衡点及稳定性分析
- 4.1 构建雅克比矩阵
- 4.2 均衡点
- 4.3 雅可比矩阵的特征值
- 4.4 判断均衡点的稳定性
- 五、总结
一、背景介绍
接下来以这篇文献为例,介绍一下包括三方演化博弈模型的构建以及代码的撰写。
知网论文:低碳经济下环境NGO参与企业碳减排的演化博弈分析
二、收益矩阵计算
2.1 博弈主体策略
企业:采取K1,不采取K2
政府:调控M1,不调控M2
环境NGO:监督N1,不监督N2
2.2 概率
企业:采取x,不采取1-x
政府:调控y,不调控1-y
环境NGO:监督z,不监督1-z
2.3 具体公式
企业收益=收入+补贴-成本
政府收益=收入-补贴-成本
环境NGO=收入+补贴-成本
2.4 计算过程
(1)企业
1、采取K1:低碳生产
E1:企业采取低碳生产获得的收益
C1:企业采取低碳生产所支付的低碳设备及技术等成本
S1:政府调控时对采取低碳生产的企业给予的补贴
2.不采取K2:传统生产
E2:企业采取传统生产获得的收益
C2:企业按照传统生产所付出的成本
G1:政府调控时对采取传统生产的企业实施的罚款
G2:环境NGO实行监督策略时使传统生产的企业遭受的损失
(2)政府
E3:企业低碳生产给政府带来的潜在收益
C4:政府在企业传统生产时需付出高能耗带来的环境污染治理成本
1、调控M1:耗费人力等监督成本
C3政府采取调控策略时付出的人力、物力、财力等成本
2、不调控M2:对企业不干预
(3)环境NGO
1、监督N1:对企业监督
C5:环境NGo对企业进行监督产生的监督成本
S2:环境NGo实行监督策略获得来自政府的资助
S3:环境NGo实行监督策略获得来自公众的资助
2、不监督N2:对企业监督
根据上述的变量可以得到下面的收益矩阵:
首先,由于有3个主体,每个主体有两种做法,因此最多有2^3种情况。
其次,根据2.3的公式计算三个主体的不同收益
企业收益 | 政府收益 | 环境NGO | |
---|---|---|---|
K1,M1,N1 (企业采取,政府调控,NGO监督) | E1+S1-C1 | E3-C3-S1-S2 | S3+S2-C5 |
K1,M1,N2 (企业采取,政府调控,NGO不监督) | E1+S1-C1 | E3-C3-S1 | 0 |
K1,M2,N1 (企业采取,政府不调控,NGO监督) | E1-C1 | E3-S2 | S3+S2-C5 |
K1,M2,N2 (企业采取,政府不调控,NGO不监督) | E1-C1 | E3 | 0 |
K2,M1,N1 (企业不采取,政府调控,NGO监督) | E2-C2-G1-G2 | -C3-C4-S2+G1 | S3+S2-C5 |
K2,M1,N2 (企业不采取,政府调控,NGO不监督) | E2-C2-G1 | -C3-C4+G1 | 0 |
K2,M2,N1 (企业不采取,政府不调控,NGO监督) | E2-C2-G2 | -C4-S2 | S3+S2-C5 |
K2,M2,N2 (企业不采取,政府不调控,NGO不监督) | E2-C2 | -C4 | 0 |
三、期望与复制动态方程
3.1 企业平均期望
设企业采用“采取”策略的期望收益为V11,采用“不采取”策略的期望收益为V12,平均期望收益为V1,则有:
V 11 = E (采取) = ∑ 企业采取时的收益值 × 政府应对策略概率 × 环境 N G O 应对策略 = ( E 1 + S 1 − C 1 ) × y × z + ( E 1 + S 1 − C 1 ) × y × ( 1 − z ) + ( E 1 − C 1 ) × ( 1 − y ) × z + ( E 1 − C 1 ) × ( 1 − y ) × ( 1 − z ) V_{11} =E(采取)\\= \sum_{} 企业采取时的收益值 \times 政府应对策略概率 \times 环境NGO应对策略 \\=(E1+S1-C1)\times y \times z +(E1+S1-C1 )\times y \times (1-z)+\\( E1-C1 )\times (1-y)\times z+(E1-C1)\times(1-y)\times(1-z) V11=E(采取)=∑企业采取时的收益值×政府应对策略概率×环境NGO应对策略=(E1+S1−C1)×y×z+(E1+S1−C1)×y×(1−z)+(E1−C1)×(1−y)×z+(E1−C1)×(1−y)×(1−z)
V 12 = E (不采取) = ∑ 企业不采取时的收益值 × 政府应对策略概率 × 环境 N G O 应对策略 = ( E 2 − C 2 − G 1 − G 2 ) × y × z + ( E 2 − C 2 − G 1 ) × y × ( 1 − z ) + ( E 2 − C 2 − G 2 ) × ( 1 − y ) × z + ( E 2 − C 2 ) × ( 1 − y ) × ( 1 − z ) V_{12} =E(不采取)\\= \sum_{} 企业不采取时的收益值 \times 政府应对策略概率 \times 环境NGO应对策略 \\=(E2-C2-G1-G2)\times y \times z +(E2-C2-G1)\times y \times (1-z)+\\( E2-C2-G2 )\times (1-y)\times z+(E2-C2)\times(1-y)\times(1-z) V12=E(不采取)=∑企业不采取时的收益值×政府应对策略概率×环境NGO应对策略=(E2−C2−G1−G2)×y×z+(E2−C2−G1)×y×(1−z)+(E2−C2−G2)×(1−y)×z+(E2−C2)×(1−y)×(1−z)
V 1 = E (企业) = 企业采取对应概率 × E (采取) + 企业不采取对应概率 × E (不采取) V_{1} =E(企业)\\= 企业采取对应概率 \times E(采取) + 企业不采取对应概率\times E(不采取) V1=E(企业)=企业采取对应概率×E(采取)+企业不采取对应概率×E(不采取)
F ( x ) = d x d t = x ( V 11 − V 1 ) = x [ V 11 − x V 11 − ( 1 − x ) V 12 ] = x ( 1 − x ) ( V 11 − V 12 ) F(x)=\frac{dx}{dt} \quad=x(V_{11}-V_1) \\=x[V_{11}-xV_{11}-(1-x)V_{12}]=x(1-x)(V_{11}-V_{12}) F(x)=dtdx=x(V11−V1)=x[V11−xV11−(1−x)V12]=x(1−x)(V11−V12)
F(x)是复制动态方程,有一个比较固定的公式是x(V11-V1)
下面讲一下这个固定公式:x(V11-V1)是怎么来的:
这是复制动态方程的一种固定表达形式,用于描述连续时间情形下种群群体状态的变化。
首先,如何描述种群群体状态?以种群中不同个体的数量或者不同个体占总体的比例来表示。具体来说,以这个式子(dx/dt = x(V11-V1) )为例,x指的是企业选择“采取”策略的概率(演化博弈论中x指的是企业这个“种群”中选择“采取”策略的个体占总体的比例)。
其次,如何描述种群群体状态的变化?用连续两代之间种群中个体数量(或者占总体的比例)的变化来描述,也就是复制动态方程。在这个例子中,x代表企业种群中这一代选择“采取”策略的个体所占比例,dx/dt代表企业种群中下一代选择“采取”策略的个体所占比例。所以原式就很好理解,dx/dt就是x乘上一个变化率(V11-V1),描述了这一代到下一代群体状态的变化。这个变化率在演化博弈论中是用超额收益(就是选择某一纯策略的个体相比总体的收益之差)来定义的。容易理解,变化率为正,即选择“采取”策略的企业获得的收益大于所有企业获得的平均收益时,其他原先选择“不采取”策略的企业会转而选择“采取”策略,这将导致下一代选择“采取”策略的企业数量增加(或占所有企业的比例上升)。这其实就是“演化”的含义。最终随着和其他博弈主体的不断互动,x会趋于一个稳定值不再变化(如果该博弈能够达到稳定)。
关于复制动态方程的思想,复制动态和生态学思想的联系,其他的复制动态方程形式,我建议参考乔根·W·威布尔的《演化博弈论》(格致出版社、上海人民出版社,当代经济学系列丛书)中3-4章节的内容。
3.2 政府平均期望
政府选择“调控”策略的期望收益为 V21 、选择“不调控”策略的期望收益为 V22 ,平均期 望收益为 V2
V 21 = E (采取) = ∑ 政府采取时的收益值 × 企业应对策略概率 × 环境 N G O 应对策略 = ( E 3 − C 3 − S 1 − S 2 ) × x × z + ( E 3 − C 3 − S 1 ) × x × ( 1 − z ) + ( − C 3 − C 4 − S 2 + G 1 ) × ( 1 − x ) × z + ( − C 3 − C 4 + G 1 ) × ( 1 − x ) × ( 1 − z ) V_{21} =E(采取)\\= \sum_{} 政府采取时的收益值 \times 企业应对策略概率 \times 环境NGO应对策略 \\=(E3-C3-S1-S2)\times x \times z +(E3-C3-S1 )\times x \times (1-z)+\\( -C3-C4-S2+G1 )\times (1-x)\times z+( -C3-C4+G1)\times(1-x)\times(1-z) V21=E(采取)=∑政府采取时的收益值×企业应对策略概率×环境NGO应对策略=(E3−C3−S1−S2)×x×z+(E3−C3−S1)×x×(1−z)+(−C3−C4−S2+G1)×(1−x)×z+(−C3−C4+G1)×(1−x)×(1−z)
V 22 = E (不采取) = ∑ 政府不采取时的收益值 × 企业应对策略概率 × 环境 N G O 应对策略 = ( E 3 − S 2 ) × x × z + ( E 3 ) × x × ( 1 − z ) + ( − C 4 − S 2 ) × ( 1 − x ) × z + ( − C 4 ) × ( 1 − x ) × ( 1 − z ) V_{22} =E(不采取)\\= \sum_{} 政府不采取时的收益值 \times 企业应对策略概率 \times 环境NGO应对策略 \\=(E3-S2)\times x \times z +(E3)\times x \times (1-z)+\\( -C4-S2 )\times (1-x)\times z+(-C4)\times(1-x)\times(1-z) V22=E(不采取)=∑政府不采取时的收益值×企业应对策略概率×环境NGO应对策略=(E3−S2)×x×z+(E3)×x×(1−z)+(−C4−S2)×(1−x)×z+(−C4)×(1−x)×(1−z)
V 2 = E (政府) = 政府采取对应概率 × E (采取) + 政府不采取对应概率 × E (不采取) = y V 21 + ( 1 − y ) V 22 V_{2} =E(政府)\\= 政府采取对应概率 \times E(采取) + 政府不采取对应概率\times E(不采取)\\=yV_{21}+(1-y)V_{22} V2=E(政府)=政府采取对应概率×E(采取)+政府不采取对应概率×E(不采取)=yV21+(1−y)V22
F ( x ) = d y d t = y ( V 21 − V 2 ) F(x)=\frac{dy}{dt} \quad=y(V_{21}-V_2) F(x)=dtdy=y(V21−V2)
3.3 环境NGO平均期望
环境NGO选择“监督”策略的期望收益为 V31 、选择“不监督”策略的期望收益为V32 ,平均期 望收益为V3
V 31 = E (采取) = ∑ 环境 N G O 采取时的收益值 × 政府应对策略概率 × 企业应对策略 = ( S 3 + S 2 − C 5 ) × y × x + ( S 3 + S 2 − C 5 ) × y × ( 1 − x ) + ( S 3 + S 2 − C 5 ) × ( 1 − y ) × x + ( S 3 + S 2 − C 5 ) × ( 1 − y ) × ( 1 − x ) V_{31} =E(采取)\\= \sum_{} 环境NGO采取时的收益值 \times 政府应对策略概率 \times 企业应对策略 \\=(S3+S2-C5 )\times y \times x +(S3+S2-C5 )\times y \times (1-x)+\\(S3+S2-C5 )\times (1-y)\times x+(S3+S2-C5)\times(1-y)\times(1-x) V31=E(采取)=∑环境NGO采取时的收益值×政府应对策略概率×企业应对策略=(S3+S2−C5)×y×x+(S3+S2−C5)×y×(1−x)+(S3+S2−C5)×(1−y)×x+(S3+S2−C5)×(1−y)×(1−x)
V 32 = E (不采取) = ∑ 环境 N G O 不采取时的收益值 × 政府应对策略概率 × 企业应对策略 = 0 V_{32} =E(不采取)\\= \sum_{} 环境NGO不采取时的收益值 \times 政府应对策略概率 \times 企业应对策略 \\=0 V32=E(不采取)=∑环境NGO不采取时的收益值×政府应对策略概率×企业应对策略=0
V 3 = E (环境 N G O ) = 环境 N G O 采取对应概率 × E (采取) + 环境 N G O 不采取对应概率 × E (不采取) = z V 31 + ( 1 − z ) V 32 V_{3} =E( 环境NGO)\\= 环境NGO采取对应概率 \times E(采取) + 环境NGO不采取对应概率\times E(不采取)\\=zV_{31}+(1-z)V_{32} V3=E(环境NGO)=环境NGO采取对应概率×E(采取)+环境NGO不采取对应概率×E(不采取)=zV31+(1−z)V32
F ( x ) = d z d t = z ( V 31 − V 3 ) = z ( 1 − z ) ( S 2 + S 3 − C 5 ) F(x)=\frac{dz}{dt} \quad=z(V_{31}-V_3) \\=z(1-z)(S2+S3-C5) F(x)=dtdz=z(V31−V3)=z(1−z)(S2+S3−C5)
3.4 三方演化博弈的均衡点及稳定性分析
四、均衡点及稳定性分析
4.1 构建雅克比矩阵
4.2 均衡点
条件:F(x)=0 , F(y)=0 , F(z)=0 ,
得到对应的xyz的组合
4.3 雅可比矩阵的特征值
将求得的均衡点代入雅克比矩阵
求此时矩阵对应的特征值
4.4 判断均衡点的稳定性
当特征值均为负数时,那么均衡点是稳定的均衡点。
MATLAB计算三方演化博弈均衡点出现错误?
具体可以参考上面的链接和这篇文章。
五、总结
写一篇关于演化博弈相关的矩阵如下:
引言+文献综述
1、确立三个主体及策略
2、确立策略概率
3、计算收益矩阵
4、计算期望与复制动态方程
5、绘制相位图(部分文献做省略处理)
6、构建雅克比矩阵
7、计算均衡点
8、计算此时雅克比矩阵对应的特征值
9、判断均衡点的稳定性
10、仿真分析