打字猴:1.704418916e+09
1704418916
1704418917 定理 如果阶段博弈G有惟一的纳什均衡,则对任意有限的T,重复博弈G(T)有惟一的子博弈精炼解:即G的纳什均衡结果在每一阶段重复进行。[13]
1704418918
1704418919
1704418920
1704418921
1704418922 图2.3.3
1704418923
1704418924 现在,我们回到两阶段博弈,进一步考虑阶段博弈G有多个纳什均衡的情况,如图2.3.3所示。战略Li和Mi与图2.3.1所示的囚徒困境完全相同,只不过增加了战略Ri使博弈有了两个纯战略纳什均衡:其一是囚徒困境中的(L1,L2),另外还有(R1,R2)这个例子中凭空给囚徒的困境增加了一个均衡解当然是很主观的,但在此博弈中我们的兴趣主要在理论上,而非其经济学意义。在下一节我们将看到,即使重复进行的阶段博弈像囚徒的困境一样有惟一的纳什均衡,但当重复博弈无限次进行下去时,仍表现出这里所分析的多均衡特征。从而,本节我们在最简单的两阶段情况下分析一个抽象的阶段博弈,以后再分析由有经济学意义的阶段博弈构成的无限重复博弈也就十分容易了。
1704418925
1704418926 设图2.3.3表示的阶段博弈重复进行两次,并在第二阶段开始前可以观测到第一阶段的结果,我们可以证明在这一重复博弈中存在一个子博弈精炼解,其中第一阶段的战略组合为(M1,M2)[14]。和第2.2.A节相同,假定在第一阶段参与者预测第二阶段的结果将会是下一阶段博弈的一个纳什均衡,由于这里阶段博弈有不止一个纳什均衡,因而参与者可能会预测根据第一阶段的不同结果,在第二阶段的博弈中将会出现不同的纳什均衡。例如,设参与者预测如果第一阶段的结果是(M1,M2),第二阶段的结果将会是(R1,R2),而如果第一阶段中其他8个结果的任何一个出现,第二阶段的结果就将会是(L1,L2),那么参与者在第一阶段所面临的局势就可归为图2.3.4所示的一次性博弈,其中在(M1,M2)单元加上了(3,3),在其余8个单元各加上(1,1)。
1704418927
1704418928
1704418929
1704418930
1704418931 图2.3.4
1704418932
1704418933 在图2.3.4的博弈中有3个纯战略纳什均衡:(L1,L2),(M1,M2)和(R1,R2)。和在图2.3.2中一样,这个一次性博弈中的纳什均衡对应着重复博弈的子博弈精炼解。令(w,x),(y,z)表示重复博弈的一个结果——第一阶段和第二阶段的行动分别为(w,x)和(y,z)。图2.3.4中的纳什均衡(L1,L2)对应着重复博弈的子博弈精炼解((L1,L2),(L1,L2)),因为除第一阶段的结果是(M1,M2)外,其他任何情况发生时,第二阶段的结果都将是(L1,L2)。类似地,图2.3.4中的纳什均衡(R1,R2)对应了重复博弈的子博弈精炼解((R1,R2),(L1,L2))。重复博弈的这两个子博弈精炼解都简单地由两个阶段博弈的纳什均衡解相串而成,但图2.3.4里的第三个纳什均衡结果却与前两者存在质的差别:图2.3.4中的(M1,M2)对应的重复博弈子博弈精炼解为((M1,M2),(R1,R2)),因为对(M1,M2)之后的第二阶段结果预期是(R1,R2),亦即正如我们前面讲过的,在重复博弈的子博弈精炼解中,合作可以在第一阶段达成。下面是更为一般的情况:如果G={A1,…,An;u1,…,un}是一个有多个纳什均衡的完全信息静态博弈,则重复博弈G(T)可以存在子博弈精炼解,其中对每一t<T,t阶段的结果都不是G的纳什均衡,下一节我们在讨论无限重复博弈时还将涉及这一理念。
1704418934
1704418935 这个例子要说明的主要观点是,对将来行动所作的可信的威胁或承诺可以影响到当前的行动。不过另外一点,也说明了子博弈精炼的概念对可信性的要求并不严格。例如,在推导子博弈精炼解((M1,M2),(R1,R2))时,我们假定如果第一阶段的结果是(M1,M2),则参与双方都预期(R1,R2)将是第二阶段的解,如果第一阶段出现了任何其他8种结果之一,第二阶段的结果就会是(L1,L2)。但是,由于第二阶段的博弈中,(R1,R2)亦为可选择的纳什均衡,而相应的收益为(3,3),这时选择收益为(1,1)的(L1,L2)看起来就比较愚蠢了。不严格地看,参与双方进行重新谈判似乎是很自然的事[15]。如果第一阶段的结果并不是(M1,M2),从而双方第二阶段的行动应该是(L1,L2),那么每一个参与者可能会理性地认为过去的反正已经过去了,在余下的阶段博弈中就会选择双方都偏好的均衡行动(R1,R2)。但是如果对每个第一阶段的结果,第二阶段的结果都将是(R1,R2)的话,则第一阶段选择(M1,M2)的动机就被破坏了:两个参与者在第一阶段面临的局势就可以简化表示为图2.3.3所示阶段博弈的每一单元格中的收益都加上(3,3)后形成的一次性博弈,于是i对Mj的最优反应就成为Li。
1704418936
1704418937 为说明这一重新谈判问题的解决思路,我们考虑图2.3.5所示的博弈。和图2.3.3的博弈相比,它的人为设计的痕迹更为明显。同样,我们对这一博弈的分析只为了说明问题,而不考虑其经济学含义,从这一人为博弈中我们得出的有关重新谈判的观点,亦可应用于对无限重复博弈中重新谈判的分析;参见法雷尔罗和马斯金(1989)提供的例子。
1704418938
1704418939
1704418940
1704418941
1704418942 图2.3.5
1704418943
1704418944 这里的阶段博弈在图2.3.3的基础上又加上了战略pi和Qi,从而阶段博弈有了四个纯战略纳什均衡:(L1,L2)和(R1,R2),同时又增加了(P1,P2)和(Q1,Q2)。与上例相同,和(L1,L2)相比,参与双方都更倾向于选择(R1,R2)。但更重要的,图2.3.5的博弈中,不存在一个纳什均衡(x,y),使参与双方和(P1,P2)或(Q1,Q2)或(R1,R2)相比,都更倾向于选择(x,y)。我们称(R1,R2)帕累托优于(Pareto-dominates)(L1,L2),而且(P1,P2)、(Q1,Q2)和(R1,R2)都处于图2.3.5所示博弈的纳什均衡收益的帕累托边界(Pareto frontier)之上。
1704418945
1704418946 设想图2.3.5的阶段博弈重复进行两次,且在第二阶段开始前可以观测到第一阶段的结果。进一步假设参与者预期的第二阶段结果如下:如果第一阶段的结果为(M1,M2),第二阶段将是(R1,R2);第一阶段(M1,w),其中w为除M2之外的任意战略,则(P1,P2);第一阶段(x,M2),其中x为除M1之外的任意战略,则(Q1,Q2);第一阶段(y,z),其中y为除M1之外的任何战略,z为除M2之外的任何战略,则(R1,R2)。那么(M1,M2),(R1,R2)就是重复博弈的子博弈精炼解,因为先选Mi,接着选Ri,每个参与者都可得到4+3的收益,但在第一阶段偏离这一选择而选Li,却只能得到5+1/2(选择其他行动的收益甚至更低)。更为重要的是,前一例子中遇到的困难在这里并没有出现。在基于图2.3.3的两阶段重复博弈中,对一个参与者在第一阶段不守信用的惩罚,只能是在第二阶段的帕累托居劣均衡,从而同时惩罚了惩罚者。在这里与之不同的是,有三个均衡处于帕累托边界之上——其中之一可以奖励参与双方在第一阶段的良好行动,另外两个则可以在惩罚第一阶段不守信用者的同时,奖励惩罚者。从而,一旦在第二阶段有必要实施惩罚,惩罚者就不会再考虑选择阶段博弈的其他均衡,于是也就无法说服惩罚者就第二阶段的行动进行重新谈判。
1704418947
1704418948 博弈论基础 [:1704417407]
1704418949 2.3.B 理论:无限重复博弈
1704418950
1704418951 本节我们回到对无限重复博弈的讨论。和前面有限重复博弈的例子相同,问题的中心是关于将来行动的可信的威胁或承诺可以影响到当前的行动。在有限情况的例子中我们已看到,如果阶段博弈G有多个纳什均衡,重复博弈G(T)就可能会存在子博弈精炼解,其中对任意t<T,阶段t的结果都不是G的纳什均衡。在无限重复博弈中一个更强的结论成立:即使阶段博弈有惟一的纳什均衡,无限重复博弈中也可以存在子博弈精炼解,其中没有一个阶段的结果是G的纳什均衡。
1704418952
1704418953 首先,我们研究无限重复的囚徒困境博弈,接着再讨论和前一节定义的有限重复博弈类型相同的无限重复博弈:一个完全信息静态博弈G,被无限次重复进行,并且在下一阶段开始时,之前所有阶段的结果都可以被观测到。对这一类型的有限重复或无限重复博弈,我们定义参与者的战略、子博弈和子博弈精炼纳什均衡(在第2.4.B节,我们对一般的完全信息动态博弈定义上述概念,而不仅包含这一特定类型的重复博弈)。此后,我们运用这些概念给出并证明弗里德曼(1971)的定理(亦称为无名氏定理[16])
1704418954
1704418955
1704418956
1704418957
1704418958 图2.3.6
1704418959
1704418960 设想图2.3.6的囚徒困境将无限次地重复进行,并且对每个t,在第t阶段开始前的t-1次阶段博弈的结果都可被观测到。将这无限次阶段博弈的收益简单相加,对衡量参与者在无限次重复博弈中的总收益并无太大意义,比如每一阶段得到的收益为4显然要优于每一阶段得到的收益为1,但两者之和却都是无穷大。前面讲过(鲁宾斯坦的讨价还价模型,第2.1.D节)贴现因子δ=1/(1+r)为一个时期后的一美元今天的价值,其中r为每一阶段的利率。给定一个贴现因子及参与者在无限次博弈中每次的收益,我们可以计算收益的现值——如果现在把这笔钱存入银行,在一定期间结束时,银行存款的余额与那时可得到的金额相等。
1704418961
1704418962 定义 给定贴现因子δ,无限的收益序列π1,π2,π3,…的现值为
1704418963
1704418964
1704418965
[ 上一页 ]  [ :1.704418916e+09 ]  [ 下一页 ]