1704418941
1704418942
图2.3.5
1704418943
1704418944
这里的阶段博弈在图2.3.3的基础上又加上了战略pi和Qi,从而阶段博弈有了四个纯战略纳什均衡:(L1,L2)和(R1,R2),同时又增加了(P1,P2)和(Q1,Q2)。与上例相同,和(L1,L2)相比,参与双方都更倾向于选择(R1,R2)。但更重要的,图2.3.5的博弈中,不存在一个纳什均衡(x,y),使参与双方和(P1,P2)或(Q1,Q2)或(R1,R2)相比,都更倾向于选择(x,y)。我们称(R1,R2)帕累托优于(Pareto-dominates)(L1,L2),而且(P1,P2)、(Q1,Q2)和(R1,R2)都处于图2.3.5所示博弈的纳什均衡收益的帕累托边界(Pareto frontier)之上。
1704418945
1704418946
设想图2.3.5的阶段博弈重复进行两次,且在第二阶段开始前可以观测到第一阶段的结果。进一步假设参与者预期的第二阶段结果如下:如果第一阶段的结果为(M1,M2),第二阶段将是(R1,R2);第一阶段(M1,w),其中w为除M2之外的任意战略,则(P1,P2);第一阶段(x,M2),其中x为除M1之外的任意战略,则(Q1,Q2);第一阶段(y,z),其中y为除M1之外的任何战略,z为除M2之外的任何战略,则(R1,R2)。那么(M1,M2),(R1,R2)就是重复博弈的子博弈精炼解,因为先选Mi,接着选Ri,每个参与者都可得到4+3的收益,但在第一阶段偏离这一选择而选Li,却只能得到5+1/2(选择其他行动的收益甚至更低)。更为重要的是,前一例子中遇到的困难在这里并没有出现。在基于图2.3.3的两阶段重复博弈中,对一个参与者在第一阶段不守信用的惩罚,只能是在第二阶段的帕累托居劣均衡,从而同时惩罚了惩罚者。在这里与之不同的是,有三个均衡处于帕累托边界之上——其中之一可以奖励参与双方在第一阶段的良好行动,另外两个则可以在惩罚第一阶段不守信用者的同时,奖励惩罚者。从而,一旦在第二阶段有必要实施惩罚,惩罚者就不会再考虑选择阶段博弈的其他均衡,于是也就无法说服惩罚者就第二阶段的行动进行重新谈判。
1704418947
1704418949
2.3.B 理论:无限重复博弈
1704418950
1704418951
本节我们回到对无限重复博弈的讨论。和前面有限重复博弈的例子相同,问题的中心是关于将来行动的可信的威胁或承诺可以影响到当前的行动。在有限情况的例子中我们已看到,如果阶段博弈G有多个纳什均衡,重复博弈G(T)就可能会存在子博弈精炼解,其中对任意t<T,阶段t的结果都不是G的纳什均衡。在无限重复博弈中一个更强的结论成立:即使阶段博弈有惟一的纳什均衡,无限重复博弈中也可以存在子博弈精炼解,其中没有一个阶段的结果是G的纳什均衡。
1704418952
1704418953
首先,我们研究无限重复的囚徒困境博弈,接着再讨论和前一节定义的有限重复博弈类型相同的无限重复博弈:一个完全信息静态博弈G,被无限次重复进行,并且在下一阶段开始时,之前所有阶段的结果都可以被观测到。对这一类型的有限重复或无限重复博弈,我们定义参与者的战略、子博弈和子博弈精炼纳什均衡(在第2.4.B节,我们对一般的完全信息动态博弈定义上述概念,而不仅包含这一特定类型的重复博弈)。此后,我们运用这些概念给出并证明弗里德曼(1971)的定理(亦称为无名氏定理[16])
1704418954
1704418955
1704418956
1704418957
1704418958
图2.3.6
1704418959
1704418960
设想图2.3.6的囚徒困境将无限次地重复进行,并且对每个t,在第t阶段开始前的t-1次阶段博弈的结果都可被观测到。将这无限次阶段博弈的收益简单相加,对衡量参与者在无限次重复博弈中的总收益并无太大意义,比如每一阶段得到的收益为4显然要优于每一阶段得到的收益为1,但两者之和却都是无穷大。前面讲过(鲁宾斯坦的讨价还价模型,第2.1.D节)贴现因子δ=1/(1+r)为一个时期后的一美元今天的价值,其中r为每一阶段的利率。给定一个贴现因子及参与者在无限次博弈中每次的收益,我们可以计算收益的现值——如果现在把这笔钱存入银行,在一定期间结束时,银行存款的余额与那时可得到的金额相等。
1704418961
1704418962
定义 给定贴现因子δ,无限的收益序列π1,π2,π3,…的现值为
1704418963
1704418964
1704418965
1704418966
1704418967
借助于贴现因子δ,还可以把我们称之为无限重复的博弈解释为一个有限重复的博弈,但在其结束之前重复进行的次数是随机的,设想在博弈的每一阶段完成后,都要掷一枚(加权的)硬币来决定博弈是否结束。如果博弈立刻结束的概率为p,则博弈将至少再进行一个阶段的概率为1-p,在下一阶段将可以得到的收益(如果能继续进行)π,在当前阶段的硬币未掷之前的价值只有(1-p)π/(l+r)。与之相似,在两个阶段之后可能得到的收益(如果后面两个阶段都能继续进行)π,在当前阶段的硬币未掷之前的价值只有(1—p)2π/(1+r)2。令δ=(1-p)/(1+r),则现值π1+δπ2+δ2π3+…既包含了货币的时间价值,又包含了博弈将要结束的可能性。
1704418968
1704418969
下面我们分析无限重复的囚徒困境博弈,其中每一参与者的贴现因子都为δ,且每一参与者在重复博弈中得到的收益等于各自在所有阶段博弈中得到收益的现值。我们将证明尽管阶段博弈中惟一的纳什均衡是不合作——即(L1,L2)——可在无限重复博弈的一个子博弈精炼解中,每一阶段的结果都将是相互合作——即(R1,R2)。论证中要运用我们分析基于图2.3.3的两阶段重复博弈时的思想(在该阶段博弈中我们在囚徒困境的基础上加入了第二个纳什均衡):如果目前参与者相互合作,则下一阶段他们将选择高收益的均衡结果,否则将选择低收益的均衡结果。两阶段重复博弈和无限重复博弈的不同之处在于,这里下一次可选择的高收益均衡,并不是人为加在阶段博弈之上的另一个均衡结果,而是代表着在下一阶段及其后的继续合作。
1704418970
1704418971
假设参与者i在无限重复博弈的开始选择相互合作的战略,并且当且仅当前面每个阶段参与双方都选择相互合作时,在其后的阶段博弈中也选择相互合作。我们可把参与者i的这一战略正式表述为:
1704418972
1704418973
在第一阶段选择Ri。且在第t阶段,如果所有前面t-1阶段的结果都是(R1,R2),则选择Ri,否则选择Li。
1704418974
1704418975
这一战略是触发战略(trigger strategy)的一种,之所以称为触发战略,是因为如果没有人选择不合作,合作将一直进行下去;一旦有人选择不合作,就会触发其后所有阶段都不再相互合作。如果参与双方都采取这种触发战略,则此无限重复博弈的结果就将是每一阶段选择(R1,R2)。我们首先论证如果δ距1足够近,则采取这种战略,对参与双方都是无限重复博弈的纳什均衡,其后再证明这一纳什均衡是子博弈精炼的,以使论证更为严格。
1704418976
1704418977
为证明采取上述触发战略,对参与双方来讲都是无限重复博弈的纳什均衡,我们将假定参与者i已采取触发战略,并证明在δ与1足够接近的条件下,参与者j的最优反应为也选择同样的战略。由于一旦某阶段的结果偏离了(R1,R2)参与者i将在其后永远选择Li,那么如果某阶段的结果偏离了(R1,R2),参与者j的最优反应同样是在其后永远选择Li。余下的就是计算参与者j在第一阶段的最优反应,以及前面的结果都是(R1,R2)时,下一阶段的最优反应。选择Li将会使当期得到5的收益,但却会触发参与者i的永远不合作战略(从而亦引发参与者j本人的不合作),于是未来每一阶段的收益都将成为1。由于1+δ+δ2+…=1/(1-δ),上述一系列收益的现值为
1704418978
1704418979
1704418980
1704418981
1704418982
采取另外的战略,选择Rj在本期的收益将为4,并且在下一阶段还可得到完全相同的选择机会,令V表示参与者j在(当前和以后每一次面临同样选择时)无限次的选择中总选择最优战略时收益的现值。如果选择Rj是最优的,则
1704418983
1704418984
V=4+δ·V,
1704418985
1704418986
或V=4/(l-δ),因为选择Rj时,下一阶段还有机会进行相同选择。如果选择Lj是最优的,则
1704418987
1704418988
1704418989
1704418990
[
上一页 ]
[ :1.704418941e+09 ]
[
下一页 ]