1704419046
1704419047
1704419048
1704419049
图2.3.8
1704419050
1704419051
在本节最后,我们简单介绍无限重复博弈理论的两个进一步发展,这两方面都由于囚徒困境的特殊性而被掩盖了。在图2.3.6的(一次性)囚徒困境中,参与者i通过选择Li,可保证至少得到纳什均衡收益1,但是在一次性的古诺双头博弈(像第1.2.A节中描述的那样)中,一个企业通过生产纳什均衡产出,并不能保证得到纳什均衡下的利润;而一个企业所能保证得到的惟一的利润为0,这时它可以完全停工。给定一个任意的阶段博弈G,令ri表示参与者i的保留收益(reservation payoff)——无论其他参与者如何行动,参与者i能够保证的最大收益。则一定会有ri≤ei(这里ei为弗里德曼定理中使用的纳什均衡下的收益),因为如果ri大于ei,则参与者再选择其纳什均衡战略就不是他的最优反应。在囚徒困境中,ri=ei但在古诺双头博弈(此类居多)中,ri<ei。
1704419052
1704419053
富登伯格和马斯金(1986)证明对两个参与者的博弈,弗里德曼定理中的均衡收益(e1,e2)换为保留收益(r1,r2),结论同样成立。即如果(x1,x2)为G的一个可行收益,且对每个i都有xi>ri,则对足够接近于1的δ,G(∞,δ)存在一个子博弈精炼纳什均衡,其平均收益等于(x1,x2),即使对某个或双方参与者来说,xi<ei。对参与者为两方以上的博弈,富登伯格和马斯金给出了一个较宽松的条件,使得定理中的均衡收益(e1,…,en)可以替换为保留收益(r1,…,rn)。
1704419054
1704419055
一个互补性的问题同样有趣:在贴现因子并不“足够接近于1”时,子博弈精炼纳什均衡能达到什么样的平均收益?处理这一问题的思路之一是令δ等于一个固定值,并在假设参与者运用触发战略,一旦发生任何偏离就永远转到阶段博弈的纳什均衡的条件下,计算可以达到的平均收益。在决定当前阶段是否偏离时,δ越小,下一阶段开始进行惩罚的效果就越小。然而,一般来讲参与者总可以比简单重复阶段博弈的纳什均衡得到更高的收益。第二种方法,由阿布勒(Abreu,1988)最先提出,它基于如下思路,即阻止一个参与者偏离既定战略的最有效的方法是威胁该参与者,一旦偏离,就将受到最严厉的可信的惩罚(即威胁该参与者,一旦偏离,就将选择使偏离者收益最低的无限重复博弈的子博弈精炼纳什均衡)。在绝大多数博弈中,永远转到阶段博弈的纳什均衡并不是最严厉的可信惩罚,于是有些使用触发战略方法无法达到的平均收益,运用阿布勒的方法可以达到。不过,在囚徒困境中,阶段博弈的纳什均衡恰好得到保留收益(即ei=ri),则这两种方法是等价的。下一节将对这两种方法分别给出相应的例子。
1704419056
1704419057
附录2.3.B
1704419058
1704419059
本附录证明弗里德曼的定理。令(aei,…,aen)为G的纳什均衡,均衡收益为(e1,…,en)。类似地,令(ax1,…,axn)为带来可行收益(x1,…,xn)的行动组合。(后面的符号只是象征性的,因为它忽略了要达到任意可行收益一般都需要借助于公用的随机数发生器)考虑以下参与者i的触发战略:
1704419060
1704419061
在第一阶段选择axi。在第t阶段,如果所有前面t-1个阶段的结果都是(ax1,…,axn),则选择axi;否则选择aei。
1704419062
1704419063
如果参与双方都采用这种触发战略,则无限重复博弈的每一阶段的结果都将是(ax1,…,axn),从而(期望的)收益为(x1,…,xn)。首先,我们论证如果δ足够接近于1,则参与者的这种战略是重复博弈的纳什均衡,其后再证明这样一个纳什均衡是子博弈精炼的。
1704419064
1704419065
设想除参与者i之外的所有参与者都采用了这一触发战略。由于一旦某一阶段的结果不是(ax1,…,axn),其他参与者将永远选择(ae1,…,ae,i-1ae,i+1,…,aen),参与者i的最优反应为一旦某一阶段的结果偏离了(ax1,…,axn),就永远选择aei。其余就是要确定参与者i在第一阶段的最优反应,以及之前所有阶段的结果都是(axl,…,axn)时的最优反应。令adi为参与者i对(ax1,…,axn)的最优偏离,即adi为下式的解
1704419066
1704419067
1704419068
1704419069
1704419070
令di为i从此偏离中得到的收益:di=ui(ax1,…,ax,i-1,adi,ax,i+1,…,axn)(再一次我们忽略了随机数发生器的作用:最优偏离及其收益可以依赖于随机数发生器产生的纯战略)。我们有di≥xi=ui(ax1,…,ax,i-1,axi,ax,i+1,…,axn)>ei=ui(ael,…,aen)。
1704419071
1704419072
选择adi将会使当前阶段的收益为di,但却将触发其他参与人永远选择(ae1,…,ae,i-1,ae,i+1,…,aen),对比参与者i的最优选择为aei,于是未来每一阶段的收益都将是ei。这一收益序列的现值为
1704419073
1704419074
1704419075
1704419076
1704419077
(由于任何偏离都将触发其他参与者的相同反应,我们只需考虑能带来最大收益的偏离就足够了)。另一方面,选择axi将在本阶段得到收益xi,并且在下一阶段可在adi和axi之间进行完全相同的选择。令Vi表示参与者i就此作出最优选择时各阶段博弈收益的现值(目前及其后每一次面临这样选择时)。如果选择axi是最优的,则
1704419078
1704419079
Vi=xi+δVi或Vi=xi/(1-δ).
1704419080
1704419081
如果选择adi是最优的,则
1704419082
1704419083
1704419084
1704419085
1704419086
此式前面已经导出(假定随机数发生器序列不相关(serially uncorrelated),则令di为参与者i偏离随机数发生器确定的不同纯战略可能得到的最高收益就足够了)。那么,当且仅当下式成立选择axi是最优的
1704419087
1704419088
1704419089
1704419090
1704419091
从而,在第一阶段,并且在之前的结果都是(ax1,…,axn)的任何阶段,当且仅当δ≥(di-xi)/(di-ei)时,参与者i的最优行动(给定其他参与者已采用了触发战略)是axi。
1704419092
1704419093
给定这一结果以及一旦某一阶段的结果偏离了(axi,…,axn),则i的最优反应是永远选择aei,我们得到当且仅当下式成立时,所有参与者采用开始时描述的触发战略是纳什均衡
1704419094
1704419095
[
上一页 ]
[ :1.704419046e+09 ]
[
下一页 ]