1704419013
1704419014
有一点务请注意,重复博弈的第t阶段本身(在有限情况下假定t<T)并不是整个博弈的一个子博弈。子博弈是原博弈的一部分,不只是说博弈到此为止的进行过程已成为全体参与者的共同知识,还包括了原博弈在这一点之后的所有进行。只单独分析第t阶段的博弈就等于把第t阶段看成原重复博弈的最后一个阶段,这样的分析也可能会得到一些结论,但却完全无助于对整个重复博弈的分析。
1704419015
1704419016
现在我们可以给出子博弈精炼纳什均衡的定义了,它仍建立在纳什均衡的概念之上。后者和第1章中的定义并无二致,但这里包含了在动态博弈中参与者战略的潜在复杂性:在所有博弈中,纳什均衡是所有参与者的一个战略组合,每个参与者都有一个战略,并且每一参与者的战略都是针对其他参与者战略的最优反应。
1704419017
1704419018
定义(塞尔滕(Selten,1965))如果参与者的战略在每一子博弈中都构成纳什均衡,我们则说纳什均衡是子博弈精炼的。
1704419019
1704419020
子博弈精炼纳什均衡把纳什均衡的概念进一步严格化,即一个子博弈精炼均衡首先必须是纳什均衡,然后还须通过其他检验。
1704419021
1704419022
为证明无限重复囚徒困境中的触发战略纳什均衡是子博弈精炼的,我们必须证明触发战略在此无限重复博弈中的每一子博弈中都构成了纳什均衡。我们已提到,无限重复博弈的每一子博弈都等同于原博弈。在无限重复囚徒困境的触发战略纳什均衡中,这些子博弈可分为两类:(i)所有以前阶段的结果都是(R1,R2)的子博弈,和(ii)至少有一个前面阶段的结果不是(R1,R2)的子博弈。如果参与者在整个博弈中采取触发战略,则(i)参与者在第一类子博弈中的战略同样是触发战略,我们已证明它是整个博弈的一个纳什均衡;(ii)参与者在第二类子博弈中的战略只是永远单纯重复阶段博弈的均衡(L1,L2),它同样是整体博弈的纳什均衡。从而可以证明,无限重复囚徒困境中的触发战略纳什均衡是子博弈精炼的。
1704419023
1704419024
1704419025
1704419026
1704419027
图2.3.7
1704419028
1704419029
下面我们将相似的论证用于无限重复博弈G(∞,δ)。这些论证将导出弗里德曼(1971)的无限重复博弈定理。为表述这一定理,我们还需最后定义两个概念。第一,我们称一组收益(x1,…,xn)为阶段博弈G的可行收益(feasible),如果它们是G的纯战略收益的凸组合(convex combination)(即纯战略收益的加权平均,权重非负且和为1),图2.3.6所示囚徒困境的可行收益集合为图2.3.7中的阴影区域。纯战略(1,1),(0,5),(4,4)和(5,0)都是可行的,其他可行收益包括l<x<4的所有(x,x),它们由(1,1)与(4,4)的加权平均得出,以及满足y+z=5且0<y<5的所有(y,z),它们由(0,5)与(5,0)加权平均得出。图2.3.7阴影区域之内的其他组合是由两个以上的纯战略收益加权平均得出的。为达到纯战略收益的加权平均收益,参与者可以使用一个共同的随机数发生器:例如,根据掷一枚(均匀)硬币的结果选择(L1,R2)或(R1,L2),他们可以得到的期望收益为(2.5,2.5)。
1704419030
1704419031
为表述弗里德曼定理,我们需要的第二个概念用以重新衡量参与者的收益。我们仍将每一参与者在无限重复博弈G(∞,δ)的收益定义为该参与者在无限个阶段博弈中收益的现值,但我们用同样无限个收益值的平均收益(average payoff)来表示这一现值却更为方便,平均收益指为得到相等的收益现值而在每一阶段都应该得到的等额收益值。令贴现因子为δ,设无限的收益序列π1,π2,π3,…的现值为V,如果每一阶段都能得到的收益为π,则现值为π/(l-δ)。在贴现因子为时δ,为使π等于无限序列π1,π2,π3,…的平均收益,这两个现值必须相等,于是π=V(1-δ),也就是说,平均收益为现值的(1-δ)倍。
1704419032
1704419033
定义 给定贴现因子δ,无限的收益序列π1,π2,π3,…的平均收益为
1704419034
1704419035
1704419036
1704419037
1704419038
和现值相比,使用平均收益的优点在于后者能够和阶段博弈的收益直接比较。例如,在图2.3.6的囚徒困境中,两参与者在每一阶段都可得到4的收益,这样一个无限的收益序列的平均收益为4,但现值为4(1-δ)。不过,由于平均收益只是现值的另一种衡量,使平均收益最大化即等同于使现值最大化。
1704419039
1704419040
现在,我们终于可以给出对无限重复博弈进行讨论的主要结果了:
1704419041
1704419042
定理(弗里德曼,1971)令G为一个有限的完全信息静态博弈,令(e1,…,en)表示G的一个纳什均衡下的收益,且(x1,…,xn)表本G的其他任何可行收益。如果对每一个参与者i有xi>ei,且如果δ足够接近于1,则无限重复博弈G(∞,δ)存在一个子博弈精炼纳什均衡,其平均收益可达到(x1,…,xn)。
1704419043
1704419044
这一定理的证明与我们已给出的在无限重复囚徒困境中的论证思路完全一致,我们将其放在附录2.3.B。把这一定理的结果扩展到一般的既非有限,亦非静态的阶段博弈,从概念上讲毫无障碍,但用符号表示却显得有些杂乱,具体例子可参见后面3个小节中的应用。在图2.3.6的囚徒困境中,弗里德曼定理保证了图2.3.8十字线右上方的阴影部分都可以成为重复博弈的一个子博弈精炼纳什均衡下的平均收益,其前提是贴现因子距1足够接近。
1704419045
1704419046
1704419047
1704419048
1704419049
图2.3.8
1704419050
1704419051
在本节最后,我们简单介绍无限重复博弈理论的两个进一步发展,这两方面都由于囚徒困境的特殊性而被掩盖了。在图2.3.6的(一次性)囚徒困境中,参与者i通过选择Li,可保证至少得到纳什均衡收益1,但是在一次性的古诺双头博弈(像第1.2.A节中描述的那样)中,一个企业通过生产纳什均衡产出,并不能保证得到纳什均衡下的利润;而一个企业所能保证得到的惟一的利润为0,这时它可以完全停工。给定一个任意的阶段博弈G,令ri表示参与者i的保留收益(reservation payoff)——无论其他参与者如何行动,参与者i能够保证的最大收益。则一定会有ri≤ei(这里ei为弗里德曼定理中使用的纳什均衡下的收益),因为如果ri大于ei,则参与者再选择其纳什均衡战略就不是他的最优反应。在囚徒困境中,ri=ei但在古诺双头博弈(此类居多)中,ri<ei。
1704419052
1704419053
富登伯格和马斯金(1986)证明对两个参与者的博弈,弗里德曼定理中的均衡收益(e1,e2)换为保留收益(r1,r2),结论同样成立。即如果(x1,x2)为G的一个可行收益,且对每个i都有xi>ri,则对足够接近于1的δ,G(∞,δ)存在一个子博弈精炼纳什均衡,其平均收益等于(x1,x2),即使对某个或双方参与者来说,xi<ei。对参与者为两方以上的博弈,富登伯格和马斯金给出了一个较宽松的条件,使得定理中的均衡收益(e1,…,en)可以替换为保留收益(r1,…,rn)。
1704419054
1704419055
一个互补性的问题同样有趣:在贴现因子并不“足够接近于1”时,子博弈精炼纳什均衡能达到什么样的平均收益?处理这一问题的思路之一是令δ等于一个固定值,并在假设参与者运用触发战略,一旦发生任何偏离就永远转到阶段博弈的纳什均衡的条件下,计算可以达到的平均收益。在决定当前阶段是否偏离时,δ越小,下一阶段开始进行惩罚的效果就越小。然而,一般来讲参与者总可以比简单重复阶段博弈的纳什均衡得到更高的收益。第二种方法,由阿布勒(Abreu,1988)最先提出,它基于如下思路,即阻止一个参与者偏离既定战略的最有效的方法是威胁该参与者,一旦偏离,就将受到最严厉的可信的惩罚(即威胁该参与者,一旦偏离,就将选择使偏离者收益最低的无限重复博弈的子博弈精炼纳什均衡)。在绝大多数博弈中,永远转到阶段博弈的纳什均衡并不是最严厉的可信惩罚,于是有些使用触发战略方法无法达到的平均收益,运用阿布勒的方法可以达到。不过,在囚徒困境中,阶段博弈的纳什均衡恰好得到保留收益(即ei=ri),则这两种方法是等价的。下一节将对这两种方法分别给出相应的例子。
1704419056
1704419057
附录2.3.B
1704419058
1704419059
本附录证明弗里德曼的定理。令(aei,…,aen)为G的纳什均衡,均衡收益为(e1,…,en)。类似地,令(ax1,…,axn)为带来可行收益(x1,…,xn)的行动组合。(后面的符号只是象征性的,因为它忽略了要达到任意可行收益一般都需要借助于公用的随机数发生器)考虑以下参与者i的触发战略:
1704419060
1704419061
在第一阶段选择axi。在第t阶段,如果所有前面t-1个阶段的结果都是(ax1,…,axn),则选择axi;否则选择aei。
1704419062
[
上一页 ]
[ :1.704419013e+09 ]
[
下一页 ]