1704418991
此结果前面已经导出。于是,当且仅当下式成立,选择Rj为最优:
1704418992
1704418993
1704418994
1704418995
1704418996
即δ≥1/4。于是,当且仅当δ≥1/4时,在第一阶段,并且在前面结果都是(R1,R2)的下一阶段,参与者j的最优反应(给定参与者i已采取了触发战略)为Rj。这一结论,再加上前面已证明的,一旦某一阶段的结果偏离了(R1,R2),j的最优反应就是永远选择Lj,我们已经证明当且仅当δ≥1/4时,参与双方都采取触发战略是博弈的纳什均衡。
1704418997
1704418998
下面我们要论证的是这一纳什均衡同时又是子博弈精炼的。为做到这一点,首先定义重复博弈中的以下三个概念:重复博弈中的战略、重复博弈的子博弈以及重复博弈的子博弈精炼纳什均衡。为借助前一节中的简单例子说明这些概念,我们将对有限重复博弈和无限重复博弈中的情况同时给出定义。在上一节,我们基于阶段博弈G={A1,…,An;u1,…,un}定义了有限重复博弈G(T),其中的G是一个完全信息静态博弈,参与者1到n同时从各自的行动空间A1到An中分别选择行动a1到an,得到收益u1(a1,…,an)到un(a1,…,an),现在我们定义类似的无限重复博弈。[17]
1704418999
1704419000
定义 给定一个阶段博弈G,令G(∞,δ)表示相应的无限重复博弈,其中G将无限次地重复进行,且参与者的贴现因子都为δ。对每一个t,之前t-1次阶段博弈的结果在t阶段开始进行前都可被观测到,每个参与者在G(∞,δ)中的收益都是该参与者在无限次的阶段博弈中所得收益的现值。
1704419001
1704419002
在所有博弈(无论是重复的还是非重复的)中,参与者的一个战略都是行动的一个完整计划——它包括了该参与者在所有可能的情况下,需要作出选择时的行动。更形象一点讲,如果一个参与者在博弈开始前把一个战略留给他的律师,律师就可以代理该参与者参加博弈,在任何情况下都无需再征询参与者的意见。(指客观上不需要,即各种情况下应该怎么办已由参与者的战略安排好了,而不是指律师可以代理决策——译注)例如——在一个完全信息静态博弈中,一个战略就是一个简单的行动(这也是为什么我们在第1章中将这样的博弈表示为G={S1…,Sn;u1,…,un},而在本章又表示为G={A1,…,An;u1,un}:对一个完全信息静态博弈而言,参与者i的战略空间Si即简单等于其行动空间Ai)。不过在动态博弈中,一个战略就较为复杂了。
1704419003
1704419004
考虑前一节分析的两阶段囚徒困境,每一个参与者都有两次行动,于是也许有人会认为一个战略就是一对指令(b,c),其中b是第一阶段的行动,c是第二阶段的行动。但第一阶段有四个可能的结果——(L1,L2),(L1,R2),(R1,L2)及(R1,R2)——它们代表了四种不同的情况,每一参与者都可能针对这些情况作出不同的反应。从而,每一参与者的战略就应包含5条指令,表示为(v,w,x,y,z)0这里v为第一阶段的行动,w,x,y及z则表示针对第一阶段的不同结果(L1,L2),(L1,R2),(R1,L2)及(R1,R2),分别应该在第二阶段采取的行动。使用这一表示,“第一阶段选择b,且不论第一阶段出现什么结果,均在第二阶段选择c”这一指示就可写成(b,c,c,c,c),但这一表示方法也可以表示第二阶段行动依赖于第一阶段结果的战略,比如(b,c,c,c,b),它的含义是“第一阶段选择b、如果第一阶段的结果是(R1,R2),则在第二阶段选择b、否则第二阶段选择c”。类似地,在基于图2.3.3的两阶段重复博弈中,每一参与者的战略都包含10条指令——一个第一阶段的行动和9个不同情况下的第二阶段的行动,针对第一阶段每一个可能的结果都有相应的行动。请回顾在对此两阶段重复博弈进行分析时,我们曾考虑过的一个战略,其中参与者第二阶段的行动是依第一阶段结果而确定的:第一阶段选择Mi,如果第一阶段的结果是(M1,M2),则在第二阶段选择Ri,如不是,则选择Li。
1704419005
1704419006
在有限重复博弈G(T)或无限重复博弈G(∞,δ)中,博弈到阶段t的进行过程(history of play through stage t)指各方参与者从阶段1到阶段t所有行动的记录。例如,参与者可能在第一阶段选择(a11,…,an1),在第二阶段选择(a12,…,an2)…,在第t阶段选择(a1t,…,ant),其中对每一参与者i,在阶段s的行动ais属于行动集Ai。
1704419007
1704419008
定义 在有限重复博弈G(T)或无限重复博弈G(∞,δ)中,参与者的一个战略特指在每一阶段,针对其前面阶段所有可能的进行过程,参与者将会选择的行动。
1704419009
1704419010
下面我们讨论子博弈。一个子博弈是全部博弈的一部分,当全部博弈进行到任何一个阶段,到此为止的进行过程已成为参与各方的共同知识,而其后尚未开始进行的部分就是一个子博弈(在本节后面的部分我们将给出重复博弈G(T)和G(∞,δ)的子博弈的精确定义,在第2.4.B节还将针对一般的完全信息动态博弈给出子博弈的精确概念)。例如在两阶段囚徒困境中,就有4个子博弈,分别为第一阶段4种可能的结果出现后,第二阶段的博弈。类似地,在基于图2.3.3的两阶段博弈中,存在9个子博弈,因为在第二阶段开始前,第一阶段的博弈可能会出现9个不同的结果,而每种结果出现后,第二阶段的博弈都是一个不同的子博弈。在有限重复博弈G(T)和无限重复博弈中G(∞,δ)中,战略的定义和子博弈的定义关系非常密切:参与者的一个战略指该参与者在博弈的第一阶段选择的行动以及在其所有子博弈的第一阶段将要选择的行动。
1704419011
1704419012
定义 在有限重复博弈G(T)中,由第t+1阶段开始的一个子博弈为G进行:T-t次的重复博弈,可表示为G(T-t)。由第t+1阶段开始有许多子博弈,到t阶段为止的每一可能的进行过程之后都是不同的子博弈。在无限重复博弈G(∞,δ)中,由t+1阶段开始的每个子博弈都等同于初始博弈G(∞,δ),和在有限情况下相似,博弈G(∞,δ)到t阶段为止有多少不同的可能进行过程,就有多少从t+1阶段开始的子博弈。
1704419013
1704419014
有一点务请注意,重复博弈的第t阶段本身(在有限情况下假定t<T)并不是整个博弈的一个子博弈。子博弈是原博弈的一部分,不只是说博弈到此为止的进行过程已成为全体参与者的共同知识,还包括了原博弈在这一点之后的所有进行。只单独分析第t阶段的博弈就等于把第t阶段看成原重复博弈的最后一个阶段,这样的分析也可能会得到一些结论,但却完全无助于对整个重复博弈的分析。
1704419015
1704419016
现在我们可以给出子博弈精炼纳什均衡的定义了,它仍建立在纳什均衡的概念之上。后者和第1章中的定义并无二致,但这里包含了在动态博弈中参与者战略的潜在复杂性:在所有博弈中,纳什均衡是所有参与者的一个战略组合,每个参与者都有一个战略,并且每一参与者的战略都是针对其他参与者战略的最优反应。
1704419017
1704419018
定义(塞尔滕(Selten,1965))如果参与者的战略在每一子博弈中都构成纳什均衡,我们则说纳什均衡是子博弈精炼的。
1704419019
1704419020
子博弈精炼纳什均衡把纳什均衡的概念进一步严格化,即一个子博弈精炼均衡首先必须是纳什均衡,然后还须通过其他检验。
1704419021
1704419022
为证明无限重复囚徒困境中的触发战略纳什均衡是子博弈精炼的,我们必须证明触发战略在此无限重复博弈中的每一子博弈中都构成了纳什均衡。我们已提到,无限重复博弈的每一子博弈都等同于原博弈。在无限重复囚徒困境的触发战略纳什均衡中,这些子博弈可分为两类:(i)所有以前阶段的结果都是(R1,R2)的子博弈,和(ii)至少有一个前面阶段的结果不是(R1,R2)的子博弈。如果参与者在整个博弈中采取触发战略,则(i)参与者在第一类子博弈中的战略同样是触发战略,我们已证明它是整个博弈的一个纳什均衡;(ii)参与者在第二类子博弈中的战略只是永远单纯重复阶段博弈的均衡(L1,L2),它同样是整体博弈的纳什均衡。从而可以证明,无限重复囚徒困境中的触发战略纳什均衡是子博弈精炼的。
1704419023
1704419024
1704419025
1704419026
1704419027
图2.3.7
1704419028
1704419029
下面我们将相似的论证用于无限重复博弈G(∞,δ)。这些论证将导出弗里德曼(1971)的无限重复博弈定理。为表述这一定理,我们还需最后定义两个概念。第一,我们称一组收益(x1,…,xn)为阶段博弈G的可行收益(feasible),如果它们是G的纯战略收益的凸组合(convex combination)(即纯战略收益的加权平均,权重非负且和为1),图2.3.6所示囚徒困境的可行收益集合为图2.3.7中的阴影区域。纯战略(1,1),(0,5),(4,4)和(5,0)都是可行的,其他可行收益包括l<x<4的所有(x,x),它们由(1,1)与(4,4)的加权平均得出,以及满足y+z=5且0<y<5的所有(y,z),它们由(0,5)与(5,0)加权平均得出。图2.3.7阴影区域之内的其他组合是由两个以上的纯战略收益加权平均得出的。为达到纯战略收益的加权平均收益,参与者可以使用一个共同的随机数发生器:例如,根据掷一枚(均匀)硬币的结果选择(L1,R2)或(R1,L2),他们可以得到的期望收益为(2.5,2.5)。
1704419030
1704419031
为表述弗里德曼定理,我们需要的第二个概念用以重新衡量参与者的收益。我们仍将每一参与者在无限重复博弈G(∞,δ)的收益定义为该参与者在无限个阶段博弈中收益的现值,但我们用同样无限个收益值的平均收益(average payoff)来表示这一现值却更为方便,平均收益指为得到相等的收益现值而在每一阶段都应该得到的等额收益值。令贴现因子为δ,设无限的收益序列π1,π2,π3,…的现值为V,如果每一阶段都能得到的收益为π,则现值为π/(l-δ)。在贴现因子为时δ,为使π等于无限序列π1,π2,π3,…的平均收益,这两个现值必须相等,于是π=V(1-δ),也就是说,平均收益为现值的(1-δ)倍。
1704419032
1704419033
定义 给定贴现因子δ,无限的收益序列π1,π2,π3,…的平均收益为
1704419034
1704419035
1704419036
1704419037
1704419038
和现值相比,使用平均收益的优点在于后者能够和阶段博弈的收益直接比较。例如,在图2.3.6的囚徒困境中,两参与者在每一阶段都可得到4的收益,这样一个无限的收益序列的平均收益为4,但现值为4(1-δ)。不过,由于平均收益只是现值的另一种衡量,使平均收益最大化即等同于使现值最大化。
1704419039
1704419040
现在,我们终于可以给出对无限重复博弈进行讨论的主要结果了:
[
上一页 ]
[ :1.704418991e+09 ]
[
下一页 ]