打字猴:1.704418927e+09

1704418927

1704418928

1704418929

1704418930

1704418931 图2.3.4

1704418932

1704418933 在图2.3.4的博弈中有3个纯战略纳什均衡：（L1，L2），（M1，M2）和（R1，R2）。和在图2.3.2中一样，这个一次性博弈中的纳什均衡对应着重复博弈的子博弈精炼解。令（w，x），（y，z）表示重复博弈的一个结果——第一阶段和第二阶段的行动分别为（w，x）和（y，z）。图2.3.4中的纳什均衡（L1，L2）对应着重复博弈的子博弈精炼解（（L1，L2），（L1，L2）），因为除第一阶段的结果是（M1，M2）外，其他任何情况发生时，第二阶段的结果都将是（L1，L2）。类似地，图2.3.4中的纳什均衡（R1，R2）对应了重复博弈的子博弈精炼解（（R1，R2），（L1，L2））。重复博弈的这两个子博弈精炼解都简单地由两个阶段博弈的纳什均衡解相串而成，但图2.3.4里的第三个纳什均衡结果却与前两者存在质的差别：图2.3.4中的（M1，M2）对应的重复博弈子博弈精炼解为（（M1，M2），（R1，R2）），因为对（M1，M2）之后的第二阶段结果预期是（R1，R2），亦即正如我们前面讲过的，在重复博弈的子博弈精炼解中，合作可以在第一阶段达成。下面是更为一般的情况：如果G={A1，…，An；u1，…，un}是一个有多个纳什均衡的完全信息静态博弈，则重复博弈G（T）可以存在子博弈精炼解，其中对每一t＜T，t阶段的结果都不是G的纳什均衡，下一节我们在讨论无限重复博弈时还将涉及这一理念。

1704418934

1704418935 这个例子要说明的主要观点是，对将来行动所作的可信的威胁或承诺可以影响到当前的行动。不过另外一点，也说明了子博弈精炼的概念对可信性的要求并不严格。例如，在推导子博弈精炼解（（M1，M2），（R1，R2））时，我们假定如果第一阶段的结果是（M1，M2），则参与双方都预期（R1，R2）将是第二阶段的解，如果第一阶段出现了任何其他8种结果之一，第二阶段的结果就会是（L1，L2）。但是，由于第二阶段的博弈中，（R1，R2）亦为可选择的纳什均衡，而相应的收益为（3，3），这时选择收益为（1，1）的（L1，L2）看起来就比较愚蠢了。不严格地看，参与双方进行重新谈判似乎是很自然的事[15]。如果第一阶段的结果并不是（M1，M2），从而双方第二阶段的行动应该是（L1，L2），那么每一个参与者可能会理性地认为过去的反正已经过去了，在余下的阶段博弈中就会选择双方都偏好的均衡行动（R1，R2）。但是如果对每个第一阶段的结果，第二阶段的结果都将是（R1，R2）的话，则第一阶段选择（M1，M2）的动机就被破坏了：两个参与者在第一阶段面临的局势就可以简化表示为图2.3.3所示阶段博弈的每一单元格中的收益都加上（3，3）后形成的一次性博弈，于是i对Mj的最优反应就成为Li。

1704418936

1704418937 为说明这一重新谈判问题的解决思路，我们考虑图2.3.5所示的博弈。和图2.3.3的博弈相比，它的人为设计的痕迹更为明显。同样，我们对这一博弈的分析只为了说明问题，而不考虑其经济学含义，从这一人为博弈中我们得出的有关重新谈判的观点，亦可应用于对无限重复博弈中重新谈判的分析；参见法雷尔罗和马斯金（1989）提供的例子。

1704418938

1704418939

1704418940

1704418941

1704418942 图2.3.5

1704418943

1704418944 这里的阶段博弈在图2.3.3的基础上又加上了战略pi和Qi，从而阶段博弈有了四个纯战略纳什均衡：（L1，L2）和（R1，R2），同时又增加了（P1，P2）和（Q1，Q2）。与上例相同，和（L1，L2）相比，参与双方都更倾向于选择（R1，R2）。但更重要的，图2.3.5的博弈中，不存在一个纳什均衡（x，y），使参与双方和（P1，P2）或（Q1，Q2）或（R1，R2）相比，都更倾向于选择（x，y）。我们称（R1，R2）帕累托优于（Pareto-dominates）（L1，L2），而且（P1，P2）、（Q1，Q2）和（R1，R2）都处于图2.3.5所示博弈的纳什均衡收益的帕累托边界（Pareto frontier）之上。

1704418945

1704418946 设想图2.3.5的阶段博弈重复进行两次，且在第二阶段开始前可以观测到第一阶段的结果。进一步假设参与者预期的第二阶段结果如下：如果第一阶段的结果为（M1，M2），第二阶段将是（R1，R2）；第一阶段（M1，w），其中w为除M2之外的任意战略，则（P1，P2）；第一阶段（x，M2），其中x为除M1之外的任意战略，则（Q1，Q2）；第一阶段（y，z），其中y为除M1之外的任何战略，z为除M2之外的任何战略，则（R1，R2）。那么（M1，M2），（R1，R2）就是重复博弈的子博弈精炼解，因为先选Mi，接着选Ri，每个参与者都可得到4+3的收益，但在第一阶段偏离这一选择而选Li，却只能得到5+1/2（选择其他行动的收益甚至更低）。更为重要的是，前一例子中遇到的困难在这里并没有出现。在基于图2.3.3的两阶段重复博弈中，对一个参与者在第一阶段不守信用的惩罚，只能是在第二阶段的帕累托居劣均衡，从而同时惩罚了惩罚者。在这里与之不同的是，有三个均衡处于帕累托边界之上——其中之一可以奖励参与双方在第一阶段的良好行动，另外两个则可以在惩罚第一阶段不守信用者的同时，奖励惩罚者。从而，一旦在第二阶段有必要实施惩罚，惩罚者就不会再考虑选择阶段博弈的其他均衡，于是也就无法说服惩罚者就第二阶段的行动进行重新谈判。

1704418947

1704418948 博弈论基础 [:1704417407]

1704418949 2.3.B 理论：无限重复博弈

1704418950

1704418951 本节我们回到对无限重复博弈的讨论。和前面有限重复博弈的例子相同，问题的中心是关于将来行动的可信的威胁或承诺可以影响到当前的行动。在有限情况的例子中我们已看到，如果阶段博弈G有多个纳什均衡，重复博弈G（T）就可能会存在子博弈精炼解，其中对任意t＜T，阶段t的结果都不是G的纳什均衡。在无限重复博弈中一个更强的结论成立：即使阶段博弈有惟一的纳什均衡，无限重复博弈中也可以存在子博弈精炼解，其中没有一个阶段的结果是G的纳什均衡。

1704418952

1704418953 首先，我们研究无限重复的囚徒困境博弈，接着再讨论和前一节定义的有限重复博弈类型相同的无限重复博弈：一个完全信息静态博弈G，被无限次重复进行，并且在下一阶段开始时，之前所有阶段的结果都可以被观测到。对这一类型的有限重复或无限重复博弈，我们定义参与者的战略、子博弈和子博弈精炼纳什均衡（在第2.4.B节，我们对一般的完全信息动态博弈定义上述概念，而不仅包含这一特定类型的重复博弈）。此后，我们运用这些概念给出并证明弗里德曼（1971）的定理（亦称为无名氏定理[16]）

1704418954

1704418955

1704418956

1704418957

1704418958 图2.3.6

1704418959

1704418960 设想图2.3.6的囚徒困境将无限次地重复进行，并且对每个t，在第t阶段开始前的t-1次阶段博弈的结果都可被观测到。将这无限次阶段博弈的收益简单相加，对衡量参与者在无限次重复博弈中的总收益并无太大意义，比如每一阶段得到的收益为4显然要优于每一阶段得到的收益为1，但两者之和却都是无穷大。前面讲过（鲁宾斯坦的讨价还价模型，第2.1.D节）贴现因子δ=1/（1+r）为一个时期后的一美元今天的价值，其中r为每一阶段的利率。给定一个贴现因子及参与者在无限次博弈中每次的收益，我们可以计算收益的现值——如果现在把这笔钱存入银行，在一定期间结束时，银行存款的余额与那时可得到的金额相等。

1704418961

1704418962 定义给定贴现因子δ，无限的收益序列π1，π2，π3，…的现值为

1704418963

1704418964

1704418965

1704418966

1704418967 借助于贴现因子δ，还可以把我们称之为无限重复的博弈解释为一个有限重复的博弈，但在其结束之前重复进行的次数是随机的，设想在博弈的每一阶段完成后，都要掷一枚（加权的）硬币来决定博弈是否结束。如果博弈立刻结束的概率为p，则博弈将至少再进行一个阶段的概率为1-p，在下一阶段将可以得到的收益（如果能继续进行）π，在当前阶段的硬币未掷之前的价值只有（1-p）π/（l+r）。与之相似，在两个阶段之后可能得到的收益（如果后面两个阶段都能继续进行）π，在当前阶段的硬币未掷之前的价值只有（1—p）2π/（1+r）2。令δ=（1-p）/（1+r），则现值π1+δπ2+δ2π3+…既包含了货币的时间价值，又包含了博弈将要结束的可能性。

1704418968

1704418969 下面我们分析无限重复的囚徒困境博弈，其中每一参与者的贴现因子都为δ，且每一参与者在重复博弈中得到的收益等于各自在所有阶段博弈中得到收益的现值。我们将证明尽管阶段博弈中惟一的纳什均衡是不合作——即（L1，L2）——可在无限重复博弈的一个子博弈精炼解中，每一阶段的结果都将是相互合作——即（R1，R2）。论证中要运用我们分析基于图2.3.3的两阶段重复博弈时的思想（在该阶段博弈中我们在囚徒困境的基础上加入了第二个纳什均衡）：如果目前参与者相互合作，则下一阶段他们将选择高收益的均衡结果，否则将选择低收益的均衡结果。两阶段重复博弈和无限重复博弈的不同之处在于，这里下一次可选择的高收益均衡，并不是人为加在阶段博弈之上的另一个均衡结果，而是代表着在下一阶段及其后的继续合作。

1704418970

1704418971 假设参与者i在无限重复博弈的开始选择相互合作的战略，并且当且仅当前面每个阶段参与双方都选择相互合作时，在其后的阶段博弈中也选择相互合作。我们可把参与者i的这一战略正式表述为：

1704418972

1704418973 在第一阶段选择Ri。且在第t阶段，如果所有前面t-1阶段的结果都是（R1，R2），则选择Ri，否则选择Li。

1704418974

1704418975 这一战略是触发战略（trigger strategy）的一种，之所以称为触发战略，是因为如果没有人选择不合作，合作将一直进行下去；一旦有人选择不合作，就会触发其后所有阶段都不再相互合作。如果参与双方都采取这种触发战略，则此无限重复博弈的结果就将是每一阶段选择（R1，R2）。我们首先论证如果δ距1足够近，则采取这种战略，对参与双方都是无限重复博弈的纳什均衡，其后再证明这一纳什均衡是子博弈精炼的，以使论证更为严格。

1704418976

[ 上一页 ] [ :1.704418927e+09 ] [ 下一页 ]