打字猴:1.704418966e+09

1704418966

1704418967 借助于贴现因子δ，还可以把我们称之为无限重复的博弈解释为一个有限重复的博弈，但在其结束之前重复进行的次数是随机的，设想在博弈的每一阶段完成后，都要掷一枚（加权的）硬币来决定博弈是否结束。如果博弈立刻结束的概率为p，则博弈将至少再进行一个阶段的概率为1-p，在下一阶段将可以得到的收益（如果能继续进行）π，在当前阶段的硬币未掷之前的价值只有（1-p）π/（l+r）。与之相似，在两个阶段之后可能得到的收益（如果后面两个阶段都能继续进行）π，在当前阶段的硬币未掷之前的价值只有（1—p）2π/（1+r）2。令δ=（1-p）/（1+r），则现值π1+δπ2+δ2π3+…既包含了货币的时间价值，又包含了博弈将要结束的可能性。

1704418968

1704418969 下面我们分析无限重复的囚徒困境博弈，其中每一参与者的贴现因子都为δ，且每一参与者在重复博弈中得到的收益等于各自在所有阶段博弈中得到收益的现值。我们将证明尽管阶段博弈中惟一的纳什均衡是不合作——即（L1，L2）——可在无限重复博弈的一个子博弈精炼解中，每一阶段的结果都将是相互合作——即（R1，R2）。论证中要运用我们分析基于图2.3.3的两阶段重复博弈时的思想（在该阶段博弈中我们在囚徒困境的基础上加入了第二个纳什均衡）：如果目前参与者相互合作，则下一阶段他们将选择高收益的均衡结果，否则将选择低收益的均衡结果。两阶段重复博弈和无限重复博弈的不同之处在于，这里下一次可选择的高收益均衡，并不是人为加在阶段博弈之上的另一个均衡结果，而是代表着在下一阶段及其后的继续合作。

1704418970

1704418971 假设参与者i在无限重复博弈的开始选择相互合作的战略，并且当且仅当前面每个阶段参与双方都选择相互合作时，在其后的阶段博弈中也选择相互合作。我们可把参与者i的这一战略正式表述为：

1704418972

1704418973 在第一阶段选择Ri。且在第t阶段，如果所有前面t-1阶段的结果都是（R1，R2），则选择Ri，否则选择Li。

1704418974

1704418975 这一战略是触发战略（trigger strategy）的一种，之所以称为触发战略，是因为如果没有人选择不合作，合作将一直进行下去；一旦有人选择不合作，就会触发其后所有阶段都不再相互合作。如果参与双方都采取这种触发战略，则此无限重复博弈的结果就将是每一阶段选择（R1，R2）。我们首先论证如果δ距1足够近，则采取这种战略，对参与双方都是无限重复博弈的纳什均衡，其后再证明这一纳什均衡是子博弈精炼的，以使论证更为严格。

1704418976

1704418977 为证明采取上述触发战略，对参与双方来讲都是无限重复博弈的纳什均衡，我们将假定参与者i已采取触发战略，并证明在δ与1足够接近的条件下，参与者j的最优反应为也选择同样的战略。由于一旦某阶段的结果偏离了（R1，R2）参与者i将在其后永远选择Li，那么如果某阶段的结果偏离了（R1，R2），参与者j的最优反应同样是在其后永远选择Li。余下的就是计算参与者j在第一阶段的最优反应，以及前面的结果都是（R1，R2）时，下一阶段的最优反应。选择Li将会使当期得到5的收益，但却会触发参与者i的永远不合作战略（从而亦引发参与者j本人的不合作），于是未来每一阶段的收益都将成为1。由于1+δ+δ2+…=1/（1-δ），上述一系列收益的现值为

1704418978

1704418979

1704418980

1704418981

1704418982 采取另外的战略，选择Rj在本期的收益将为4，并且在下一阶段还可得到完全相同的选择机会，令V表示参与者j在（当前和以后每一次面临同样选择时）无限次的选择中总选择最优战略时收益的现值。如果选择Rj是最优的，则

1704418983

1704418984 V=4+δ·V，

1704418985

1704418986 或V=4/（l-δ），因为选择Rj时，下一阶段还有机会进行相同选择。如果选择Lj是最优的，则

1704418987

1704418988

1704418989

1704418990

1704418991 此结果前面已经导出。于是，当且仅当下式成立，选择Rj为最优：

1704418992

1704418993

1704418994

1704418995

1704418996 即δ≥1/4。于是，当且仅当δ≥1/4时，在第一阶段，并且在前面结果都是（R1，R2）的下一阶段，参与者j的最优反应（给定参与者i已采取了触发战略）为Rj。这一结论，再加上前面已证明的，一旦某一阶段的结果偏离了（R1，R2），j的最优反应就是永远选择Lj，我们已经证明当且仅当δ≥1/4时，参与双方都采取触发战略是博弈的纳什均衡。

1704418997

1704418998 下面我们要论证的是这一纳什均衡同时又是子博弈精炼的。为做到这一点，首先定义重复博弈中的以下三个概念：重复博弈中的战略、重复博弈的子博弈以及重复博弈的子博弈精炼纳什均衡。为借助前一节中的简单例子说明这些概念，我们将对有限重复博弈和无限重复博弈中的情况同时给出定义。在上一节，我们基于阶段博弈G={A1，…，An；u1，…，un}定义了有限重复博弈G（T），其中的G是一个完全信息静态博弈，参与者1到n同时从各自的行动空间A1到An中分别选择行动a1到an，得到收益u1（a1，…，an）到un（a1，…，an），现在我们定义类似的无限重复博弈。[17]

1704418999

1704419000 定义给定一个阶段博弈G，令G（∞，δ）表示相应的无限重复博弈，其中G将无限次地重复进行，且参与者的贴现因子都为δ。对每一个t，之前t-1次阶段博弈的结果在t阶段开始进行前都可被观测到，每个参与者在G（∞，δ）中的收益都是该参与者在无限次的阶段博弈中所得收益的现值。

1704419001

1704419002 在所有博弈（无论是重复的还是非重复的）中，参与者的一个战略都是行动的一个完整计划——它包括了该参与者在所有可能的情况下，需要作出选择时的行动。更形象一点讲，如果一个参与者在博弈开始前把一个战略留给他的律师，律师就可以代理该参与者参加博弈，在任何情况下都无需再征询参与者的意见。（指客观上不需要，即各种情况下应该怎么办已由参与者的战略安排好了，而不是指律师可以代理决策——译注）例如——在一个完全信息静态博弈中，一个战略就是一个简单的行动（这也是为什么我们在第1章中将这样的博弈表示为G={S1…，Sn；u1，…，un}，而在本章又表示为G={A1，…，An；u1，un}：对一个完全信息静态博弈而言，参与者i的战略空间Si即简单等于其行动空间Ai）。不过在动态博弈中，一个战略就较为复杂了。

1704419003

1704419004 考虑前一节分析的两阶段囚徒困境，每一个参与者都有两次行动，于是也许有人会认为一个战略就是一对指令（b，c），其中b是第一阶段的行动，c是第二阶段的行动。但第一阶段有四个可能的结果——（L1，L2），（L1，R2），（R1，L2）及（R1，R2）——它们代表了四种不同的情况，每一参与者都可能针对这些情况作出不同的反应。从而，每一参与者的战略就应包含5条指令，表示为（v，w，x，y，z）0这里v为第一阶段的行动，w，x，y及z则表示针对第一阶段的不同结果（L1，L2），（L1，R2），（R1，L2）及（R1，R2），分别应该在第二阶段采取的行动。使用这一表示，“第一阶段选择b，且不论第一阶段出现什么结果，均在第二阶段选择c”这一指示就可写成（b，c，c，c，c），但这一表示方法也可以表示第二阶段行动依赖于第一阶段结果的战略，比如（b，c，c，c，b），它的含义是“第一阶段选择b、如果第一阶段的结果是（R1，R2），则在第二阶段选择b、否则第二阶段选择c”。类似地，在基于图2.3.3的两阶段重复博弈中，每一参与者的战略都包含10条指令——一个第一阶段的行动和9个不同情况下的第二阶段的行动，针对第一阶段每一个可能的结果都有相应的行动。请回顾在对此两阶段重复博弈进行分析时，我们曾考虑过的一个战略，其中参与者第二阶段的行动是依第一阶段结果而确定的：第一阶段选择Mi，如果第一阶段的结果是（M1，M2），则在第二阶段选择Ri，如不是，则选择Li。

1704419005

1704419006 在有限重复博弈G（T）或无限重复博弈G（∞，δ）中，博弈到阶段t的进行过程（history of play through stage t）指各方参与者从阶段1到阶段t所有行动的记录。例如，参与者可能在第一阶段选择（a11，…，an1），在第二阶段选择（a12，…，an2）…，在第t阶段选择（a1t，…，ant），其中对每一参与者i，在阶段s的行动ais属于行动集Ai。

1704419007

1704419008 定义在有限重复博弈G（T）或无限重复博弈G（∞，δ）中，参与者的一个战略特指在每一阶段，针对其前面阶段所有可能的进行过程，参与者将会选择的行动。

1704419009

1704419010 下面我们讨论子博弈。一个子博弈是全部博弈的一部分，当全部博弈进行到任何一个阶段，到此为止的进行过程已成为参与各方的共同知识，而其后尚未开始进行的部分就是一个子博弈（在本节后面的部分我们将给出重复博弈G（T）和G（∞，δ）的子博弈的精确定义，在第2.4.B节还将针对一般的完全信息动态博弈给出子博弈的精确概念）。例如在两阶段囚徒困境中，就有4个子博弈，分别为第一阶段4种可能的结果出现后，第二阶段的博弈。类似地，在基于图2.3.3的两阶段博弈中，存在9个子博弈，因为在第二阶段开始前，第一阶段的博弈可能会出现9个不同的结果，而每种结果出现后，第二阶段的博弈都是一个不同的子博弈。在有限重复博弈G（T）和无限重复博弈中G（∞，δ）中，战略的定义和子博弈的定义关系非常密切：参与者的一个战略指该参与者在博弈的第一阶段选择的行动以及在其所有子博弈的第一阶段将要选择的行动。

1704419011

1704419012 定义在有限重复博弈G（T）中，由第t+1阶段开始的一个子博弈为G进行：T-t次的重复博弈，可表示为G（T-t）。由第t+1阶段开始有许多子博弈，到t阶段为止的每一可能的进行过程之后都是不同的子博弈。在无限重复博弈G（∞，δ）中，由t+1阶段开始的每个子博弈都等同于初始博弈G（∞，δ），和在有限情况下相似，博弈G（∞，δ）到t阶段为止有多少不同的可能进行过程，就有多少从t+1阶段开始的子博弈。

1704419013

1704419014 有一点务请注意，重复博弈的第t阶段本身（在有限情况下假定t＜T）并不是整个博弈的一个子博弈。子博弈是原博弈的一部分，不只是说博弈到此为止的进行过程已成为全体参与者的共同知识，还包括了原博弈在这一点之后的所有进行。只单独分析第t阶段的博弈就等于把第t阶段看成原重复博弈的最后一个阶段，这样的分析也可能会得到一些结论，但却完全无助于对整个重复博弈的分析。

1704419015

[ 上一页 ] [ :1.704418966e+09 ] [ 下一页 ]