打字猴:1.704418948e+09

1704418948 博弈论基础 [:1704417407]

1704418949 2.3.B 理论：无限重复博弈

1704418950

1704418951 本节我们回到对无限重复博弈的讨论。和前面有限重复博弈的例子相同，问题的中心是关于将来行动的可信的威胁或承诺可以影响到当前的行动。在有限情况的例子中我们已看到，如果阶段博弈G有多个纳什均衡，重复博弈G（T）就可能会存在子博弈精炼解，其中对任意t＜T，阶段t的结果都不是G的纳什均衡。在无限重复博弈中一个更强的结论成立：即使阶段博弈有惟一的纳什均衡，无限重复博弈中也可以存在子博弈精炼解，其中没有一个阶段的结果是G的纳什均衡。

1704418952

1704418953 首先，我们研究无限重复的囚徒困境博弈，接着再讨论和前一节定义的有限重复博弈类型相同的无限重复博弈：一个完全信息静态博弈G，被无限次重复进行，并且在下一阶段开始时，之前所有阶段的结果都可以被观测到。对这一类型的有限重复或无限重复博弈，我们定义参与者的战略、子博弈和子博弈精炼纳什均衡（在第2.4.B节，我们对一般的完全信息动态博弈定义上述概念，而不仅包含这一特定类型的重复博弈）。此后，我们运用这些概念给出并证明弗里德曼（1971）的定理（亦称为无名氏定理[16]）

1704418954

1704418955

1704418956

1704418957

1704418958 图2.3.6

1704418959

1704418960 设想图2.3.6的囚徒困境将无限次地重复进行，并且对每个t，在第t阶段开始前的t-1次阶段博弈的结果都可被观测到。将这无限次阶段博弈的收益简单相加，对衡量参与者在无限次重复博弈中的总收益并无太大意义，比如每一阶段得到的收益为4显然要优于每一阶段得到的收益为1，但两者之和却都是无穷大。前面讲过（鲁宾斯坦的讨价还价模型，第2.1.D节）贴现因子δ=1/（1+r）为一个时期后的一美元今天的价值，其中r为每一阶段的利率。给定一个贴现因子及参与者在无限次博弈中每次的收益，我们可以计算收益的现值——如果现在把这笔钱存入银行，在一定期间结束时，银行存款的余额与那时可得到的金额相等。

1704418961

1704418962 定义给定贴现因子δ，无限的收益序列π1，π2，π3，…的现值为

1704418963

1704418964

1704418965

1704418966

1704418967 借助于贴现因子δ，还可以把我们称之为无限重复的博弈解释为一个有限重复的博弈，但在其结束之前重复进行的次数是随机的，设想在博弈的每一阶段完成后，都要掷一枚（加权的）硬币来决定博弈是否结束。如果博弈立刻结束的概率为p，则博弈将至少再进行一个阶段的概率为1-p，在下一阶段将可以得到的收益（如果能继续进行）π，在当前阶段的硬币未掷之前的价值只有（1-p）π/（l+r）。与之相似，在两个阶段之后可能得到的收益（如果后面两个阶段都能继续进行）π，在当前阶段的硬币未掷之前的价值只有（1—p）2π/（1+r）2。令δ=（1-p）/（1+r），则现值π1+δπ2+δ2π3+…既包含了货币的时间价值，又包含了博弈将要结束的可能性。

1704418968

1704418969 下面我们分析无限重复的囚徒困境博弈，其中每一参与者的贴现因子都为δ，且每一参与者在重复博弈中得到的收益等于各自在所有阶段博弈中得到收益的现值。我们将证明尽管阶段博弈中惟一的纳什均衡是不合作——即（L1，L2）——可在无限重复博弈的一个子博弈精炼解中，每一阶段的结果都将是相互合作——即（R1，R2）。论证中要运用我们分析基于图2.3.3的两阶段重复博弈时的思想（在该阶段博弈中我们在囚徒困境的基础上加入了第二个纳什均衡）：如果目前参与者相互合作，则下一阶段他们将选择高收益的均衡结果，否则将选择低收益的均衡结果。两阶段重复博弈和无限重复博弈的不同之处在于，这里下一次可选择的高收益均衡，并不是人为加在阶段博弈之上的另一个均衡结果，而是代表着在下一阶段及其后的继续合作。

1704418970

1704418971 假设参与者i在无限重复博弈的开始选择相互合作的战略，并且当且仅当前面每个阶段参与双方都选择相互合作时，在其后的阶段博弈中也选择相互合作。我们可把参与者i的这一战略正式表述为：

1704418972

1704418973 在第一阶段选择Ri。且在第t阶段，如果所有前面t-1阶段的结果都是（R1，R2），则选择Ri，否则选择Li。

1704418974

1704418975 这一战略是触发战略（trigger strategy）的一种，之所以称为触发战略，是因为如果没有人选择不合作，合作将一直进行下去；一旦有人选择不合作，就会触发其后所有阶段都不再相互合作。如果参与双方都采取这种触发战略，则此无限重复博弈的结果就将是每一阶段选择（R1，R2）。我们首先论证如果δ距1足够近，则采取这种战略，对参与双方都是无限重复博弈的纳什均衡，其后再证明这一纳什均衡是子博弈精炼的，以使论证更为严格。

1704418976

1704418977 为证明采取上述触发战略，对参与双方来讲都是无限重复博弈的纳什均衡，我们将假定参与者i已采取触发战略，并证明在δ与1足够接近的条件下，参与者j的最优反应为也选择同样的战略。由于一旦某阶段的结果偏离了（R1，R2）参与者i将在其后永远选择Li，那么如果某阶段的结果偏离了（R1，R2），参与者j的最优反应同样是在其后永远选择Li。余下的就是计算参与者j在第一阶段的最优反应，以及前面的结果都是（R1，R2）时，下一阶段的最优反应。选择Li将会使当期得到5的收益，但却会触发参与者i的永远不合作战略（从而亦引发参与者j本人的不合作），于是未来每一阶段的收益都将成为1。由于1+δ+δ2+…=1/（1-δ），上述一系列收益的现值为

1704418978

1704418979

1704418980

1704418981

1704418982 采取另外的战略，选择Rj在本期的收益将为4，并且在下一阶段还可得到完全相同的选择机会，令V表示参与者j在（当前和以后每一次面临同样选择时）无限次的选择中总选择最优战略时收益的现值。如果选择Rj是最优的，则

1704418983

1704418984 V=4+δ·V，

1704418985

1704418986 或V=4/（l-δ），因为选择Rj时，下一阶段还有机会进行相同选择。如果选择Lj是最优的，则

1704418987

1704418988

1704418989

1704418990

1704418991 此结果前面已经导出。于是，当且仅当下式成立，选择Rj为最优：

1704418992

1704418993

1704418994

1704418995

1704418996 即δ≥1/4。于是，当且仅当δ≥1/4时，在第一阶段，并且在前面结果都是（R1，R2）的下一阶段，参与者j的最优反应（给定参与者i已采取了触发战略）为Rj。这一结论，再加上前面已证明的，一旦某一阶段的结果偏离了（R1，R2），j的最优反应就是永远选择Lj，我们已经证明当且仅当δ≥1/4时，参与双方都采取触发战略是博弈的纳什均衡。

1704418997

[ 上一页 ] [ :1.704418948e+09 ] [ 下一页 ]