打字猴:1.70442088e+09

1704420880

1704420881

1704420882

1704420883 请注意Prob{企业接受w1}并非简单地等于π超出w1的概率，而应该是π超出π1（w1）的概率：

1704420884

1704420885

1704420886

1704420887

1704420888 这一最优化问题的解为w1*，已在分析的开始时给出，且π1*和w2*分别由π1（w1*）和w2（w1*）给出。

1704420889

1704420890 博弈论基础 [:1704417446]

1704420891 4.3.C 有限重复囚徒困境中的声誉

1704420892

1704420893 在第2.3.A节对有限重复完全信息博弈的分析中，我们证明了如果一个阶段博弈有惟一的纳什均衡，则基于此阶段博弈的任何有限重复博弈有惟一的子博弈精炼纳什均衡：不论博弈前面的过程如何，之后的每一阶段都重复阶段博弈的纳什均衡。但与这一理论结果相反，大量的经验证据表明，在有限重复囚徒困境中经常会出现合作结果，特别是在距博弈结束仍比较远的阶段；参见阿克塞尔罗德（Axelrod，1981）提供的资料。克雷普斯、米尔格龙和威尔逊（1982）证明声誉模型（reputation model）可为此现象提供合理的解释。[7]

1704420894

1704420895 对有限重复囚徒困境中的这种声誉均衡最简单的展开需运用到表示非对称信息的一种新的模型。我们不再假定某方参与者享有关于他自己收益的私人信息，而假定有的参与者享有关于他自己可选择战略集的私人信息。具体地说，我们将假定行（row）参与者只能选择“投桃报李”（Tit-for-Tat）[8]战略（它可使重复博弈以相互合作开始并在其后模仿对方的行动）的概率为p，而行参与者可以选择完全信息重复博弈中任意可行的战略（包括“投桃报李”）的概率为1-p。按通常说法，我们称后一种类型的行参与者为“理性的”。这种方式在表达上的优点在于一旦行参与者偏离了“投桃报李”的战略，则行参与者是理性的就成为共同知识。

1704420896

1704420897 投桃报李战略既十分简单，又合情合理。同时，它还是阿克塞尔罗德关于囚徒困境的竞赛中的优胜战略。然而，也许有人会认为，假定某参与者只有一种可行战略不够合理，即使它是非常具有吸引力的战略。以表达上不再那么简单为代价，也可以假定双方参与者都可以选择任意战略，但行参与者的收益为私人信息，且投桃报李严格优于另外任何战略的概率为p。（在这一假定下，表达变得复杂了，是因为偏离投桃报李战略不再能使行参与者是理性的成为共同知识。）上面的收益与重复博弈中典型的假定不同：为使模仿列参与者的前阶段战略成为最优选择，行参与人的在一个阶段的收益必须依赖于列参与人前一阶段的行动。作为第三种可能性（同样以表达上的复杂为代价），也可以允许一方参与者的阶段博弈中的收益为私人信息，但同时强调一个阶段的收益只依赖于本阶段的行动，并且重复博弈的总收益等于阶段博弈的收益之和。具体地说，我们可以假定参与人对合作的最优反应是合作的概率为p。克雷普斯、米尔格龙和威尔逊（此后简称为KMRW）证明这种类型的单方非对称信息并不能成为导致合作均衡的充分条件，而且每一阶段都会出现坦白，与在完全信息下的情况相同。不过，他们还证明，如果存在相同类型的双方非对称信息（即，如果同样列参与者对合作的最优反应是合作的概率为p），则存在一个合作均衡：双方参与者相互合作，直至博弈的最后很少几个阶段为止。

1704420898

1704420899 在以下的分析中，我们将假定参与者只能够选择投桃报李战略的概率为p。KMRW的分析中心在于：即使p非常小（即：即使列参与人只稍微有一点怀疑行参与人可能是非理性的），这种不确定性也可以产生很大的效果，可从下面几方面来理解。KMRW证明存在一个阶段数的上限，在这之内双方的均衡行为都是坦白，这一上限决定于p的大小和阶段博弈的收益情况，而与重复博弈中的阶段数无关。那么，在一个足够长的重复博弈任何均衡中，双方参与者相互合作的阶段所占部分就会很大（KMRW是在序贯均衡的条件下表述其结论的，但他们的论证同样适用于精炼贝叶斯均衡）。KMRW论证中关键的两步为（i）如果参与者一旦背离了“投桃报李”战略，则行参与人为理性的就成了共同知识，于是此后就不会有参与者再选择合作，于是理性的行参与人就有动机去假扮“投桃报李”类型；（ii）对下面给定的关于阶段博弈收益情况的假定，列参与人对“投桃报李”的最优反应为相互合作，直至博弈的最后一个阶段。

1704420900

1704420901 为了给KMRW模型中的内在机制提供一个简单说明，我们下面考虑其分析的互补情况：不再假定p非常小并分析长时期重复的博弈，而假定p足够大，使得在一个短期重复博弈的均衡中，双方参与者除了最后两个阶段之外都选择相互合作。我们从两阶段的情况开始分析，时间顺序为：

1704420902

1704420903 1.自然为行参与者赋予一种类型。行参与者只能选择“投桃报李”战略的概率为p，可以选择任意战略的概率为1-p。行参与者了解他的类型，但列参与者不知道行参与者的类型。

1704420904

1704420905 2.行、列参与者进行囚徒困境博弈，双方参与者在这一阶段中的选择为共同知识。

1704420906

1704420907 3.行、列参与者第二次，也是最后一次进行囚徒困境博弈。

1704420908

1704420909 4.双方得到各自的收益。理性行、列参与者的收益为各自阶段博弈的收益之和（不考虑贴现）。阶段博弈由图4.3.4给出。

1704420910

1704420911

1704420912

1704420913

1704420914 图4.3.4

1704420915

1704420916 为使这一阶段博弈成为囚徒困境，我们假定a＞1且b＜0。KMRW同时还假定a+b＜2，这使得（如上面（ii）中所要求的）直至博弈的最后一个阶段之前，对投桃报李的最优反应都是进行合作，而不在合作和坦白之间相互转移。

1704420917

1704420918 和在完全信息有限重复囚徒困境中最后一个阶段的情况相同，在这里的两阶段非完全信息博弈的第二阶段，坦白（F）也严格优于合作（C），这对理性的行参与者和列参与者是一样的。由于列参与者肯定在最后一个阶段选择坦白，对理性的行参与者来说，也没有任何理由在第一阶段选择合作。最后，投桃报李的战略使博弈始于相互合作，那么，需要确定的惟一行动便是列参与人第一阶段的行动（X），它将在第二阶段因投桃报李而被模仿，如图4.3.5所示。

1704420919

1704420920

1704420921

1704420922

1704420923 图4.3.5

1704420924

1704420925 通过选择X=C，列参与者在第一阶段得到期望收益p·1+（1-p）·b，且在第二阶段得到p·a。（由于投桃报李的和理性的行参与人在第一阶段选择的行动不同，列参与人在第二阶段开始时就会知道行参与人是投桃报李类型的还是理性的。第二阶段的期望收益p·a则反映了列参与人在决定第一阶段是合作还是坦白时对行参与人类型的不确定性。）通过选择X=F，与之相反，列参与人第一阶段获得p·a，并在第二阶段得到0。因此，下式成立时，列参与人将在第一阶段选择合作

1704420926

1704420927 p+（1-p）b≥0. （4.3.2）

1704420928

1704420929 在后面，我们假定（4.3.2）是成立的。

[ 上一页 ] [ :1.70442088e+09 ] [ 下一页 ]