打字猴:1.704420865e+09

1704420865

1704420866

1704420867 时，和w2相比，企业更偏好接受w1，且当π-w1＞0时，和两个要价都拒绝相比，企业更偏好接受w1。也就是说，对任意值的w1和w2，π＞max{π*（w1，w2），w1}的企业将接受w1，且π＜max{π*（w1，w2），w1}的企业将拒绝w1。由于要求2限定了对给定的参与者的后续的战略，企业应该选择最优行动，我们可以对任意值的w1导出A1（w1|π）：π＞max{π*（w1，w2），w1}的企业将接受w1，且π＜max{π*（w1，w2）＞W1}的企业将拒绝w1，这里的w2为工会第二期的工资要价w2（w1）。

1704420868

1704420869 现在我们可以推导μ2（π/w1），在第一期要价w1被拒绝工会进入第二期信息集时持有的推断。要求4意味着正确的推断应该为π服从[0，π（w1）]区间的均匀分布，这里的π（w1）表示企业对接受w1和拒绝w1但接受工会第二期的最优要价——w*（π（w1））=π（w1）/2无差异时的π值，第二期的最优要价为前面讨论单期问题时的结果。为理解这一结果，回顾要求4限定工会的推断应该由贝叶斯法则和企业的战略所决定。那么，给定刚才推出的企业战略的开始部分A1（w1|π），工会的推断必须是，如果进入到第二期，企业的类型服从[0，π1]区间上的均匀分布，其中π1=max{π*（w1，w2），w1}且w2为工会第二期的工资要价w2（w1）。给定这样的推断，工会最优的第二期要价一定是w*（π1）=π（w1）/2，据此可以得到π1作为自变量w1的隐函数：

1704420870

1704420871 π1=max{π*（w1，π1/2），w1}.

1704420872

1704420873 为解出这一隐函数，假设w1≥π*（w1，π1/2），则有π1=w1，但这与w1≥π*（w1，π1/2）相矛盾。从而w1＜π*（w1，π1/2），于是π1=π*（w1，π1/2）或

1704420874

1704420875

1704420876

1704420877

1704420878 现在我们已经把博弈简化为工会的一个单期最优化问题：给定工会的第一期工资要价w1，我们已明确了企业第一期的最优反应，工会在进入第二期时的推断，工会第二期最优要价以及企业第二期的最优反应，那么，工会选择的第一期工资要价应该满足

1704420879

1704420880

1704420881

1704420882

1704420883 请注意Prob{企业接受w1}并非简单地等于π超出w1的概率，而应该是π超出π1（w1）的概率：

1704420884

1704420885

1704420886

1704420887

1704420888 这一最优化问题的解为w1*，已在分析的开始时给出，且π1*和w2*分别由π1（w1*）和w2（w1*）给出。

1704420889

1704420890 博弈论基础 [:1704417446]

1704420891 4.3.C 有限重复囚徒困境中的声誉

1704420892

1704420893 在第2.3.A节对有限重复完全信息博弈的分析中，我们证明了如果一个阶段博弈有惟一的纳什均衡，则基于此阶段博弈的任何有限重复博弈有惟一的子博弈精炼纳什均衡：不论博弈前面的过程如何，之后的每一阶段都重复阶段博弈的纳什均衡。但与这一理论结果相反，大量的经验证据表明，在有限重复囚徒困境中经常会出现合作结果，特别是在距博弈结束仍比较远的阶段；参见阿克塞尔罗德（Axelrod，1981）提供的资料。克雷普斯、米尔格龙和威尔逊（1982）证明声誉模型（reputation model）可为此现象提供合理的解释。[7]

1704420894

1704420895 对有限重复囚徒困境中的这种声誉均衡最简单的展开需运用到表示非对称信息的一种新的模型。我们不再假定某方参与者享有关于他自己收益的私人信息，而假定有的参与者享有关于他自己可选择战略集的私人信息。具体地说，我们将假定行（row）参与者只能选择“投桃报李”（Tit-for-Tat）[8]战略（它可使重复博弈以相互合作开始并在其后模仿对方的行动）的概率为p，而行参与者可以选择完全信息重复博弈中任意可行的战略（包括“投桃报李”）的概率为1-p。按通常说法，我们称后一种类型的行参与者为“理性的”。这种方式在表达上的优点在于一旦行参与者偏离了“投桃报李”的战略，则行参与者是理性的就成为共同知识。

1704420896

1704420897 投桃报李战略既十分简单，又合情合理。同时，它还是阿克塞尔罗德关于囚徒困境的竞赛中的优胜战略。然而，也许有人会认为，假定某参与者只有一种可行战略不够合理，即使它是非常具有吸引力的战略。以表达上不再那么简单为代价，也可以假定双方参与者都可以选择任意战略，但行参与者的收益为私人信息，且投桃报李严格优于另外任何战略的概率为p。（在这一假定下，表达变得复杂了，是因为偏离投桃报李战略不再能使行参与者是理性的成为共同知识。）上面的收益与重复博弈中典型的假定不同：为使模仿列参与者的前阶段战略成为最优选择，行参与人的在一个阶段的收益必须依赖于列参与人前一阶段的行动。作为第三种可能性（同样以表达上的复杂为代价），也可以允许一方参与者的阶段博弈中的收益为私人信息，但同时强调一个阶段的收益只依赖于本阶段的行动，并且重复博弈的总收益等于阶段博弈的收益之和。具体地说，我们可以假定参与人对合作的最优反应是合作的概率为p。克雷普斯、米尔格龙和威尔逊（此后简称为KMRW）证明这种类型的单方非对称信息并不能成为导致合作均衡的充分条件，而且每一阶段都会出现坦白，与在完全信息下的情况相同。不过，他们还证明，如果存在相同类型的双方非对称信息（即，如果同样列参与者对合作的最优反应是合作的概率为p），则存在一个合作均衡：双方参与者相互合作，直至博弈的最后很少几个阶段为止。

1704420898

1704420899 在以下的分析中，我们将假定参与者只能够选择投桃报李战略的概率为p。KMRW的分析中心在于：即使p非常小（即：即使列参与人只稍微有一点怀疑行参与人可能是非理性的），这种不确定性也可以产生很大的效果，可从下面几方面来理解。KMRW证明存在一个阶段数的上限，在这之内双方的均衡行为都是坦白，这一上限决定于p的大小和阶段博弈的收益情况，而与重复博弈中的阶段数无关。那么，在一个足够长的重复博弈任何均衡中，双方参与者相互合作的阶段所占部分就会很大（KMRW是在序贯均衡的条件下表述其结论的，但他们的论证同样适用于精炼贝叶斯均衡）。KMRW论证中关键的两步为（i）如果参与者一旦背离了“投桃报李”战略，则行参与人为理性的就成了共同知识，于是此后就不会有参与者再选择合作，于是理性的行参与人就有动机去假扮“投桃报李”类型；（ii）对下面给定的关于阶段博弈收益情况的假定，列参与人对“投桃报李”的最优反应为相互合作，直至博弈的最后一个阶段。

1704420900

1704420901 为了给KMRW模型中的内在机制提供一个简单说明，我们下面考虑其分析的互补情况：不再假定p非常小并分析长时期重复的博弈，而假定p足够大，使得在一个短期重复博弈的均衡中，双方参与者除了最后两个阶段之外都选择相互合作。我们从两阶段的情况开始分析，时间顺序为：

1704420902

1704420903 1.自然为行参与者赋予一种类型。行参与者只能选择“投桃报李”战略的概率为p，可以选择任意战略的概率为1-p。行参与者了解他的类型，但列参与者不知道行参与者的类型。

1704420904

1704420905 2.行、列参与者进行囚徒困境博弈，双方参与者在这一阶段中的选择为共同知识。

1704420906

1704420907 3.行、列参与者第二次，也是最后一次进行囚徒困境博弈。

1704420908

1704420909 4.双方得到各自的收益。理性行、列参与者的收益为各自阶段博弈的收益之和（不考虑贴现）。阶段博弈由图4.3.4给出。

1704420910

1704420911

1704420912

1704420913

1704420914 图4.3.4

[ 上一页 ] [ :1.704420865e+09 ] [ 下一页 ]