1704420850
1704420851
企业的一个战略包含了两个决策(在简化的和完整的博弈中都是一样的)。如果企业的利润水平为π时,愿意接受第一期的要价w1,令A1(w1|π)等于1;如果企业利润水平为π并将拒绝w1时,则等于0。类似地,如果企业利润为π,且第一期的要价为w1,企业愿意接受第二期的要价w2,令A2(w2|π,w1)等于1,相同条件下企业拒绝w2,则令A2(w2|π,w1)等于0。企业的一个战略为一对函数[A1(w1|π)],A2(w2|π,w1)。由于在博弈的全过程中企业都有完全信息,其推断也就不必讨论了。
1704420852
1704420853
如果战略[w1,w2(w1)]和[A1(w1|π),A2(w2|π,w1]以及推断[μ1(π),μ2(π/w1)]满足第4.1节给出的要求2、3、4,则构成一个精炼贝叶斯均衡(只要工会的推断存在,就满足要求1),我们将证明博弈存在惟一的精炼贝叶斯均衡。论证最简单的步骤是将要求2用于企业第二阶段的决策A2(w2|π,w1)由于它是博弈的最后一步行动,企业的最优决策为当且仅当π≥w2时,接受w2,而与w1的大小无关。确定了企业战略的这一部分,再把要求2用于工会第二期对工资的要价就十分简单了:对给定的工会的推断μ2(π|w1)和企业随后的战略A2(w2|π,w1),w2应使工会的期望收益最大化。论证比较困难的部分则在于确定推断μ2(π|w1),方法步骤如下:
1704420854
1704420855
开始时,我们先暂时考虑如下的单期谈判问题(在后面我们将把这一问题的结果作为两期问题中第二期的解)。在单期问题中,假设工会的推断为企业利润水平服从[0,π1]区间的均匀分布,这里暂时令π1是任意值。如果工会要价w则企业的最优反应是十分明显的:当且仅当π>w时接受w。那么,工会的问题就可以表示为:
1704420856
1704420857
1704420858
1704420859
1704420860
这里对有意义的工资要价(具体地说,0≤w≤π1)Prob{企业接受w}=(π1-w)/π1。最优的工资要价则为w*(π1)=π1/2。
1704420861
1704420862
现在我们(永远地)回到两期问题。首先我们证明,对任意值的w1和w2,如果工会第一期的要价为w1,并且企业希望其在第二期的要价为w2,则所有利润足够高的企业将会接受w1,而其他情况下拒绝w1。企业接受w1可得的收益为π-w1,拒绝w1但接受w2的收益为δ(π-w2),两个要价都拒绝的收益为0,从而当π>w1>δ(π-w2)或
1704420863
1704420864
1704420865
1704420866
1704420867
时,和w2相比,企业更偏好接受w1,且当π-w1>0时,和两个要价都拒绝相比,企业更偏好接受w1。也就是说,对任意值的w1和w2,π>max{π*(w1,w2),w1}的企业将接受w1,且π<max{π*(w1,w2),w1}的企业将拒绝w1。由于要求2限定了对给定的参与者的后续的战略,企业应该选择最优行动,我们可以对任意值的w1导出A1(w1|π):π>max{π*(w1,w2),w1}的企业将接受w1,且π<max{π*(w1,w2)>W1}的企业将拒绝w1,这里的w2为工会第二期的工资要价w2(w1)。
1704420868
1704420869
现在我们可以推导μ2(π/w1),在第一期要价w1被拒绝工会进入第二期信息集时持有的推断。要求4意味着正确的推断应该为π服从[0,π(w1)]区间的均匀分布,这里的π(w1)表示企业对接受w1和拒绝w1但接受工会第二期的最优要价——w*(π(w1))=π(w1)/2无差异时的π值,第二期的最优要价为前面讨论单期问题时的结果。为理解这一结果,回顾要求4限定工会的推断应该由贝叶斯法则和企业的战略所决定。那么,给定刚才推出的企业战略的开始部分A1(w1|π),工会的推断必须是,如果进入到第二期,企业的类型服从[0,π1]区间上的均匀分布,其中π1=max{π*(w1,w2),w1}且w2为工会第二期的工资要价w2(w1)。给定这样的推断,工会最优的第二期要价一定是w*(π1)=π(w1)/2,据此可以得到π1作为自变量w1的隐函数:
1704420870
1704420871
π1=max{π*(w1,π1/2),w1}.
1704420872
1704420873
为解出这一隐函数,假设w1≥π*(w1,π1/2),则有π1=w1,但这与w1≥π*(w1,π1/2)相矛盾。从而w1<π*(w1,π1/2),于是π1=π*(w1,π1/2)或
1704420874
1704420875
1704420876
1704420877
1704420878
现在我们已经把博弈简化为工会的一个单期最优化问题:给定工会的第一期工资要价w1,我们已明确了企业第一期的最优反应,工会在进入第二期时的推断,工会第二期最优要价以及企业第二期的最优反应,那么,工会选择的第一期工资要价应该满足
1704420879
1704420880
1704420881
1704420882
1704420883
请注意Prob{企业接受w1}并非简单地等于π超出w1的概率,而应该是π超出π1(w1)的概率:
1704420884
1704420885
1704420886
1704420887
1704420888
这一最优化问题的解为w1*,已在分析的开始时给出,且π1*和w2*分别由π1(w1*)和w2(w1*)给出。
1704420889
1704420891
4.3.C 有限重复囚徒困境中的声誉
1704420892
1704420893
在第2.3.A节对有限重复完全信息博弈的分析中,我们证明了如果一个阶段博弈有惟一的纳什均衡,则基于此阶段博弈的任何有限重复博弈有惟一的子博弈精炼纳什均衡:不论博弈前面的过程如何,之后的每一阶段都重复阶段博弈的纳什均衡。但与这一理论结果相反,大量的经验证据表明,在有限重复囚徒困境中经常会出现合作结果,特别是在距博弈结束仍比较远的阶段;参见阿克塞尔罗德(Axelrod,1981)提供的资料。克雷普斯、米尔格龙和威尔逊(1982)证明声誉模型(reputation model)可为此现象提供合理的解释。[7]
1704420894
1704420895
对有限重复囚徒困境中的这种声誉均衡最简单的展开需运用到表示非对称信息的一种新的模型。我们不再假定某方参与者享有关于他自己收益的私人信息,而假定有的参与者享有关于他自己可选择战略集的私人信息。具体地说,我们将假定行(row)参与者只能选择“投桃报李”(Tit-for-Tat)[8]战略(它可使重复博弈以相互合作开始并在其后模仿对方的行动)的概率为p,而行参与者可以选择完全信息重复博弈中任意可行的战略(包括“投桃报李”)的概率为1-p。按通常说法,我们称后一种类型的行参与者为“理性的”。这种方式在表达上的优点在于一旦行参与者偏离了“投桃报李”的战略,则行参与者是理性的就成为共同知识。
1704420896
1704420897
投桃报李战略既十分简单,又合情合理。同时,它还是阿克塞尔罗德关于囚徒困境的竞赛中的优胜战略。然而,也许有人会认为,假定某参与者只有一种可行战略不够合理,即使它是非常具有吸引力的战略。以表达上不再那么简单为代价,也可以假定双方参与者都可以选择任意战略,但行参与者的收益为私人信息,且投桃报李严格优于另外任何战略的概率为p。(在这一假定下,表达变得复杂了,是因为偏离投桃报李战略不再能使行参与者是理性的成为共同知识。)上面的收益与重复博弈中典型的假定不同:为使模仿列参与者的前阶段战略成为最优选择,行参与人的在一个阶段的收益必须依赖于列参与人前一阶段的行动。作为第三种可能性(同样以表达上的复杂为代价),也可以允许一方参与者的阶段博弈中的收益为私人信息,但同时强调一个阶段的收益只依赖于本阶段的行动,并且重复博弈的总收益等于阶段博弈的收益之和。具体地说,我们可以假定参与人对合作的最优反应是合作的概率为p。克雷普斯、米尔格龙和威尔逊(此后简称为KMRW)证明这种类型的单方非对称信息并不能成为导致合作均衡的充分条件,而且每一阶段都会出现坦白,与在完全信息下的情况相同。不过,他们还证明,如果存在相同类型的双方非对称信息(即,如果同样列参与者对合作的最优反应是合作的概率为p),则存在一个合作均衡:双方参与者相互合作,直至博弈的最后很少几个阶段为止。
1704420898
1704420899
在以下的分析中,我们将假定参与者只能够选择投桃报李战略的概率为p。KMRW的分析中心在于:即使p非常小(即:即使列参与人只稍微有一点怀疑行参与人可能是非理性的),这种不确定性也可以产生很大的效果,可从下面几方面来理解。KMRW证明存在一个阶段数的上限,在这之内双方的均衡行为都是坦白,这一上限决定于p的大小和阶段博弈的收益情况,而与重复博弈中的阶段数无关。那么,在一个足够长的重复博弈任何均衡中,双方参与者相互合作的阶段所占部分就会很大(KMRW是在序贯均衡的条件下表述其结论的,但他们的论证同样适用于精炼贝叶斯均衡)。KMRW论证中关键的两步为(i)如果参与者一旦背离了“投桃报李”战略,则行参与人为理性的就成了共同知识,于是此后就不会有参与者再选择合作,于是理性的行参与人就有动机去假扮“投桃报李”类型;(ii)对下面给定的关于阶段博弈收益情况的假定,列参与人对“投桃报李”的最优反应为相互合作,直至博弈的最后一个阶段。
[
上一页 ]
[ :1.70442085e+09 ]
[
下一页 ]