打字猴:1.70442094e+09
1704420940 下面,我们考虑列参与人是否有动机背离。如果列参与人在第一阶段就选择坦白,则投桃报李将在第二阶段选择坦白,理性的行参与人也将在第二阶段选择坦白,因为列参与人肯定会在最后阶段选择坦白。在第一阶段坦白之后,列参与人必须决定在第二阶段是合作还是继续坦白。如果列参与人在第二阶段也坦白,则投桃报李型在第三阶段将选择坦白,于是博弈的进行将如图4.3.7所示。列参与人从这种背离中得到的收益为a,它小于列参与人均衡的期望收益的条件为
1704420941
1704420942 1+p+(1-p)b+pa≥a.
1704420943
1704420944 给定(4.3.2),列参与人不选择这一背离战略的充分条件为
1704420945
1704420946 1+p·a≥a. (4.3.3)
1704420947
1704420948
1704420949
1704420950
1704420951 图4.3.7
1704420952
1704420953 另一种情况是,列参与人的背离战略可以是在第一阶段坦白,但在第二阶段合作,这时投桃报李将在第三阶段选择合作,于是博弈的进行如图4.3.8,列参与人这种背离战略的收益为a+b+p·a,它小于列参与人均衡期望收益的条件为
1704420954
1704420955 1+p(1-p)b+pa≥a+b+pa.
1704420956
1704420957 给定(4.3.2),列参与人不选择这一背离战略的充分条件为
1704420958
1704420959 a+b≤l. (4.3.4)
1704420960
1704420961
1704420962
1704420963
1704420964 图4.3.8
1704420965
1704420966 现在,我们已经证明如果(4.3.2)、(4.3.3)和(4.3.4)成立,则图4.3.6描述的博弈进行为三阶段囚徒困境博弈一个精炼贝叶斯均衡下的均衡路径。对一个给定的p值,如果收益a和b的值处于图4.3.9中的阴影部分,则满足这三个不等式。随p趋于0,这一阴影部分将会消失,这与前面的结论是一致的,即本节中我们分析短期博弈中的合作均衡,它要求足够大的p值,而KMRW则重点分析长期博弈且p值很小的情况。另一方面,如果p值大到足以支持短期博弈中的合作,它的值当然可以支持长期博弈中的合作。正式地,如果a、b和满足(4.3.2)、(4.3.3)及(4.3.4),则对任意有限的T>3,在T阶段重复博弈中存在一个精炼贝叶斯均衡,其中理性的行参与人和列参与人直到T-2阶段之前都选择合作,在其后的T-1阶段和T阶段则如图4.3.5所示。参见附录4.3.C对这一结论的证明。
1704420967
1704420968
1704420969
1704420970
1704420971 图4.3.9
1704420972
1704420973 附录4.3.C
1704420974
1704420975 为使叙述简洁,我们以合作均衡(cooperative equilibrium)表示T期重复囚徒困境中如下的精炼贝叶斯均衡,即理性的行参与人和列参与人从博弈开始直至T-2期全部选择合作,并在其后的T-1期和T期遵循图4.3.5所示的路径。我们将证明,如果a、b和p满足(4.3.2)、(4.3.3)和(4.3.4),则对所有的T>3都存在一个合作均衡。证明使用数学归纳法:如果对每一个τ=2,3,…,T-1,在τ期博弈中都存在合作均衡,则在T期博弈中存在合作均衡。
1704420976
1704420977 首先,我们证明在T期博弈中理性的行参与人没有动机背离合作均衡。如果行参与人在t<T-1中的任一阶段选择坦白,他是理性的就成为共识,于是行参与人在t期得到的收益为a,其后每一期的收益都为0。但行参与人的均衡收益为从t到T-2期每一期都等于1,T-1期的收益为a,共为(T-t-1)+a,于是对任意的t<T-1,坦白都无利可图。图4.3.5中的论证同时表明理性的行参与人在T-1期及T期也没有动机背离。
1704420978
1704420979 其次,我们证明列参与人没有动机背离。关于图4.3.5的论证表明,列参与人没有动机背离合作均衡战略,而在T-2期之前选择合作,并在T-1期选择坦白;关于图4.3.6的论证表明,列参与人没有动机选择如下的背离战略:从开始直到T-3期一直合作,并在T-2期坦白。从而,我们尚需证明列参与人没有动机选择下面的背离战略:从开始直到t-1期一直合作,而在t期坦白,这里的1≤t≤T-3。
1704420980
1704420981 如果列参与人在t期坦白,投桃报李就将在t+1期坦白,而理性的行参与人也将在t+1期选择坦白(因为在t+1期的阶段博弈中,坦白严格优于合作,在其后从t+2到T期至少可以得到0的收益,而在t+1期合作将使得行参与人是理性的成为共同知识,使t+2到T期的收益只能等于0)。由于投桃报李与理性行参与人在t期之前全都选择合作,并都在t+1期坦白,列参与人在t+2期开始时的推断仍为行参与人是投桃报李类的概率为p。因此,如果列参与人在t+1期合作,则从t+2期开始的后一部分的博弈等同于τ=T-(t+2)+1时的τ期博弈。根据归纳法的假定,在这后一部分的τ期博弈中存在一个合作均衡,假定博弈按此均衡进行。则列参与人通过在t期坦白,而在t+1期合作,从t到T共可得到收益
1704420982
1704420983 a+b+[T-(t+2)-l]+p+(l-p)b+pa.
1704420984
1704420985 它小于列参与人从t到T期的均衡收益
1704420986
1704420987 2+[T-(t+2)-l]+p+(l-p)b+pa. (4.3.5)
1704420988
1704420989 至此,我们已证明列参与人没有动机背离均衡,而从开始到t-1期合作,在t期坦白,并在t+1期继续合作,其前提是在从t+2期开始的以后部分的博弈按合作均衡进行。更为一般的,列参与人也可以从开始直至t-1期合作,从t到t+s期坦白,并在t+s+1期合作。先需考虑三种特殊的情况:(1)如果t+s=T(即列参与人自从t期坦白后再不合作),则列参与人在t期收益为a,并在以后收益为0。等同于(4.3.5);(2)如果t+s+1=T,则列参与人从t期到T期的收益为a+b,甚至更低于情况(1);(3)如果t+s+1=T-1,则列参与人从t到T期的收益为a+b+pa,小于(4.3.5)。余下的就是要分析t+s+1<T-1的情况。和上面s=0的情况相同,在从t+s+2期开始的以后部分博弈中存在一个合作均衡,假定博弈按此合作均衡进行。则列参与人选择这一背离战略从t到T期得到的收益为
[ 上一页 ]  [ :1.70442094e+09 ]  [ 下一页 ]