打字猴:1.704420965e+09

1704420965

1704420966 现在，我们已经证明如果（4.3.2）、（4.3.3）和（4.3.4）成立，则图4.3.6描述的博弈进行为三阶段囚徒困境博弈一个精炼贝叶斯均衡下的均衡路径。对一个给定的p值，如果收益a和b的值处于图4.3.9中的阴影部分，则满足这三个不等式。随p趋于0，这一阴影部分将会消失，这与前面的结论是一致的，即本节中我们分析短期博弈中的合作均衡，它要求足够大的p值，而KMRW则重点分析长期博弈且p值很小的情况。另一方面，如果p值大到足以支持短期博弈中的合作，它的值当然可以支持长期博弈中的合作。正式地，如果a、b和满足（4.3.2）、（4.3.3）及（4.3.4），则对任意有限的T＞3，在T阶段重复博弈中存在一个精炼贝叶斯均衡，其中理性的行参与人和列参与人直到T-2阶段之前都选择合作，在其后的T-1阶段和T阶段则如图4.3.5所示。参见附录4.3.C对这一结论的证明。

1704420967

1704420968

1704420969

1704420970

1704420971 图4.3.9

1704420972

1704420973 附录4.3.C

1704420974

1704420975 为使叙述简洁，我们以合作均衡（cooperative equilibrium）表示T期重复囚徒困境中如下的精炼贝叶斯均衡，即理性的行参与人和列参与人从博弈开始直至T-2期全部选择合作，并在其后的T-1期和T期遵循图4.3.5所示的路径。我们将证明，如果a、b和p满足（4.3.2）、（4.3.3）和（4.3.4），则对所有的T＞3都存在一个合作均衡。证明使用数学归纳法：如果对每一个τ=2，3，…，T-1，在τ期博弈中都存在合作均衡，则在T期博弈中存在合作均衡。

1704420976

1704420977 首先，我们证明在T期博弈中理性的行参与人没有动机背离合作均衡。如果行参与人在t＜T-1中的任一阶段选择坦白，他是理性的就成为共识，于是行参与人在t期得到的收益为a，其后每一期的收益都为0。但行参与人的均衡收益为从t到T-2期每一期都等于1，T-1期的收益为a，共为（T-t-1）+a，于是对任意的t＜T-1，坦白都无利可图。图4.3.5中的论证同时表明理性的行参与人在T-1期及T期也没有动机背离。

1704420978

1704420979 其次，我们证明列参与人没有动机背离。关于图4.3.5的论证表明，列参与人没有动机背离合作均衡战略，而在T-2期之前选择合作，并在T-1期选择坦白；关于图4.3.6的论证表明，列参与人没有动机选择如下的背离战略：从开始直到T-3期一直合作，并在T-2期坦白。从而，我们尚需证明列参与人没有动机选择下面的背离战略：从开始直到t-1期一直合作，而在t期坦白，这里的1≤t≤T-3。

1704420980

1704420981 如果列参与人在t期坦白，投桃报李就将在t+1期坦白，而理性的行参与人也将在t+1期选择坦白（因为在t+1期的阶段博弈中，坦白严格优于合作，在其后从t+2到T期至少可以得到0的收益，而在t+1期合作将使得行参与人是理性的成为共同知识，使t+2到T期的收益只能等于0）。由于投桃报李与理性行参与人在t期之前全都选择合作，并都在t+1期坦白，列参与人在t+2期开始时的推断仍为行参与人是投桃报李类的概率为p。因此，如果列参与人在t+1期合作，则从t+2期开始的后一部分的博弈等同于τ=T-（t+2）+1时的τ期博弈。根据归纳法的假定，在这后一部分的τ期博弈中存在一个合作均衡，假定博弈按此均衡进行。则列参与人通过在t期坦白，而在t+1期合作，从t到T共可得到收益

1704420982

1704420983 a+b+[T-（t+2）-l]+p+（l-p）b+pa.

1704420984

1704420985 它小于列参与人从t到T期的均衡收益

1704420986

1704420987 2+[T-（t+2）-l]+p+（l-p）b+pa. （4.3.5）

1704420988

1704420989 至此，我们已证明列参与人没有动机背离均衡，而从开始到t-1期合作，在t期坦白，并在t+1期继续合作，其前提是在从t+2期开始的以后部分的博弈按合作均衡进行。更为一般的，列参与人也可以从开始直至t-1期合作，从t到t+s期坦白，并在t+s+1期合作。先需考虑三种特殊的情况：（1）如果t+s=T（即列参与人自从t期坦白后再不合作），则列参与人在t期收益为a，并在以后收益为0。等同于（4.3.5）；（2）如果t+s+1=T，则列参与人从t期到T期的收益为a+b，甚至更低于情况（1）；（3）如果t+s+1=T-1，则列参与人从t到T期的收益为a+b+pa，小于（4.3.5）。余下的就是要分析t+s+1＜T-1的情况。和上面s=0的情况相同，在从t+s+2期开始的以后部分博弈中存在一个合作均衡，假定博弈按此合作均衡进行。则列参与人选择这一背离战略从t到T期得到的收益为

1704420990

1704420991 a+b+[T-（t+s+2）-1]+p+（l-p）b+pa

1704420992

1704420993 同样小于（4.3.5）。

1704420994

1704420995

1704420996

1704420997

1704420998 博弈论基础 [:1704417447]

1704420999 博弈论基础 4.4 精炼贝叶斯均衡的再精炼

1704421000

1704421001 在第4.1节我们定义了精炼贝叶斯均衡为满足要求1到4的战略和推断，并已知在这样的均衡中，没有参与者的战略包含始于任何信息集的严格劣战略。现在，我们考虑两个更进一步的要求（关于处于均衡路径之外的推断）。第一条的形成出自以下想法：由于精炼贝叶斯均衡排除了参与者i选择的战略包含始于任何信息集的严格劣战略的可能性，要令参与者j相信参与者i将选择这样的战略就是不合理的。

1704421002

1704421003 为对这一思想的理解更为精确，考虑图4.4.1中的博弈，其中有两个纯战略精炼贝叶斯均衡：（L，L’，p=1）和（R，R’，p≤l/2）。[9]这一例子关键的特征在于M为参与者1的一个严格劣战略：选择R可得的收益2超出了参与者1选择M可能得到的所有收益——0和1。那么，要令参与者2相信1可能选择了M是不合理的；正式地，1-p不可能为正，于是p一定等于1。如果推断1-p＞0不合理，则（R，R’，p≤1/2）也不再是精炼贝叶斯均衡，只有（L，L’p=1）成为满足这一要求的惟一的精炼贝叶斯均衡。

1704421004

1704421005

1704421006

1704421007

1704421008 图4.4.1

1704421009

1704421010 这一例子的另外两个特征也值得简要提及。第一，尽管M是严格劣战略，L却不是。如果L也是严格劣战略（比如说1的收益3换成3/2时的情况），则同样的论证意味着p不可能为正，但这又与前面的结果p一定等于1相矛盾。在这样的情况下，这一要求不限制参与者2均衡路径之外的推断；见下文的正式定义。

1704421011

1704421012 第二，这一例子并不是对开始时描述的要求的精确说明，因为M并非只从一个信息集开始成为严格劣战略，而是其本身就是一个严格劣战略。为理解其中的区别，回顾第1.1.B节对严格劣战略的定义：如果存在另外一个战略使对其他参与者每一可能的战略组合，i选择si的收益都严格大于选择s’i的收益，则s’i为i的一个严格劣战略。现在，考虑图4.4.1中博弈的一种扩展情况，其中参与者2在图中1的行动之前有一次行动，并在这最初行动中有两个选择，一个使博弈结束，另一个轮到1在图中1的信息集选择行动。在这一扩展的博弈中，M仍从1的信息集开始成为一个严格劣战略，但M不再是整个博弈的严格劣战略，因为如果2在初始节选择的行动使博弈结束，则L，M和R全都只能得到相同的收益。

1704421013

1704421014 由于在图4.4.1中M为严格劣战略，令参与者2推断1可能已经选择了M当然是不合理的。但严格劣战略这一条件过强，并由此得到的要求又太弱。（因为从一个信息集开始成为严格劣战略的战略要多于整个博弈的严格劣战略，要求j不相信i会选择前一种战略对j推断的限制，要强于要求j不相信i会选择后一种战略对其推断的限制。）在下面，我们仍使用开始时给出的要求：参与者j不相信参与者i会选择从任何信息集成为严格劣战略的战略。下面我们给出这一要求的正式表述。

[ 上一页 ] [ :1.704420965e+09 ] [ 下一页 ]