1704419427
对(c)必要性的另一种理解,是(a)只保证了在决策节n应该行动的参与者知道博弈到此为止的整个进行过程,而不能保证其他参与者也知道这一过程,(c)则保证了博弈到该点为止的整个过程在所有参与者中是共同知识,原因如下:在n之后的任何节,比如n’,在n’应该行动的参与者知道博弈到达了决策节n,从而即使n’处于非单节的信息集,由于在该信息集中的所有节都在n之下,在该信息集行动的参与者就知道博弈已经到达了n下面的某个决策节。(如果认为后面的叙述有些拗口,部分因为博弈的标准式表述只明确了在参与者i的每一个决策节i知道的信息,而并没有明确指出在j的决策节i知道的信息。)前面已讲过,图2.4.4就提供了不符合(c)的一个例子。现在,我们可以重新解释这个例子,如果我们(非正式地)分析一下在参与者1选择L之后参与者2的决策节上参与者3知道的信息,就会发现3并不知道博弈到该点为止的全部进行过程,因为在其后3的决策节中,他并不知道1是选择了L还是选择了R。
1704419428
1704419429
在给出子博弈的一般定义之后,我们就可以使用第2.3.B节给出的子博弈精炼纳什均衡的定义了:
1704419430
1704419431
定义(塞尔滕,1965)如果参与者的战略在每一个子博弈中都构成了纳什均衡,则称纳什均衡是 子博弈精炼 的。
1704419432
1704419433
任何有限的完全信息动态博弈(即任何参与者有限、每一参与者的可行战略集有限的博弈)都存在子博弈精炼纳什均衡,也许包含混合战略。这一结论的证明思路非常简单,即根据逆向归纳的原理,构建出子博弈精炼纳什均衡,并基于下面两个观察结论。第一,尽管纳什定理是在完全信息静态博弈的条件下给出的,它适用于任何有限的完全信息的标准式博弈,并且我们已经证明此类博弈既可以是静态的,又可以是动态的。第二,一个有限的完全信息动态博弈的子博弈数也是有限的,而每个子博弈都满足纳什定理的假定。[20]
1704419434
1704419435
我们已介绍过与子博弈精炼纳什均衡密切相关的两个概念:第2.1.A节定义的逆向归纳解和第2.2.A节定义的子博弈精炼解。不太正式地讲,其区别在于一个均衡是战略的集合(战略又是关于行动的完全的计划),而一个解则只对期望将要发生的情况给出相应的行动及结果,而不是针对所有可能发生的情况。要进一步精确界定“均衡”和“解”的区别,并更好地说明子博弈精炼纳什均衡的概念,现在我们重新考虑第2.1.A节和第2.2.A节定义的博弈。
1704419436
1704419437
1704419438
1704419439
定义 在第2.1.A节定义的完全且完美信息两阶段博弈中,逆向归纳解为,但子博弈精炼纳什均衡为
1704419440
1704419441
1704419442
1704419443
1704419444
1704419445
1704419446
1704419447
1704419448
1704419449
1704419450
在这样的博弈中,行动即为参与者1的一个战略,因为参与者1只可能在一种情况下选择行动——即在博弈刚开始,不过对参与者2,却只是一个行动(具体地说,是对的最优反应),而并非一个战略,因为参与者2的一个战略必须包含针对1在第一阶段每个可能的行动,参与者2将采取的行动。从而,参与者2的最优反应函数R2(a1)是其一个战略。在此类博弈中,子博弈始于(并只包含)参与者2在第二阶段的行动。对参与者1的每一个可能行动a1属于A1都存在一个子博弈,从而为证明是一个子博弈精炼纳什均衡,我们必须证明是一个纳什均衡,并且参与者的战略在每一个子博弈中都构成一个纳什均衡。由于子博弈都只是单人决策问题,后一问题就可简单化为要求参与者2的行动在每一子博弈中都是最优的,它又正是参与者2的最优反应函数R2(a1)所解决的问题。最后,是一个纳什均衡,因为参与者的战略互为最优反应:a*是R2(a1)的最优反应,即令u1(a1R2(a1))最大化,并且R2(a1)为a*的最优反应,即令最大化。
1704419451
1704419452
对第2.2.A节分析的博弈,其论证过程是相似的,所以我们只进行简要的讨论。
1704419453
1704419454
1704419455
1704419456
定义 在第2.2.A节定义的完全非完美信息两阶段博弈中,子博弈精炼解为,但子博弈精炼纳什均衡为。
1704419457
1704419458
1704419459
1704419460
1704419461
1704419462
在这一博弈中,行动组合只是参与者3和4之间一个子博弈的纳什均衡,(具体地说,是参与者1和2选定战略后其余部分的博弈)而却分别为参与者3和参与者4的一个战略——针对参与者1和2每一可能行动组合作出反应的完整行动计划。在这一博弈中,子博弈是在给定参与者1和2在第一阶段的行动后,第二阶段参与者3和4之间的博弈,正如子博弈精炼纳什均衡所要求的,战略组合在每一个子博弈中都构成了纳什均衡。
1704419463
1704419464
为总结本节(以及本章)的内容,我们用下面的例子说明本章的主要思想:子博弈精炼剔除了基于不可置信的威胁或承诺之上的纳什均衡。请回顾图2.4.1中的扩展式博弈,如果我们在第2.1.A节遇到这一博弈,我们就会用逆向归纳法求解如下。如果参与者2到达参与者1选择L之后的决策节,则2的最优反应为选择R’(可得到的收益为2),而不是选择L’(只能得到1的收益)。如果2到达参与者1选择R之下的决策节,则2的最优反应为选择L’(可获得的收益为1),而不是R’(可得到的收益为0)。由于参与者1能和参与者2一样解出2的最优选择,1在第一阶段的问题就可归结为在L(将会令参与者2选择R’,从而使1的收益为1)和R(将会使参与者2选择L’,从而使1的收益为2)之间进行选择。从而,参与者1对预期的2的行动的最优反应是在第一阶段选择R,于是博弈的逆向归纳解为(R,L’),如在图2.4.5中用粗线表示出的始于参与者1决策节的路径。图中另外还有一条粗线始自参与者1选择L之后的参与者2的决策节,博弈树中的这种不完全路径表明,如果博弈到达参与者2的这一决策节,参与者2将会选择R’。
1704419465
1704419466
1704419467
1704419468
1704419469
图2.4.5
1704419470
1704419471
我们已讲过,同一博弈的标准式表述由图2.4.2给出。如果我们在第1.1.C节中遇到这么一个标准式博弈,我们将会解出其(纯战略)纳什均衡,它们为(R,(R’,L’))和(L,(R’,R’))下面我们来比较从图2.4.2中解出的这两个纳什均衡与图2.4.5中根据扩展式逆向归纳法导出的结果:标准式表述中的纳什均衡(R,(R’,L’))对应了图2.4.5中的所有粗线路径。在第2.1.A节我们称(R,L’)为博弈的逆向归纳解,因此也可以十分自然地称(R,(R’,L’))为博弈的逆向归纳纳什均衡,但我们用较为专业性的名词称之为子博弈精炼纳什均衡。一个解和一个均衡的区别,在于解特指始于博弈的第一个决策节并终于终点节的惟一的粗线路径,而均衡同时还包含了另外的始自1选择L之后2的决策节的粗体线路径,这也就是说,均衡包含了参与者2的一个完整的战略。
1704419472
1704419473
但另一个纳什均衡(R,(R’,L’))又有什么特点呢?在这一均衡中,参与者2的战略是不仅在参与者1选择L时选择R’(这一条和第一个纳什均衡是相同的),而且当参与者1选择R时仍选择R’。因为(在R之后的)R’将使参与者1的收益为0,参与者1对参与者2这一战略的最优反应将是选择L,以使参与者1的收益达到1(在参与者2选择R’之后),至少优于一无所获。用不太严格却更为形象的话讲,我们可以说参与者2威胁如果参与者1选择R,他将选择R’(严格地讲,在1选择行动之前,2并没有机会作出这一威胁,如果有,它将已经包含在扩展式之中了)。如果这一威胁起作用了(即1选择了L)则2就没有机会实践他的威胁,不过这一威胁也不会起作用,因为它是不可信的:如果参与者2被给予机会实施他的威胁(即如果1的确选择了R),则参与者2将会决定选择L’,而不会是R’。更正式一点儿说,纳什均衡(L,(R’,R’))不是子博弈精炼的,因为参与者的战略在其中的一个子博弈中没有构成纳什均衡。具体地说,参与者2的选择R’在始自(并完全由其组成)参与者1选择R之后参与者2的决策节的子博弈中不是最优的。
1704419474
1704419475
在一个完全且完美信息博弈中,逆向归纳法可剔除不可信威胁。由于每一个信息集都是单节的,博弈树上每个决策节都分别代表了参与者可能会遇到,并需作出反应的情况。从而在扩展式中,通过每个决策节逐级逆向归纳求解的程序,也就可以看成迫使每个参与者考虑实施他可能作出的每一个威胁。但是,在一个非完美信息博弈中,问题就不那么简单了,因为这种博弈包含了至少一个非单节的信息集。我们也可以试着用相同的方法,在扩展式中通过逆推求解,总是会到达某个处于非单节信息集内的决策节。但如果博弈真的到达了这个决策节,强迫参与者考虑如何行动,并不等于让其考虑在一个可能发生的情况下他将如何行动,因为如果博弈真的进行到了这个信息集,应该行动的参与者并无法知道是否到达了这个决策节,正是由于此决策节包含在一个非单节的信息集中。
1704419476
[
上一页 ]
[ :1.704419427e+09 ]
[
下一页 ]