1704419332
1704419333
3.两参与者的收益分别为u1(a1,a2)和u2(a1,a2),如图2.4.1的博弈树所示。
1704419334
1704419335
这一博弈树始于参与者1的一个决策节(decision node),这时1要从L和R中作出选择,如果参与者1选择L,其后就到达参与者2的一个决策节,这时2要从L’和R’中选择行动。类似地,如果参与者1选择R,则将到达参与者2的另一个决策节,这时2从L’和R’中选择行动。无论2选择了哪一个,都将到达终点节(terminal node)(即博弈结束)且两参与者分别得到相应终点节下面的收益。
1704419336
1704419337
用类似的方法可将图2.4.1的博弈树进行扩展,用来表示所有完全且完美信息动态博弈——即任何参与者顺序行动、对下一行动作出选择之前其前面所有行动都是共同知识,并且每一可能的行动组合下各参与者的收益也是共同知识的博弈。(如斯塔克尔贝里模型中行动空间连续的情况,或鲁宾斯坦模型中行动空间无限的情况,只是给图形表示带来了困难,但从概念上讲却没有任何障碍。)此后我们将导出图2.4.1所示动态博弈的标准式表述,并在本节的最后证明静态博弈也可以给出扩展式表述,并介绍如何构建完全非完美信息动态博弈的扩展式表述。
1704419338
1704419339
正如在对标准式和扩展式定义中的序号所代表的,标准式定义中“一个参与者可行的战略”(第二条)与扩展式定义中“一个参与者何时行动、他可以如何行动及他了解什么信息”(第2a、2b和2c条),有着非常密切的关系。为把一个动态博弈表示为标准式,我们需把扩展式中的信息转换为对标准式中每一参与者战略空间的描述。为做到这一点,回顾第2.3.B节给出的“战略”的(非正式)定义:
1704419340
1704419341
定义 参与者的一个战略是关于行动的一个完整计划——它明确了在参与者可能会遇到的每一种情况下对可行行动的选择。
1704419342
1704419343
要求参与者的一个战略明确该参与者可能会遇到的每一种情况下的行动选择,看起来似乎是不必要的。不过,很快我们将会看到,如果允许参与者的一个战略中没有明确某些情况下该参与者的行动,我们将无法在完全信息动态博弈中使用纳什均衡概念。在参与者j计算针对参与者i的战略的最优反应时,j需要考虑在每一种情况下i将如何行动,而并非仅考虑在i或j认为最有可能发生的情况下对方的行动。
1704419344
1704419345
在图2.4.1的博弈中,参与者2有两个行动,却有4个战略,因为还存在着两种不同的情况(具体地说,分别是观测到参与者1选择L和观测到参与者1选择R后的情况),参与者2将可能在这两种情况下进行选择:
1704419346
1704419347
战略1:如果参与者1选择L,则选择L’,如果参与者1选择R,则选择L’,表示为(L’,L’);
1704419348
1704419349
战略2:如果参与者1选择L,则选择L’,如果参与者1选择R,则选择R’,表示为(L’,R’);
1704419350
1704419351
战略3:如果参与者1选择L,则选择R’,如果参与者1选择R,则选择L’,表示为(R’,R’);
1704419352
1704419353
战略4:如果参与者1选择L,则选择R’,如果参与者1选择R,则选择R’,表示为(R’,R’)。
1704419354
1704419355
不过对参与者1来讲,有两个行动但同时也只有两个战略:选择L和选择R。参与者1之所以只有两个战略,是因为参与者1行动时只有可能面临一种情况(具体地说,就是在博弈的一开始,这时自然由参与者1行动),于是参与者1的战略空间与其行动空间是相同的,即A1={L,R}。
1704419356
1704419357
给出两参与者的战略空间后,从博弈的扩展式表述导出其标准式表述就十分简单了。用标准式表述中的行表示参与者1的可行战略,列表示参与者2的可行战略,并计算参与者每一可能的战略组合下每人的收益,如图2.4.2所示。
1704419358
1704419359
1704419360
1704419361
1704419362
图2.4.2
1704419363
1704419364
现在我们已证明一个动态博弈可以表示为标准式,下面我们反过来说明一个静态(即同时行动)博弈如何用扩展式表述。要做到这一点,我们要运用第1.1.A节与囚徒困境相关的一个观察结果,静态博弈中参与者不一定要同时行动:每个参与者在选择战略时不知道其他参与者的选择就足够了。正如囚徒困境中分开关押的囚犯可以在任何时间作出他们的决策。从而我们可以把(所谓的)参与者1和2之间的同时行动博弈表示如下:
1704419365
1704419366
1.参与者1从可行集中选择行动a1;
1704419367
1704419368
2.参与者2没有观测到参与者1的行动,并从可行集中选择行动a2;
1704419369
1704419370
3.两参与者的收益分别为u1(a1,a2)和u2(a1,a2)。
1704419371
1704419372
或换一种顺序,参与者2可以首先行动,接着参与者1在没有观测到参与者2行动的情况下行动。回顾我们在第2.1.B节介绍的斯塔克尔贝里博弈,企业2在行动之前观测到企业1的产量,当时还提到一个与之时序完全相同,但信息结构却不同的情况,那里我们证明,在这一序贯行动,并不能观测到其他参与者行动的博弈中,有着和同时行动的古诺博弈相同的纳什均衡。
1704419373
1704419374
为在博弈的扩展式中表示此类不知道以前行动的情况,我们引入一个新的概念——参与者的 信息集 (information set):
1704419375
1704419376
定义 参与者的一个 信息集 指满足以下条件的决策节的集合:
1704419377
1704419378
(i)在此信息集中的每一个节都轮到该参与者行动,且(ii)当博弈的进行达到信息集中的一个结,应该行动的参与者并不知道达到了(或没有达到)信息集中的哪一个节。
1704419379
1704419380
这一定义的第(ii)部分意味着参与者在一个信息集中的每一个决策节都有着相同的可行行动集合,否则该参与者就可通过他面临的不同的可行行动集来推断到达了(或没有到达)某些节。
1704419381
[
上一页 ]
[ :1.704419332e+09 ]
[
下一页 ]