1701032500
1701032501
信息集
1701032502
1701032503
在不完美信息动态博弈中,信息结构主要是依赖于信息集来定义的。信息集中的元素是博弈的历史,如果一个信息集中只有一个博弈历史,那么这个信息集提供的信息就是完美的,如果一个信息集中有不止一个历史,那么这个信息集提供的信息就是不完美的──因为,参与人将不知道该信息集中究竟是哪个博弈历史发生了。
1701032504
1701032505
以图A-7为例,参与人1有两个信息集(在图中分别标记为I11和I12),其中I11={大},I12={小}。因此,参与人1的信息是完美的,一旦他到达某个信息集,他就可以清楚地知道究竟是“大”的历史还是“小”的历史发生了。参与人2只有一个信息集,即图中I2,这里I2={(大,加注),(小,加注)},即它包含了两个博弈历史,一个历史是(大,加注)[1],另一个历史是(小,加注)。[2]在图中,这两个历史以虚线联系表示它们处于同一个信息集(这是不完美信息博弈树的惯用做法)。此时,2的信息是不完美的,因为一旦博弈到达I2,参与人2只知道信息集I2发生了,但是却不知道I2中哪个历史发生了。或者说,他只观察到参与人1加注了,却不知道对方是拿着大牌加注,还是拿着小牌加注。
1701032506
1701032507
策略的定义
1701032508
1701032509
不完美信息动态博弈中,策略可以按如下方式定义:某个参与人的一条完整的(纯)策略,就是在其每个信息集上赋予一个行动而形成的行动计划。一定要牢记的是,这里的策略要求对参与人的每一个信息集赋予一个行动。
1701032510
1701032511
顺便提一句,由于策略是针对每个信息集赋予的一个行动,因此,若有几个博弈历史处于同一信息集,那么这几个历史中任意一个历史发生,轮到其行动的参与人可采取的行动都将是一样的。比如,在图A-7中,信息集I2中,两个历史点后的行动都是埋牌或开牌,我们绝不允许出现在一个历史点上可以选择埋牌或开牌,而在另一个历史点上只能选择开牌之类的情况。为什么要做这样的规定?这本不是一个难以理解的问题,但要说清楚也得费一番口舌,而且把话题又扯远了,姑且让读者自己去思考吧。这里只要求你记住这个规定就可以了。
1701032512
1701032513
回到策略的定义上来。图A-7的参与人1有几个(纯)策略?请一定记住,这里的策略要求对其每一个信息集赋予一个行动。现在参与人1有两个信息集,每个信息集都有两个可选行动,因此他的(纯)策略实际上有如下四个(见表A-1):
1701032514
1701032515
1701032516
1701032517
1701032518
图A-7中参与人2有几个策略?因为他只有唯一的信息集I2,该信息集上只可以选择埋牌或开牌,因此他的策略只有两个:埋牌或开牌。
1701032519
1701032520
混合策略和行为策略
1701032521
1701032522
不完美信息动态博弈中,参与人的混合策略就是为其纯策略集指定一个概率分布。比如对于参与人1,他可以以概率x选择其1#策略,以概率y选择2#策略,以概率z选择3#策略,以概率1-x-y-z选择4#策略。(读者可思考一下,这里为什么用1-x-y-z表示4#策略被采取的概率?)因此,我们可用向量(x,y,z)表示参与人1的混合策略(mixed strategy)。
1701032523
1701032524
行为策略(behavioral strategy)的定义与混合策略有所差别,它是指参与人在其每个信息集上随机选择该信息集所允许的行动。比如,参与人1的一个行为策略可以是:他在信息集I11以概率p选择加注,以概率1-p选择摊牌;在信息I12以概率q选择加注,以概率1-q选择摊牌。这个行为策略可以向量(p,q)表示。
1701032525
1701032526
在有限的不完美信息博弈中,混合策略和行为策略是等价的,也就是说,它们只不过是同一策略的不同表现方式而已。但是,我们发现在分析中以行为策略代替混合策略是有好处的,因为前者可以节省一些变量。比如,参与人1的混合策略需要三维向量来表示,而其行为策略只需要二维向量就可表示。另外,一旦考虑到有限信息动态博弈中也需要用到逆推的思想,那么利用行为策略就可以更方便我们检验策略均衡中的信念一致性(后面会讲到,信念一致性是序贯均衡的必要条件)。
1701032527
1701032528
信念的修正
1701032529
1701032530
不完美信息动态博弈中,博弈的行动常常会蕴涵着一些信号,而参与人也就必须实时根据获得的信息更新自己的信念。
1701032531
1701032532
譬如,在图A-7的博弈中,在信息集I2,参与人2并不知道自己处于哪个历史上,即他只知道参与人1选择加注,却不知1手中牌大牌小。在博弈开始的时候,大家对于运气的选择有一个初始信念(先验的信念),即运气以(0.5,0.5)的概率选择1的牌之大小。如果我们在博弈开始(乃至在1尚未选择行动的时候),我们询问参与人2:“你认为甲有多大可能性拿到的是大牌?”他的答案应是“0.5”。
1701032533
1701032534
现在,设若1已经选择了加注。我们再询问2:“你认为甲有多大可能性拿到的是大牌?”他的答案还是0.5吗?参与人2很可能会这样思考:如果1拿到大牌,而直接摊牌只能赢得1单位,如果加注则可能得到1单位或者2单位,因此1拿到大牌则必然加注;但是若1拿到小牌,直接摊牌将会输掉1单位,如果加注则可能得到1单位也可能失去2单位,因此他不能完全选择摊牌也不能完全选择加注,而只能部分地选择加注或摊牌;既然他拿到大牌必定加注,而拿到小牌则有时加注,显然我不能一看到他加注就认为大牌小牌的概率各占一半,加注的时候他多半拿了大牌,少半拿了小牌。
1701032535
1701032536
是的,参与人1的行动将改变参与人2的先验信念。但是2如何修正其信念呢?为了使2的信念修正能够得以完成,我们不妨假设出参与人1的行为策略(p,q),即在信息集I11参与人1以概率p选择加注(从而以1-p选择摊牌),在信息集I12参与人1以概率q选择加注(从而以1-q选择摊牌)。那么,我们容易推出:历史(大,加注),即信息集I2左边的结点,出现的概率是0.5p;历史(小,加注),即信息集I2右边的结点,出现的概率是0.5q。从而,根据本附录第一部分讲到的贝叶斯法则,可推断:
1701032537
1701032538
1701032539
1701032540
1701032541
这里Pr(大|I2)就是在信息集I2参与人2对参与人1拿到大牌的信念修正;Pr(小|I2)就是在信息集I2参与人2对参与人1拿到小牌的信念修正。
1701032542
1701032543
寻找均衡
1701032544
1701032545
不完美信息动态博弈所对应的均衡是(弱)序贯均衡。[3](弱)序贯均衡成立的两个条件是:
1701032546
1701032547
·参与人的策略是彼此的最优反应,即参与人策略是均衡的。在不完美信息动态博弈中,策略的均衡要求,从参与人的每一个信息集出发到终点的局部博弈中,参与人的策略都是对其他人策略的最优反应。这被总结为序贯理性(sequential retionality)条件。
1701032548
1701032549
·给定参与人的信念体系,根据均衡策略调整的参与人信念是一致的。通俗地说,就是参与人会根据其他人的行动进行信念的更新(按照贝叶斯法则),均衡要求更新后的信念与其他人的行动仍是兼容的。这被总结为信念一致性条件。
[
上一页 ]
[ :1.7010325e+09 ]
[
下一页 ]