1701032520
混合策略和行为策略
1701032521
1701032522
不完美信息动态博弈中,参与人的混合策略就是为其纯策略集指定一个概率分布。比如对于参与人1,他可以以概率x选择其1#策略,以概率y选择2#策略,以概率z选择3#策略,以概率1-x-y-z选择4#策略。(读者可思考一下,这里为什么用1-x-y-z表示4#策略被采取的概率?)因此,我们可用向量(x,y,z)表示参与人1的混合策略(mixed strategy)。
1701032523
1701032524
行为策略(behavioral strategy)的定义与混合策略有所差别,它是指参与人在其每个信息集上随机选择该信息集所允许的行动。比如,参与人1的一个行为策略可以是:他在信息集I11以概率p选择加注,以概率1-p选择摊牌;在信息I12以概率q选择加注,以概率1-q选择摊牌。这个行为策略可以向量(p,q)表示。
1701032525
1701032526
在有限的不完美信息博弈中,混合策略和行为策略是等价的,也就是说,它们只不过是同一策略的不同表现方式而已。但是,我们发现在分析中以行为策略代替混合策略是有好处的,因为前者可以节省一些变量。比如,参与人1的混合策略需要三维向量来表示,而其行为策略只需要二维向量就可表示。另外,一旦考虑到有限信息动态博弈中也需要用到逆推的思想,那么利用行为策略就可以更方便我们检验策略均衡中的信念一致性(后面会讲到,信念一致性是序贯均衡的必要条件)。
1701032527
1701032528
信念的修正
1701032529
1701032530
不完美信息动态博弈中,博弈的行动常常会蕴涵着一些信号,而参与人也就必须实时根据获得的信息更新自己的信念。
1701032531
1701032532
譬如,在图A-7的博弈中,在信息集I2,参与人2并不知道自己处于哪个历史上,即他只知道参与人1选择加注,却不知1手中牌大牌小。在博弈开始的时候,大家对于运气的选择有一个初始信念(先验的信念),即运气以(0.5,0.5)的概率选择1的牌之大小。如果我们在博弈开始(乃至在1尚未选择行动的时候),我们询问参与人2:“你认为甲有多大可能性拿到的是大牌?”他的答案应是“0.5”。
1701032533
1701032534
现在,设若1已经选择了加注。我们再询问2:“你认为甲有多大可能性拿到的是大牌?”他的答案还是0.5吗?参与人2很可能会这样思考:如果1拿到大牌,而直接摊牌只能赢得1单位,如果加注则可能得到1单位或者2单位,因此1拿到大牌则必然加注;但是若1拿到小牌,直接摊牌将会输掉1单位,如果加注则可能得到1单位也可能失去2单位,因此他不能完全选择摊牌也不能完全选择加注,而只能部分地选择加注或摊牌;既然他拿到大牌必定加注,而拿到小牌则有时加注,显然我不能一看到他加注就认为大牌小牌的概率各占一半,加注的时候他多半拿了大牌,少半拿了小牌。
1701032535
1701032536
是的,参与人1的行动将改变参与人2的先验信念。但是2如何修正其信念呢?为了使2的信念修正能够得以完成,我们不妨假设出参与人1的行为策略(p,q),即在信息集I11参与人1以概率p选择加注(从而以1-p选择摊牌),在信息集I12参与人1以概率q选择加注(从而以1-q选择摊牌)。那么,我们容易推出:历史(大,加注),即信息集I2左边的结点,出现的概率是0.5p;历史(小,加注),即信息集I2右边的结点,出现的概率是0.5q。从而,根据本附录第一部分讲到的贝叶斯法则,可推断:
1701032537
1701032538
1701032539
1701032540
1701032541
这里Pr(大|I2)就是在信息集I2参与人2对参与人1拿到大牌的信念修正;Pr(小|I2)就是在信息集I2参与人2对参与人1拿到小牌的信念修正。
1701032542
1701032543
寻找均衡
1701032544
1701032545
不完美信息动态博弈所对应的均衡是(弱)序贯均衡。[3](弱)序贯均衡成立的两个条件是:
1701032546
1701032547
·参与人的策略是彼此的最优反应,即参与人策略是均衡的。在不完美信息动态博弈中,策略的均衡要求,从参与人的每一个信息集出发到终点的局部博弈中,参与人的策略都是对其他人策略的最优反应。这被总结为序贯理性(sequential retionality)条件。
1701032548
1701032549
·给定参与人的信念体系,根据均衡策略调整的参与人信念是一致的。通俗地说,就是参与人会根据其他人的行动进行信念的更新(按照贝叶斯法则),均衡要求更新后的信念与其他人的行动仍是兼容的。这被总结为信念一致性条件。
1701032550
1701032551
回到A-7的例子中,我们可以这样分析该博弈的均衡:
1701032552
1701032553
假设参与人1采取行为策略(p,q),从而在信息集I2参与人2将信念修正为前面(*)式的情况,于是可计算2选择埋牌或开牌的预期收益:
1701032554
1701032555
1701032556
1701032557
1701032558
容易得到:
1701032559
1701032560
·当p>3q,E(埋牌)>E(开牌),2选择埋牌。
1701032561
1701032562
·当p<3q,E(埋牌)<E(开牌),2选择开牌。
1701032563
1701032564
·当p=3q,E(埋牌)=E(开牌),2随机选择埋牌和开牌,不妨假设埋牌的概率为x,开牌的概率为1-x。
1701032565
1701032566
现在,已经获得了2在各种信念条件下的最优反应,再回头讨论各种条件下1的最优反应以及与2的信念一致性。
1701032567
1701032568
·当p>3q,2选择埋牌;给定2埋牌,则拿大牌的参与人1可随机选择摊牌或加注(因此p∈[0,1]),拿小牌的参与人1最好选择加注(因此q=1)。但是,当,p∈[0,1],q=1不可能有p>3q,信念产生冲突。此种条件不存在均衡。
1701032569
[
上一页 ]
[ :1.70103252e+09 ]
[
下一页 ]