打字猴:1.70103249e+09
1701032490 既然与记忆有关,不完美信息一定是针对动态博弈而言的。通常我们仍可以用博弈树来加以表示,这就是不完美信息的扩展式。如下的赌牌博弈,是一个典型的不完美信息博弈(图A-7)。
1701032491
1701032492 定义一个不完美信息动态博弈,需要有参与人、行动及其顺序、信息结构、赢利。图A-7中,参与人是运气(chance)、1和2。首先由运气来决定参与人1拿到一张大牌或小牌(概率各1/2),然后由1决定是直接摊牌还是追加赌注;若直接摊牌则博弈结束,1若拿大牌则赢得1单位(2就输掉1单位),否则参与人1输掉1单位(2就赢得1单位)。若1加注,则参与人2决定是埋牌还是开牌,若埋牌,无论如何都输掉1单位(1赢得1单位),若开牌则视1的牌大小而失去或赢得2单位。
1701032493
1701032494
1701032495
1701032496
1701032497 图A-7
1701032498
1701032499 博弈中的信息结构是,一旦运气选择了1的牌大小之后,1立即获得这个信息,但是2并不知道。所以对于2来说,他的信息是不完全的──但是在这里,不完全信息被转化为了不完美信息,就好像2的记忆力很不好,运气刚选择完1的牌大牌小,2马上就忘记了运气是如何选择的。
1701032500
1701032501 信息集
1701032502
1701032503 在不完美信息动态博弈中,信息结构主要是依赖于信息集来定义的。信息集中的元素是博弈的历史,如果一个信息集中只有一个博弈历史,那么这个信息集提供的信息就是完美的,如果一个信息集中有不止一个历史,那么这个信息集提供的信息就是不完美的──因为,参与人将不知道该信息集中究竟是哪个博弈历史发生了。
1701032504
1701032505 以图A-7为例,参与人1有两个信息集(在图中分别标记为I11和I12),其中I11={大},I12={小}。因此,参与人1的信息是完美的,一旦他到达某个信息集,他就可以清楚地知道究竟是“大”的历史还是“小”的历史发生了。参与人2只有一个信息集,即图中I2,这里I2={(大,加注),(小,加注)},即它包含了两个博弈历史,一个历史是(大,加注)[1],另一个历史是(小,加注)。[2]在图中,这两个历史以虚线联系表示它们处于同一个信息集(这是不完美信息博弈树的惯用做法)。此时,2的信息是不完美的,因为一旦博弈到达I2,参与人2只知道信息集I2发生了,但是却不知道I2中哪个历史发生了。或者说,他只观察到参与人1加注了,却不知道对方是拿着大牌加注,还是拿着小牌加注。
1701032506
1701032507 策略的定义
1701032508
1701032509 不完美信息动态博弈中,策略可以按如下方式定义:某个参与人的一条完整的(纯)策略,就是在其每个信息集上赋予一个行动而形成的行动计划。一定要牢记的是,这里的策略要求对参与人的每一个信息集赋予一个行动。
1701032510
1701032511 顺便提一句,由于策略是针对每个信息集赋予的一个行动,因此,若有几个博弈历史处于同一信息集,那么这几个历史中任意一个历史发生,轮到其行动的参与人可采取的行动都将是一样的。比如,在图A-7中,信息集I2中,两个历史点后的行动都是埋牌或开牌,我们绝不允许出现在一个历史点上可以选择埋牌或开牌,而在另一个历史点上只能选择开牌之类的情况。为什么要做这样的规定?这本不是一个难以理解的问题,但要说清楚也得费一番口舌,而且把话题又扯远了,姑且让读者自己去思考吧。这里只要求你记住这个规定就可以了。
1701032512
1701032513 回到策略的定义上来。图A-7的参与人1有几个(纯)策略?请一定记住,这里的策略要求对其每一个信息集赋予一个行动。现在参与人1有两个信息集,每个信息集都有两个可选行动,因此他的(纯)策略实际上有如下四个(见表A-1):
1701032514
1701032515
1701032516
1701032517
1701032518 图A-7中参与人2有几个策略?因为他只有唯一的信息集I2,该信息集上只可以选择埋牌或开牌,因此他的策略只有两个:埋牌或开牌。
1701032519
1701032520 混合策略和行为策略
1701032521
1701032522 不完美信息动态博弈中,参与人的混合策略就是为其纯策略集指定一个概率分布。比如对于参与人1,他可以以概率x选择其1#策略,以概率y选择2#策略,以概率z选择3#策略,以概率1-x-y-z选择4#策略。(读者可思考一下,这里为什么用1-x-y-z表示4#策略被采取的概率?)因此,我们可用向量(x,y,z)表示参与人1的混合策略(mixed strategy)。
1701032523
1701032524 行为策略(behavioral strategy)的定义与混合策略有所差别,它是指参与人在其每个信息集上随机选择该信息集所允许的行动。比如,参与人1的一个行为策略可以是:他在信息集I11以概率p选择加注,以概率1-p选择摊牌;在信息I12以概率q选择加注,以概率1-q选择摊牌。这个行为策略可以向量(p,q)表示。
1701032525
1701032526 在有限的不完美信息博弈中,混合策略和行为策略是等价的,也就是说,它们只不过是同一策略的不同表现方式而已。但是,我们发现在分析中以行为策略代替混合策略是有好处的,因为前者可以节省一些变量。比如,参与人1的混合策略需要三维向量来表示,而其行为策略只需要二维向量就可表示。另外,一旦考虑到有限信息动态博弈中也需要用到逆推的思想,那么利用行为策略就可以更方便我们检验策略均衡中的信念一致性(后面会讲到,信念一致性是序贯均衡的必要条件)。
1701032527
1701032528 信念的修正
1701032529
1701032530 不完美信息动态博弈中,博弈的行动常常会蕴涵着一些信号,而参与人也就必须实时根据获得的信息更新自己的信念。
1701032531
1701032532 譬如,在图A-7的博弈中,在信息集I2,参与人2并不知道自己处于哪个历史上,即他只知道参与人1选择加注,却不知1手中牌大牌小。在博弈开始的时候,大家对于运气的选择有一个初始信念(先验的信念),即运气以(0.5,0.5)的概率选择1的牌之大小。如果我们在博弈开始(乃至在1尚未选择行动的时候),我们询问参与人2:“你认为甲有多大可能性拿到的是大牌?”他的答案应是“0.5”。
1701032533
1701032534 现在,设若1已经选择了加注。我们再询问2:“你认为甲有多大可能性拿到的是大牌?”他的答案还是0.5吗?参与人2很可能会这样思考:如果1拿到大牌,而直接摊牌只能赢得1单位,如果加注则可能得到1单位或者2单位,因此1拿到大牌则必然加注;但是若1拿到小牌,直接摊牌将会输掉1单位,如果加注则可能得到1单位也可能失去2单位,因此他不能完全选择摊牌也不能完全选择加注,而只能部分地选择加注或摊牌;既然他拿到大牌必定加注,而拿到小牌则有时加注,显然我不能一看到他加注就认为大牌小牌的概率各占一半,加注的时候他多半拿了大牌,少半拿了小牌。
1701032535
1701032536 是的,参与人1的行动将改变参与人2的先验信念。但是2如何修正其信念呢?为了使2的信念修正能够得以完成,我们不妨假设出参与人1的行为策略(p,q),即在信息集I11参与人1以概率p选择加注(从而以1-p选择摊牌),在信息集I12参与人1以概率q选择加注(从而以1-q选择摊牌)。那么,我们容易推出:历史(大,加注),即信息集I2左边的结点,出现的概率是0.5p;历史(小,加注),即信息集I2右边的结点,出现的概率是0.5q。从而,根据本附录第一部分讲到的贝叶斯法则,可推断:
1701032537
1701032538
1701032539
[ 上一页 ]  [ :1.70103249e+09 ]  [ 下一页 ]