打字猴:1.70103252e+09

1701032520 混合策略和行为策略

1701032521

1701032522 不完美信息动态博弈中，参与人的混合策略就是为其纯策略集指定一个概率分布。比如对于参与人1，他可以以概率x选择其1#策略，以概率y选择2#策略，以概率z选择3#策略，以概率1-x-y-z选择4#策略。（读者可思考一下，这里为什么用1-x-y-z表示4#策略被采取的概率？）因此，我们可用向量（x，y，z）表示参与人1的混合策略（mixed strategy）。

1701032523

1701032524 行为策略（behavioral strategy）的定义与混合策略有所差别，它是指参与人在其每个信息集上随机选择该信息集所允许的行动。比如，参与人1的一个行为策略可以是：他在信息集I11以概率p选择加注，以概率1-p选择摊牌；在信息I12以概率q选择加注，以概率1-q选择摊牌。这个行为策略可以向量（p，q）表示。

1701032525

1701032526 在有限的不完美信息博弈中，混合策略和行为策略是等价的，也就是说，它们只不过是同一策略的不同表现方式而已。但是，我们发现在分析中以行为策略代替混合策略是有好处的，因为前者可以节省一些变量。比如，参与人1的混合策略需要三维向量来表示，而其行为策略只需要二维向量就可表示。另外，一旦考虑到有限信息动态博弈中也需要用到逆推的思想，那么利用行为策略就可以更方便我们检验策略均衡中的信念一致性（后面会讲到，信念一致性是序贯均衡的必要条件）。

1701032527

1701032528 信念的修正

1701032529

1701032530 不完美信息动态博弈中，博弈的行动常常会蕴涵着一些信号，而参与人也就必须实时根据获得的信息更新自己的信念。

1701032531

1701032532 譬如，在图A-7的博弈中，在信息集I2，参与人2并不知道自己处于哪个历史上，即他只知道参与人1选择加注，却不知1手中牌大牌小。在博弈开始的时候，大家对于运气的选择有一个初始信念（先验的信念），即运气以（0.5，0.5）的概率选择1的牌之大小。如果我们在博弈开始（乃至在1尚未选择行动的时候），我们询问参与人2：“你认为甲有多大可能性拿到的是大牌？”他的答案应是“0.5”。

1701032533

1701032534 现在，设若1已经选择了加注。我们再询问2：“你认为甲有多大可能性拿到的是大牌？”他的答案还是0.5吗？参与人2很可能会这样思考：如果1拿到大牌，而直接摊牌只能赢得1单位，如果加注则可能得到1单位或者2单位，因此1拿到大牌则必然加注；但是若1拿到小牌，直接摊牌将会输掉1单位，如果加注则可能得到1单位也可能失去2单位，因此他不能完全选择摊牌也不能完全选择加注，而只能部分地选择加注或摊牌；既然他拿到大牌必定加注，而拿到小牌则有时加注，显然我不能一看到他加注就认为大牌小牌的概率各占一半，加注的时候他多半拿了大牌，少半拿了小牌。

1701032535

1701032536 是的，参与人1的行动将改变参与人2的先验信念。但是2如何修正其信念呢？为了使2的信念修正能够得以完成，我们不妨假设出参与人1的行为策略（p，q），即在信息集I11参与人1以概率p选择加注（从而以1-p选择摊牌），在信息集I12参与人1以概率q选择加注（从而以1-q选择摊牌）。那么，我们容易推出：历史（大，加注），即信息集I2左边的结点，出现的概率是0.5p；历史（小，加注），即信息集I2右边的结点，出现的概率是0.5q。从而，根据本附录第一部分讲到的贝叶斯法则，可推断：

1701032537

1701032538

1701032539

1701032540

1701032541 这里Pr（大|I2）就是在信息集I2参与人2对参与人1拿到大牌的信念修正；Pr（小|I2）就是在信息集I2参与人2对参与人1拿到小牌的信念修正。

1701032542

1701032543 寻找均衡

1701032544

1701032545 不完美信息动态博弈所对应的均衡是（弱）序贯均衡。[3]（弱）序贯均衡成立的两个条件是：

1701032546

1701032547 ·参与人的策略是彼此的最优反应，即参与人策略是均衡的。在不完美信息动态博弈中，策略的均衡要求，从参与人的每一个信息集出发到终点的局部博弈中，参与人的策略都是对其他人策略的最优反应。这被总结为序贯理性（sequential retionality）条件。

1701032548

1701032549 ·给定参与人的信念体系，根据均衡策略调整的参与人信念是一致的。通俗地说，就是参与人会根据其他人的行动进行信念的更新（按照贝叶斯法则），均衡要求更新后的信念与其他人的行动仍是兼容的。这被总结为信念一致性条件。

1701032550

1701032551 回到A-7的例子中，我们可以这样分析该博弈的均衡：

1701032552

1701032553 假设参与人1采取行为策略（p，q），从而在信息集I2参与人2将信念修正为前面（*）式的情况，于是可计算2选择埋牌或开牌的预期收益：

1701032554

1701032555

1701032556

1701032557

1701032558 容易得到：

1701032559

1701032560 ·当p＞3q，E（埋牌）＞E（开牌），2选择埋牌。

1701032561

1701032562 ·当p＜3q，E（埋牌）＜E（开牌），2选择开牌。

1701032563

1701032564 ·当p=3q，E（埋牌）=E（开牌），2随机选择埋牌和开牌，不妨假设埋牌的概率为x，开牌的概率为1-x。

1701032565

1701032566 现在，已经获得了2在各种信念条件下的最优反应，再回头讨论各种条件下1的最优反应以及与2的信念一致性。

1701032567

1701032568 ·当p＞3q，2选择埋牌；给定2埋牌，则拿大牌的参与人1可随机选择摊牌或加注（因此p∈[0，1]），拿小牌的参与人1最好选择加注（因此q=1）。但是，当，p∈[0，1]，q=1不可能有p＞3q，信念产生冲突。此种条件不存在均衡。

1701032569

[ 上一页 ] [ :1.70103252e+09 ] [ 下一页 ]