1701036950
1701036951
对于任何一件事情,问题不在于是否总存在一种好的普遍适用的策略,而是是否存在涵盖所有可能情况的策略行为的一系列最优的准则。事实上,对于二人零和博弈,答案是肯定的。利用冯·诺依曼1928年发表的论文中的最小最大化原理,一定可以找到这种最佳策略。他的关于这个原理的证明是出了名的复杂。但是其本质精华可以被提炼为简单易记的道理:打扑克时,虚张声势不可避免。
1701036952
1701036954
第六节 掌握最小最大化原理
1701036955
1701036956
在二人零和博弈中使用最小最大化原理的奥秘在于,你要铭记,一方赢得什么,另一方就失去什么(这正是零和的定义)。所以,你的策略就是尽可能使自己的收益最大化,这必将使对手的收益最小化。不过,显然你的对手也会这么想。
1701036957
1701036958
当然,由于游戏的原因,很可能不论你玩得多好,最后什么也赢不到。游戏的规则和风险常常是先出招的人获胜,如果你第二个出招,你就输惨了。而且,某些策略可能会导致输得更多,这样一来,你就应当尽量最小化对手的收益(和你的损失)。问题是,采取什么样的策略可以达到这样的效果呢?是不是每次都应该坚守这种策略呢?
1701036959
1701036960
事实证明,在有些博弈中,你的确可能找得到一种纯策略,在这种策略下,不论对手采取什么行动,它都能使你的收益最大化(或损失最小化)。显然,你将使用这个策略,并且如果游戏重复,你将每次重复使用相同的策略。但是有时,受游戏规则的影响,你的最佳选择与对手的选择有关,而你又可能不知道对手的选择,这正是博弈论所感兴趣的。
1701036961
1701036962
首先,我们来看一个简单的例子。假设鲍勃欠爱丽丝10美元,他提议玩个游戏,如果他赢了,他欠的债将被减免(在现实社会中,爱丽丝会要求鲍勃花费多于10美元的代价去郊游野餐来抵消)。但是我们的目的是阐述博弈论思想,假设爱丽丝同意了这笔交易。
1701036963
1701036964
鲍勃建议游戏这么玩:他和爱丽丝在图书馆见面,如果他先到,就付爱丽丝4美元,如果爱丽丝先到,就付爱丽丝6美元,如果两人同时到,鲍勃付5美元(正如我之前说过的,爱丽丝肯定会让他再加大数目的)。
1701036965
1701036966
现在,假设两人住在一起,或者至少是邻居。两人都有两种策略到达图书馆:走路或者乘公共汽车(假设两人都很穷,都没有车,这也是鲍勃会为这10美元折腾的原因)。两人都知道公共汽车会比走路快。因而,这场游戏很简单了,两人都会选择坐公共汽车,这样两人最后同时到达,鲍勃给爱丽丝5美元。下面讲的就是博弈论中的收益矩阵,告诉人们如何选取策略。下表中的数字代表左边一栏中的局中人(爱丽丝)的收益。
1701036967
1701036968
1701036969
1701036970
1701036971
注:在零和博弈中,收益矩阵中的数字代表矩阵左方的局中人(本例中的爱丽丝)的收益(因为是零和博弈,当然也就代表了矩阵上方的局中人鲍勃的损失了)。如果是负数,说明矩阵上方的局中人获得收益(也就意味着爱丽丝的损失)。在非零和博弈中,每一个矩阵单元包含两个数字,分别对应每个局中人(如果局中人更多,那么矩阵将很难写出)。
1701036972
1701036973
显然,爱丽丝必须选择乘公共汽车,因为无论鲍勃如何选择,这至少等同于,甚至高于走路的收益。而鲍勃也会选择乘车,因为不管爱丽丝怎么做,这都会使他的损失最小。选择走路最多有可能出现一样的结果,但也有可能更糟。
1701036974
1701036975
当然,这个例子太简单了,完全用不着博弈论。下面来看一个来自真实的世界战争的例子——博弈论教材的经典案例之一。
1701036976
1701036977
在第二次世界大战中,乔治·肯尼将军得知日军将向新几内亚岛派遣一支补给护航舰队。盟军自然想炸沉这支舰队。但这支舰队可能有两条可行路线——一条到达新不列颠的北边,一条到达南边。
1701036978
1701036979
每条路线都需要3天的行程,所以,原则上说,盟军有3天的袭击敌军的时间。但是,天气影响不可排除。据天气预报,如果走北边路线,会有1天的阴雨天气,使袭击时间最多为2天;而南边路线一直是晴天,为3天时间的轰炸提供清晰的能见度。肯尼将军必须做出选择,是将侦察飞行队派往北边还是南边。如果选择南边,而敌军舰队却走北边的话,他就少了1天的袭击时间(而可行的袭击时间也仅有2天)。如果侦察队去了北边,在敌军舰队走南边的情况下仍然还有2天的袭击时间。
1701036980
1701036981
经过分析,得出收益矩阵。如下表,表中数字代表盟军的收益,即袭击的天数。
1701036982
1701036983
1701036984
1701036985
1701036986
如果只是从盟军的角度来看这个矩阵,并不能一眼看出采取了什么策略。但是从日军的角度出发,很容易得出走北边路线是唯一有意义的方案。如果日军舰队选择南边路线,至少要受到两天的袭击,甚至三天;但是如果选择北边,则最多受到两天袭击(有可能只有一天),这样和选择南边一样或者更好,而不会更差。肯尼将军因此可以肯定日军会让护送舰队走北线,这样一来,盟军当然只能派侦察飞行队也走北线了(事实上,日军最后的确走了北线,在盟军的炮轰下损失惨重)。
1701036987
1701036988
当然,合适的策略并不总是显而易见的。我们重新回到爱丽丝和鲍勃的例子,看看如果爱丽丝拒绝玩鲍勃的这个愚蠢的游戏,会发生什么。在知道如果玩鲍勃的游戏则无论如何也拿不回她的10美元时,爱丽丝会提出另一种玩法,这可让鲍勃费尽脑筋想策略了。
1701036989
1701036990
在爱丽丝的游戏里,他们连续在一个月里每个工作日去图书馆一次。如果两人都是乘车去的,那么鲍勃付爱丽丝3美元;两人都走路去,则付4美元。鲍勃乘车而爱丽丝走路去,因而爱丽丝后到,鲍勃付5美元;鲍勃走路而爱丽丝乘车,因而爱丽丝先到的话,鲍勃付6美元。是不是被搞糊涂了?不要紧,鲍勃也被搞糊涂了。看看下面的收益矩阵吧:
1701036991
1701036992
1701036993
1701036994
1701036995
鲍勃很快就意识到,这个游戏可不简单。如果他乘车去,则只需要付3美元,但是爱丽丝意识到这点后,就会走路去,这样鲍勃就得付5美元了。这样一来,鲍勃可能会决定走路去,因为这样一来,就有可能只付4美元了。可是爱丽丝也会算到这一点,这样她就会乘车,这样的话鲍勃可就得付6美元了。鲍勃和爱丽丝都不知道对方会怎么走,因而也就没有明显的“最佳”战略了。
1701036996
1701036997
不过,要记住这点,爱丽丝有要求这个游戏要重复的进行,总共20次,但并没有哪条规则说你必须每次都采取同样的策略(这就是纯策略了——永远不会改变的策略)。相反的,爱丽丝会意识到她应当采取混合策略,也就是说她会有时乘车,有时走路,这样就能让鲍勃猜不透了。当然鲍勃也会这样做,采取混合策略,让爱丽丝来猜他。
1701036998
1701036999
这其实就是冯·诺依曼天才见解的本质核心内容。在二人零和博弈中,你总是能找得到一种最佳策略,而在很多情况下,最佳策略即混合策略。
[
上一页 ]
[ :1.70103695e+09 ]
[
下一页 ]