1701036934
1701036935
这种方法的本质可以从“大家来交易”(let’s make a deal)这个游戏的改进版中看出来[年轻的读者可能对此不熟,这是名噪一时的电视游戏秀,在这个游戏里,主持人芒太·霍尔(Monty Hall)会给游戏选手一个交换他们手中奖品的机会,当然,交换的结果可能是更有价值的东西,但是也得冒着得到一个不值钱小礼物的风险]。假设,芒太给你3个选择:一部宝马敞篷车,一台高端宽屏等离子电视,或者是一辆二手三轮车。我们认为你最想要宝马,其次是电视机,最后是三轮车。在这种情况下对这3种产品的相对效用进行排序是很容易的。难的是怎么抉择,你的选择会得到那台等离子电视,或者50%的机会得到宝马。也就是说,已知电视机在1号门后,宝马则在2号或3号门的后面,另一个后面就是那辆三轮车了。
1701036936
1701036937
这样你就得好好想想了。如果选择1号门,那就意味着你认为电视机的价值比一半宝马的高,但是假设游戏更加复杂,有更多的门,并且获得宝马的机会变成60%甚至70%,怎么办?在某一点,你将可能想去选择获得宝马的机会,这时,你就可以得出结论:效用在数值上是相等的。也就是说,对于你而言,等离子电视机价值等于宝马的75%(为了技术上的精确,还要加上三轮车的25%)。由此,我们得出结论:如果要给“效用”一个数值的价值,就不得不武断地给一种选择赋值,这样一来,利用“大家来交易”里概率的思想,就可以拿这个给定数值的选择和其他选择相比较了。
1701036938
1701036939
到此为止,一切看起来都显得如此合理。但是,还有一个问题:在社会经济中,问题不仅仅是你个人的效用,你必须考虑其他人的选择。在小规模的“盖里甘岛”经济中,纯粹的战略选择可能会被诸如部分游戏参与者之间的联合这样的因素破坏。如何解决呢?热力学理论再一次为我们提供了帮助。
1701036940
1701036941
温度是对分子运动快慢的衡量,总体而言,描述单个分子的速度就像计算鲁宾逊·克鲁索的效用一样简单。但是对于“盖里甘岛”,就变得很困难了,这就像热力学中,要想计算较少数目的相互作用的分子的速度实际上是不可能的。但是如果计算的是亿万以上的分子,情况又不一样了,此时分子间的相互作用趋于平均,利用热力学理论就可以对温度做出精确的预测(当然,这背后的数学是统计力学,在之后关于博弈论经历的章节中,将会看到它更为重要的作用)。
1701036942
1701036943
冯·诺依曼和摩根斯特恩指出:“大数目通常要比小规模的数目更容易处理”。这也正是阿西莫夫(Asimov)在《心灵历史学家》中提出的观点,他认为:对于数目庞大的问题,尽管不能监测每个分子个体,但能预测它们的整体行为,这正是测量气体温度时所使用的方法。这种情况下,可以测量和所有分子的平均速度相关的某个数值,这个数值能反映单个分子之间是如何相互作用的。那么,为什么不能用同样的办法来处理人与人之间的问题呢?哈瑞·塞尔登(Hari Seldon)想到了这一点。对于一个规模足够大的经济,这个方法是适用的。“当参与者的数目变得尤为庞大时,”冯·诺依曼和摩根斯特恩写道,“每个参与者个体的影响就有可能可以忽略不计。”
1701036944
1701036945
借助在书的开端对“效用”建立的坚实的基础,通过将金钱作为对效用的衡量,两位作者后面的工作就进展得很快了。书的主体也就投入了探讨如何寻找获得最多金钱的最佳策略的问题上面。
1701036946
1701036947
基于这一点,一个很重要的问题需要弄明白,那就是书中的策略究竟指的是什么。在博弈论中,策略是一种特定的行为过程,而不是游戏中的一般玩法。例如,这和打网球不同,网球中,策略仅仅指“主动进攻”和“保守打法”。博弈论中的策略是对可能出现的种种情况所做出的一系列的选择。在网球比赛中,你的战略可能是“当对手发球时绝不冲到网前;无论比赛时是平局还是领先都要尽力发球和截球;落后时一定要呆在后场”。当然对其他情况你还有其他的应对策略。
1701036948
1701036949
博弈论中有关策略的另外一个关键点是——“单纯策略”与“混合策略”的区别。在网球赛中,你可能会在每次发球后迅速地冲到网前(这是一个单纯策略),你也可能每3次发球中有一次冲到网前,另两次守在底线(这就是混合策略)。通常,要想让博弈论发挥作用,混合策略是不可或缺的。
1701036950
1701036951
对于任何一件事情,问题不在于是否总存在一种好的普遍适用的策略,而是是否存在涵盖所有可能情况的策略行为的一系列最优的准则。事实上,对于二人零和博弈,答案是肯定的。利用冯·诺依曼1928年发表的论文中的最小最大化原理,一定可以找到这种最佳策略。他的关于这个原理的证明是出了名的复杂。但是其本质精华可以被提炼为简单易记的道理:打扑克时,虚张声势不可避免。
1701036952
1701036954
第六节 掌握最小最大化原理
1701036955
1701036956
在二人零和博弈中使用最小最大化原理的奥秘在于,你要铭记,一方赢得什么,另一方就失去什么(这正是零和的定义)。所以,你的策略就是尽可能使自己的收益最大化,这必将使对手的收益最小化。不过,显然你的对手也会这么想。
1701036957
1701036958
当然,由于游戏的原因,很可能不论你玩得多好,最后什么也赢不到。游戏的规则和风险常常是先出招的人获胜,如果你第二个出招,你就输惨了。而且,某些策略可能会导致输得更多,这样一来,你就应当尽量最小化对手的收益(和你的损失)。问题是,采取什么样的策略可以达到这样的效果呢?是不是每次都应该坚守这种策略呢?
1701036959
1701036960
事实证明,在有些博弈中,你的确可能找得到一种纯策略,在这种策略下,不论对手采取什么行动,它都能使你的收益最大化(或损失最小化)。显然,你将使用这个策略,并且如果游戏重复,你将每次重复使用相同的策略。但是有时,受游戏规则的影响,你的最佳选择与对手的选择有关,而你又可能不知道对手的选择,这正是博弈论所感兴趣的。
1701036961
1701036962
首先,我们来看一个简单的例子。假设鲍勃欠爱丽丝10美元,他提议玩个游戏,如果他赢了,他欠的债将被减免(在现实社会中,爱丽丝会要求鲍勃花费多于10美元的代价去郊游野餐来抵消)。但是我们的目的是阐述博弈论思想,假设爱丽丝同意了这笔交易。
1701036963
1701036964
鲍勃建议游戏这么玩:他和爱丽丝在图书馆见面,如果他先到,就付爱丽丝4美元,如果爱丽丝先到,就付爱丽丝6美元,如果两人同时到,鲍勃付5美元(正如我之前说过的,爱丽丝肯定会让他再加大数目的)。
1701036965
1701036966
现在,假设两人住在一起,或者至少是邻居。两人都有两种策略到达图书馆:走路或者乘公共汽车(假设两人都很穷,都没有车,这也是鲍勃会为这10美元折腾的原因)。两人都知道公共汽车会比走路快。因而,这场游戏很简单了,两人都会选择坐公共汽车,这样两人最后同时到达,鲍勃给爱丽丝5美元。下面讲的就是博弈论中的收益矩阵,告诉人们如何选取策略。下表中的数字代表左边一栏中的局中人(爱丽丝)的收益。
1701036967
1701036968
1701036969
1701036970
1701036971
注:在零和博弈中,收益矩阵中的数字代表矩阵左方的局中人(本例中的爱丽丝)的收益(因为是零和博弈,当然也就代表了矩阵上方的局中人鲍勃的损失了)。如果是负数,说明矩阵上方的局中人获得收益(也就意味着爱丽丝的损失)。在非零和博弈中,每一个矩阵单元包含两个数字,分别对应每个局中人(如果局中人更多,那么矩阵将很难写出)。
1701036972
1701036973
显然,爱丽丝必须选择乘公共汽车,因为无论鲍勃如何选择,这至少等同于,甚至高于走路的收益。而鲍勃也会选择乘车,因为不管爱丽丝怎么做,这都会使他的损失最小。选择走路最多有可能出现一样的结果,但也有可能更糟。
1701036974
1701036975
当然,这个例子太简单了,完全用不着博弈论。下面来看一个来自真实的世界战争的例子——博弈论教材的经典案例之一。
1701036976
1701036977
在第二次世界大战中,乔治·肯尼将军得知日军将向新几内亚岛派遣一支补给护航舰队。盟军自然想炸沉这支舰队。但这支舰队可能有两条可行路线——一条到达新不列颠的北边,一条到达南边。
1701036978
1701036979
每条路线都需要3天的行程,所以,原则上说,盟军有3天的袭击敌军的时间。但是,天气影响不可排除。据天气预报,如果走北边路线,会有1天的阴雨天气,使袭击时间最多为2天;而南边路线一直是晴天,为3天时间的轰炸提供清晰的能见度。肯尼将军必须做出选择,是将侦察飞行队派往北边还是南边。如果选择南边,而敌军舰队却走北边的话,他就少了1天的袭击时间(而可行的袭击时间也仅有2天)。如果侦察队去了北边,在敌军舰队走南边的情况下仍然还有2天的袭击时间。
1701036980
1701036981
经过分析,得出收益矩阵。如下表,表中数字代表盟军的收益,即袭击的天数。
1701036982
1701036983
[
上一页 ]
[ :1.701036934e+09 ]
[
下一页 ]