打字猴:1.70103695e+09

1701036950

1701036951 对于任何一件事情，问题不在于是否总存在一种好的普遍适用的策略，而是是否存在涵盖所有可能情况的策略行为的一系列最优的准则。事实上，对于二人零和博弈，答案是肯定的。利用冯·诺依曼1928年发表的论文中的最小最大化原理，一定可以找到这种最佳策略。他的关于这个原理的证明是出了名的复杂。但是其本质精华可以被提炼为简单易记的道理：打扑克时，虚张声势不可避免。

1701036952

1701036953 纳什均衡与博弈论：纳什博弈论及对自然法则的研究 [:1701036491]

1701036954 第六节　掌握最小最大化原理

1701036955

1701036956 在二人零和博弈中使用最小最大化原理的奥秘在于，你要铭记，一方赢得什么，另一方就失去什么（这正是零和的定义）。所以，你的策略就是尽可能使自己的收益最大化，这必将使对手的收益最小化。不过，显然你的对手也会这么想。

1701036957

1701036958 当然，由于游戏的原因，很可能不论你玩得多好，最后什么也赢不到。游戏的规则和风险常常是先出招的人获胜，如果你第二个出招，你就输惨了。而且，某些策略可能会导致输得更多，这样一来，你就应当尽量最小化对手的收益（和你的损失）。问题是，采取什么样的策略可以达到这样的效果呢？是不是每次都应该坚守这种策略呢？

1701036959

1701036960 事实证明，在有些博弈中，你的确可能找得到一种纯策略，在这种策略下，不论对手采取什么行动，它都能使你的收益最大化（或损失最小化）。显然，你将使用这个策略，并且如果游戏重复，你将每次重复使用相同的策略。但是有时，受游戏规则的影响，你的最佳选择与对手的选择有关，而你又可能不知道对手的选择，这正是博弈论所感兴趣的。

1701036961

1701036962 首先，我们来看一个简单的例子。假设鲍勃欠爱丽丝10美元，他提议玩个游戏，如果他赢了，他欠的债将被减免（在现实社会中，爱丽丝会要求鲍勃花费多于10美元的代价去郊游野餐来抵消）。但是我们的目的是阐述博弈论思想，假设爱丽丝同意了这笔交易。

1701036963

1701036964 鲍勃建议游戏这么玩：他和爱丽丝在图书馆见面，如果他先到，就付爱丽丝4美元，如果爱丽丝先到，就付爱丽丝6美元，如果两人同时到，鲍勃付5美元（正如我之前说过的，爱丽丝肯定会让他再加大数目的）。

1701036965

1701036966 现在，假设两人住在一起，或者至少是邻居。两人都有两种策略到达图书馆：走路或者乘公共汽车（假设两人都很穷，都没有车，这也是鲍勃会为这10美元折腾的原因）。两人都知道公共汽车会比走路快。因而，这场游戏很简单了，两人都会选择坐公共汽车，这样两人最后同时到达，鲍勃给爱丽丝5美元。下面讲的就是博弈论中的收益矩阵，告诉人们如何选取策略。下表中的数字代表左边一栏中的局中人（爱丽丝）的收益。

1701036967

1701036968

1701036969

1701036970

1701036971 注：在零和博弈中，收益矩阵中的数字代表矩阵左方的局中人（本例中的爱丽丝）的收益（因为是零和博弈，当然也就代表了矩阵上方的局中人鲍勃的损失了）。如果是负数，说明矩阵上方的局中人获得收益（也就意味着爱丽丝的损失）。在非零和博弈中，每一个矩阵单元包含两个数字，分别对应每个局中人（如果局中人更多，那么矩阵将很难写出）。

1701036972

1701036973 显然，爱丽丝必须选择乘公共汽车，因为无论鲍勃如何选择，这至少等同于，甚至高于走路的收益。而鲍勃也会选择乘车，因为不管爱丽丝怎么做，这都会使他的损失最小。选择走路最多有可能出现一样的结果，但也有可能更糟。

1701036974

1701036975 当然，这个例子太简单了，完全用不着博弈论。下面来看一个来自真实的世界战争的例子——博弈论教材的经典案例之一。

1701036976

1701036977 在第二次世界大战中，乔治·肯尼将军得知日军将向新几内亚岛派遣一支补给护航舰队。盟军自然想炸沉这支舰队。但这支舰队可能有两条可行路线——一条到达新不列颠的北边，一条到达南边。

1701036978

1701036979 每条路线都需要3天的行程，所以，原则上说，盟军有3天的袭击敌军的时间。但是，天气影响不可排除。据天气预报，如果走北边路线，会有1天的阴雨天气，使袭击时间最多为2天；而南边路线一直是晴天，为3天时间的轰炸提供清晰的能见度。肯尼将军必须做出选择，是将侦察飞行队派往北边还是南边。如果选择南边，而敌军舰队却走北边的话，他就少了1天的袭击时间（而可行的袭击时间也仅有2天）。如果侦察队去了北边，在敌军舰队走南边的情况下仍然还有2天的袭击时间。

1701036980

1701036981 经过分析，得出收益矩阵。如下表，表中数字代表盟军的收益，即袭击的天数。

1701036982

1701036983

1701036984

1701036985

1701036986 如果只是从盟军的角度来看这个矩阵，并不能一眼看出采取了什么策略。但是从日军的角度出发，很容易得出走北边路线是唯一有意义的方案。如果日军舰队选择南边路线，至少要受到两天的袭击，甚至三天；但是如果选择北边，则最多受到两天袭击（有可能只有一天），这样和选择南边一样或者更好，而不会更差。肯尼将军因此可以肯定日军会让护送舰队走北线，这样一来，盟军当然只能派侦察飞行队也走北线了（事实上，日军最后的确走了北线，在盟军的炮轰下损失惨重）。

1701036987

1701036988 当然，合适的策略并不总是显而易见的。我们重新回到爱丽丝和鲍勃的例子，看看如果爱丽丝拒绝玩鲍勃的这个愚蠢的游戏，会发生什么。在知道如果玩鲍勃的游戏则无论如何也拿不回她的10美元时，爱丽丝会提出另一种玩法，这可让鲍勃费尽脑筋想策略了。

1701036989

1701036990 在爱丽丝的游戏里，他们连续在一个月里每个工作日去图书馆一次。如果两人都是乘车去的，那么鲍勃付爱丽丝3美元；两人都走路去，则付4美元。鲍勃乘车而爱丽丝走路去，因而爱丽丝后到，鲍勃付5美元；鲍勃走路而爱丽丝乘车，因而爱丽丝先到的话，鲍勃付6美元。是不是被搞糊涂了？不要紧，鲍勃也被搞糊涂了。看看下面的收益矩阵吧：

1701036991

1701036992

1701036993

1701036994

1701036995 鲍勃很快就意识到，这个游戏可不简单。如果他乘车去，则只需要付3美元，但是爱丽丝意识到这点后，就会走路去，这样鲍勃就得付5美元了。这样一来，鲍勃可能会决定走路去，因为这样一来，就有可能只付4美元了。可是爱丽丝也会算到这一点，这样她就会乘车，这样的话鲍勃可就得付6美元了。鲍勃和爱丽丝都不知道对方会怎么走，因而也就没有明显的“最佳”战略了。

1701036996

1701036997 不过，要记住这点，爱丽丝有要求这个游戏要重复的进行，总共20次，但并没有哪条规则说你必须每次都采取同样的策略（这就是纯策略了——永远不会改变的策略）。相反的，爱丽丝会意识到她应当采取混合策略，也就是说她会有时乘车，有时走路，这样就能让鲍勃猜不透了。当然鲍勃也会这样做，采取混合策略，让爱丽丝来猜他。

1701036998

1701036999 这其实就是冯·诺依曼天才见解的本质核心内容。在二人零和博弈中，你总是能找得到一种最佳策略，而在很多情况下，最佳策略即混合策略。

[ 上一页 ] [ :1.70103695e+09 ] [ 下一页 ]