打字猴:1.701037088e+09

1701037088 纳什均衡与博弈论：纳什博弈论及对自然法则的研究 [:1701036496]

1701037089 第三节　寻求均衡

1701037090

1701037091 关于讨价还价理论的论文本身已确立了纳什作为博弈论领军人物之一的地位，但是真正使他成为博弈论先驱的是他的博士论文。这篇文章引入了最终成为博弈论卓越构架的“纳什均衡”。

1701037092

1701037093 无可非议，均衡的概念对很多科学领域都有着重要的意义。均衡表明事物处于平衡或稳定状态。而稳定性恰恰是了解很多自然过程的核心概念。生态系统、化学和物理系统，甚至社会系统，无不在寻求稳态。因此，确定如何达到稳态常常是预测未来的关键。如果状态不稳定——大多数的情况下都是如此——你可以通过找到获得稳态所需要的条件来预测事物的发展趋势。了解稳态是一种掌握事物发展方向的途径。

1701037094

1701037095 最简单的例子是一块岩石在陡峭的山峰上保持平衡。这不是一个非常稳定的状态，你可以相当确信地预测未来：这块岩石将从山上滚落，在山谷中达到平衡点。另一个常见的有关均衡的例子是你试图在一杯冰茶中溶解太多的糖，在杯子底部就会聚集起一小堆糖。当溶液达到饱和，糖堆中的分子会持续地溶解，但与此同时，其他的一些糖分子会以同样的速率解析出来，落入糖堆。此时这杯茶就处于一个稳定的状态，保持着一定的甜度。

1701037096

1701037097 化学反应也遵循着同样的原则，只是更加复杂一些罢了。化学反应中的稳态表示的是达到一种“化学平衡”，在这种状态中反应物和生成物的数量保持不变。在一个典型的反应中，两种不同的化学物质反应生成第三种新的物质。但大多数情况下前两种物质并不会完全消失，只剩下新生成的物质。一开始，反应物会随着生成物的增加而减少，但最终会达到一个状态，每种物质的量都不再变化。反应仍在进行着——但是当前两种物质反应生成第三种物质时，一部分第三种物质也会分解来补充前两种物质的损耗。换句话说，反应在继续，但总体上并没有改变。

1701037098

1701037099 以上是化学平衡，用数学描述出来即为化学家所谓的质量作用定律。当纳什思考博弈论中的稳态时，他脑子里想的正是与之类似的物质平衡。在他的博士论文中，他用“质量作用”来解释均衡。他还提到，在博弈中，当玩家们对他们策略的收益“有经验上的了解”时，将达到均衡。

1701037100

1701037101 在化学反应中，一旦达到均衡，各种化学物质的量不再发生变化；在博弈中，一旦达到均衡，人们将不再有改变策略的动机——所以对策略的选择将维持不变（换句话说，博弈达到了稳定的状态）。所有的玩家都对自己所采取的策略感到满意，认为当前策略比其他任何策略都要好（只要其他人也不改变策略）。类似的，在社会环境中，稳态指每个人都满足于现状。你不一定喜欢当前的状态，但是改变现状只会让事情变得更糟。因此没有改变的动机，就像山谷里的石头，达到了一个平衡点。

1701037102

1701037103 在二人零和博弈中，你可以用冯·诺依曼的最小最大化原理来确定平衡点。无论采用纯策略还是混合策略，如果偏离博弈论所确定的最佳策略，没有人会获得更多的收益。但是冯·诺依曼并未证明，当你从鲁宾逊·克鲁索与星期五经济系统转移到盖里甘岛或曼哈顿岛经济系统时，也会产生类似的稳态解。而且正如你看到的那样，冯·诺依曼认为分析大型经济系统（或博弈）的方法是玩家们形成联盟。

1701037104

1701037105 但是，纳什采用了不同的方法——如他几十年后描述的那样，违背了博弈论的“基本路线”。假设玩家之间不存在联盟或者合作。并且每个玩家都追求效用的最大化。是否存在着一组策略使博弈达到稳态，给予每个玩家可能性的最佳的个人收益（假设每个人都选择了可用的最优策略）？纳什认为答案是肯定的。借助一种称之为“不动点定理”的巧妙的数学技巧，他证明了所有的多人博弈（只要玩家的数目有限）都有一个均衡点。

1701037106

1701037107 通过两种不动点定理的任何一个［分别来自鲁伊兹·布劳威尔（Luitzen Brouwer）和角谷静夫（Shizuo kakutani）］纳什用了不同的方法推导出了他的证明。对不动点定理的详细解释需要复杂的数学，但是展示其核心观点却非常简单。取两张同样的纸，揉皱其中一张，并将它放在另一张之上，在揉皱的纸上必然存在着一点位于平整的纸上和其相对应点的正上方。这个点就是不动点。如果你不相信，可以将一张美国地图放在地板上——在美国境内的任何一块地板都可以（地图代表了揉皱的纸）。不管你将地图放在何处，总有一点会在其对应的真实地点的正上方。将同样的法则用于博弈论中的玩家，纳什证明了总是至少存在一个让所有竞争玩家的策略达到均衡的“稳定”点。

1701037108

1701037109 “均衡点，”他在博士论文中写道，“意味着…在其他玩家的策略不变时，每个玩家采取的混合策略都最大化其自身收益。”换句话说，在博弈中至少存在着这样一种策略组合，如果你改变你的策略（其他任何人的策略都不改变）你会获得比之前差的结果。更通俗地讲，经济学家罗伯特·韦伯（Robert Weber）表示，你可以说“纳什均衡描述了一个没有人犯错的世界是什么样子的。”或者像萨缪尔·鲍尔斯（Samuel Bowles）向我形容的那样，纳什均衡“是一种在其他人的状态给定的条件下，每个人都尽其所能，做到最好。”

1701037110

1701037111 冯·诺依曼对纳什的结果不以为然，因为它的确使博弈论转向了不同的方向。但是最终很多人还是意识到纳什理论的闪光点和有效性。“纳什均衡的概念可能是博弈论中唯一最基础的概念，”鲍尔斯宣称，“绝对的基础。”

1701037112

1701037113 纳什均衡与博弈论：纳什博弈论及对自然法则的研究 [:1701036497]

1701037114 第四节　博弈论的成长

1701037115

1701037116 纳什很快发表了他的均衡理论。1950年的《美国国家科学院院刊》刊登了他一篇简短的（两页）题为《多人博弈中的均衡点》的文章。文章简要地（虽然对非数学家来说不是特别清楚）说明了多人博弈“解”的存在性（解意指存在一组策略，使得没有任何玩家能通过单方面改变其策略而获得更多的收益）。他把这篇文章扩展为他的博士论文，并在1951年的《数学年刊》上发表了名为《非合作博弈》的长文版。

1701037117

1701037118 纳什在他的文章中客气地指出，冯·诺依曼和摩根斯特恩已经建立了一种“富有成效”的二人零和博弈理论。但是，他们的多人博弈理论则仅限用于纳什所讲的“合作”博弈，也就是说它仅限于分析由玩家组成的联盟之间的交互。“我们的理论与此相反，它是建立在没有联盟的基础上的，因为我们假定每个参与者都独立决策，不与其他任何人合作或交流。”换句话说，纳什设想出一种多人博弈的“自私自利”的版本，这也正是他称其为“非合作”博弈论的原因。当你仔细考虑这个理论时，就会发现它很好地概括了很多社会现象。在一个竞争激烈的世界中，纳什均衡描述了每个自利的人如何实现他可能的最大收益。“纳什得出的非合作博弈和合作博弈的区别对这个可能的实现起决定性作用。”博弈论理论家哈罗德·库恩（Harold Kuhn）这样写道。

1701037119

1701037120 对我来说，纳什均衡的真正关键之处在于它将博弈论数学和物理定律进行了类比——博弈论描绘社会系统，物理定律描绘自然系统。在自然界中，每个事物都寻求稳态，也就是寻求一种能量最小的状态。岩石从山峰上滚落因为在山峰上的岩石具有巨大的势能，它滚下山释放了这种能量，这是万有引力的作用。在化学反应中，所有的原子都在寻求一种稳定的、拥有最小能量的排列，这是缘于热力学定律。

1701037121

1701037122 正如在化学反应中所有的原子同时在寻求一个能量最小化的状态一样，在一个经济系统中，所有人都在寻求利益最大化。一个化学反应会达到热力学定律作用所规范的均衡；一个经济系统也将达到博弈论所描述的纳什均衡。

1701037123

1701037124 当然，现实生活并非如此简单。经常存在着复杂的影响因素。一辆推土机可以将岩石推回山上；你可以对一些分子添加化学药品来催化新的反应。当人的因素被包含进来时，各种新的不可预见性使博弈论发挥的领域变得更加复杂（想象一下如果分子能够思考，化学反应将变得多么难以捉摸）。

1701037125

1701037126 然而，纳什的均衡观念却抓住了社会的一个关键特征。运用纳什的数学方法，你可以和适当情形下的博弈作比较，从而得出人们如何在一个社会情境中达到稳态。因此如果你想将博弈论应用于现实生活，你需要设定一种能体现你所关注的现实生活情境本质特征的博弈。而且，即使你不曾注意到，生活中也包含了各种各样的情境需要我们来应对。

1701037127

1701037128 因此，博弈论理论家们已经设计出了比你在Toys R Us玩具店能买到的玩具还要多的博弈。细读博弈论的文献，你便会发现便士匹配博弈、小鸡博弈、公共物品博弈和性别大战，还有猎鹿博弈、最后通牒博弈和“长吸管”博弈，以及数以百计的其他博弈。但至今这些博弈中最有名的是一个被称为“囚徒困境”的博弈。

1701037129

1701037130 纳什均衡与博弈论：纳什博弈论及对自然法则的研究 [:1701036498]

1701037131 第五节　背叛还是合作

1701037132

1701037133 如同在我所有的书里一样，埃德加·爱伦·坡（Edgar Allan Poe）又一次预见了问题的关键点。在《玛丽罗热疑案》中，爱伦·坡描述了一起谋杀案，杜宾侦探相信它是由一个团伙所为。杜宾的策略是以豁免的机会诱使团伙中的第一个成员坦白。“团伙中的每一个人，在这种处境下，并不十分……渴望逃跑，而是害怕背叛，”坡的侦探这样推理，“他急切地更早地背叛，这样他自己就不会被背叛。”很遗憾，爱伦·坡（实际上他本身是个训练有素的数学家）没有思考过如何解决这种背叛问题的数学——否则他可能早在一百年前就提出了博弈论。

1701037134

1701037135 事实上，纳什在普林斯顿的教授，阿尔伯特·乌·塔克（Albert W.Tucker），于1950年第一次在博弈论中描述了囚徒困境。那时塔克正在斯坦福访问，他提到了自己对博弈论的兴趣。塔克意想不到地被邀请在一个研讨会上发言，因此他很快地想到了两名罪犯被警察抓住并被分开审问的场景。

1701037136

1701037137 就像你想的那样，警察们有足够的证据证明两名罪犯次要罪行，但是要使持枪抢劫的主要罪行成立还需要其中一个人来揭发他的同伙。因此，如果两个人都保持沉默，将分别被判一年的刑。但是不管其中的哪个人揭发了同伙，他就将被释放。如果只有一个人招供，他的同伙将被判5年。如果两个人相互出卖，将都被判3年的刑（由于坦白从宽减免两年）。

[ 上一页 ] [ :1.701037088e+09 ] [ 下一页 ]