打字猴:1.7010676e+09

1701067600

1701067601 假设俄国决定不发展这种武器，如果你决定建造，那美国对俄国的军力就会占优，同时国家也会有财政负担；而如果你决定不建造，那么美国和俄国仍然会维持军力平衡。

1701067602

1701067603 同鲍勃和爱丽丝面临的情形一样，无论俄国怎么做，你最好的选择都是同意建造，因为不管俄国的选择是什么，建造武器都是美国更好的选择。当然，俄国也这样想，因此两国都会决定建造新的核弹，而如果两国都不建造，本来结果会更好。

1701067604

1701067605 这就是囚徒困境悖论——用政治学家阿克塞尔罗德（Robert Axelrod）的话说，“每个人都追求自利，使得所有人的利益都受损。” [193] 这个悖论指的是群体中的个体由于只顾自身利益，整体上却使得群体所有个体都受损的情形（全球变暖就是典型的这种例子）。经济学家哈丁（Garrett Hardin）有个著名的词描述这种情况——“公地悲剧”。 [194]

1701067606

1701067607 囚徒困境及其变体作为理想模型体现了合作问题的本质，其影响遍及学术界和商业界，并且改变了各国政府对于核裁军、恐怖主义以及合作管理和规范等现实世界中政策问题的看法。

1701067608

1701067609 囚徒困境通常用两人“博弈”的收益矩阵表示——矩阵中各元素为两个人在各种可能情形下的收益。表14.1给出了囚徒困境收益矩阵的一个例子。博弈的目标是尽可能多得分（蹲监狱的时间尽可能短）。参与者各自决定“合作还是背叛”，各决定一次形成一个回合。也就是说，每个回合中，参与者A和B不能相互商量是否合作（例如，拒绝指证；决定不建造核弹）。如果双方都合作，各得3分。如果A合作而B背叛，则A得0分而B得5分，反之则A得5分而B得0分。如果双方都背叛，则各得1分。前面说了，如果只进行一个回合，则两人合理的策略就是背叛。但如果有多个回合，也就是说，如果双方相互博弈多次，则总是背叛的参与者的收益会远低于学会了相互合作的参与者。互利合作是如何产生的呢？

1701067610

1701067611 表14.1　囚徒困境的收益矩阵

1701067612

1701067613

1701067614

1701067615

1701067616 密歇根大学的政治学家阿克塞尔罗德（图14.3）深入研究了囚徒困境。他在这方面的成果深深影响了许多学科，也让他赢得了许多奖项，包括麦克阿瑟“天才”奖。

1701067617

1701067618 阿克塞尔罗德因为关注军备竞赛，从冷战时期开始研究囚徒困境。他的问题是：“在一个自私的世界里，如果没有中央权威，合作要如何才能出现？” [195] 阿克塞尔罗德注意到历史上对这个问题最著名的回答是17世纪哲学家霍布斯（Thomas Hobbes）给出的，他认为合作只有在存在中央权威的情况下才有可能产生。 [196] 300年（和无数场战争）之后，爱因斯坦也提出了类似的观点， [197] 认为在核武器时代要确保和平的唯一途径就是成立高效的世界政府。国际联盟，以及后来的联合国，就是以此为目的成立的，但是都没有成功成立世界政府，或是维持世界和平。

1701067619

1701067620

1701067621

1701067622

1701067623 ▲图14.3　阿克塞尔罗德（密歇根大学复杂系统研究中心提供照片）

1701067624

1701067625 高效的世界政府看来是指望不上了，阿克塞尔罗德想知道，如果没有世界政府是不是也有可能产生合作。他认为通过研究多回合的囚徒困境也许能有助于认识这个问题。阿克塞尔罗德认为，“合作要能够产生”就意味着，不管对手的策略如何变化，从长期来看，合作策略必须比非合作策略的收益更高。而且，如果用达尔文选择对策略进行演化，则种群中的合作策略的比重应当会随时间增加。

1701067626

1701067627 用计算机模拟囚徒困境

1701067628

1701067629 阿克塞尔罗德想知道什么样的策略是好策略，因此他组织了两次囚徒困境竞赛。他让各学科的研究人员提出各自的策略，并根据策略设计能进行囚徒困境博弈的计算机程序，然后在比赛中让这些程序互相博弈。

1701067630

1701067631 回想一下第9章讨论的机器人罗比，策略指的其实就是一组规则，规定了在各种情形中应该采取何种行动。对于囚徒困境来说，策略就是根据对手以前的行为决定下一步是合作还是背叛的规则。

1701067632

1701067633 第一次竞赛收到了14个程序；第二次增加到了63个。每个程序都相互博弈200个回合，根据表14.1中的收益矩阵计算总分。程序可以有记忆——每个程序都能存储一些之前与对手的博弈记录。有些提交来的策略相当复杂，使用统计方法分析其他策略的“心理”。然而，两次竞赛中获胜的策略——平均得分最高——都是所提交的策略中最简单的策略：针锋相对（TIT FOR TAT）。这个策略是数学家拉普波特（Anatol Rapoport）提交的，第一个回合合作，然后在后面的回合中采取对手在前一回合中所使用的策略。也就是说针锋相对策略愿意合作，并且对愿意合作的对手以礼相待。但如果对方背叛，针锋相对策略就会回之以背叛，直到对手又开始合作为止。

1701067634

1701067635 让人吃惊的是，这样简单的策略竟然打败了其他所有策略，尤其是第2次竞赛时参赛者已经知道了针锋相对策略，可以有针对性地与它对抗。然而，在参赛的几十位专家中，没有人能设计出更好的策略。

1701067636

1701067637 根据竞赛结果，阿克塞尔罗德得出了一些一般性结论。他注意到所有成绩好的策略都有友善的特点——他们从不先背叛对方。友善的策略中得分最低的是“绝不宽恕”策略：它开始时合作，但一旦对方背叛，它以后就会一直背叛。而针锋相对策略会以一次背叛惩罚对手的上一次背叛，但如果对手又开始合作，它就会原谅对方，也开始合作。阿克塞尔罗德还注意到，虽然大多数成功的策略既友善也能宽恕对手，但是它们也具有报复性——它们会在背叛发生后很快就进行惩罚。针锋相对策略不仅友善、宽恕和进行报复，它还有一个很重要的特性：行为明确，具有可预见性。对手很容易就能知道针锋相对采取的策略，因此也就能预知它会如何对对手的行为做出反应。这种可预见性对于促进合作很重要。

1701067638

1701067639 有趣的是，阿克塞尔罗德在竞赛之后又进行了一系列实验，用遗传算法演化囚徒困境的策略。策略的适应度就是它与种群中其他策略反复博弈之后的得分。遗传算法演化出的策略行为与针锋相对也是一样的。

1701067640

1701067641 囚徒困境的扩展

1701067642

1701067643 阿克塞尔罗德对囚徒困境的研究在20世纪80年代引起了轰动，尤其是在社会科学中影响很大。人们开始研究它的各种变体——采用不同的收益矩阵、不同的参与人数或者在多方博弈中让各方能选择对手，等等。其中有两个很有趣的实验分别增加了社会规范和空间结构。

1701067644

1701067645 加入社会规范

1701067646

1701067647 阿克塞尔罗德进行了添加社会规范的囚徒困境实验， [198] 实验中规范表现为在背叛被其他人发现时的社会谴责（用负分表示）。在阿克塞尔罗德的多方博弈中，个体的每次背叛，都有一定的概率被其他个体发现。除了决定合作或背叛的策略，每个个体还有在发现其他个体的背叛行为时决定是否进行惩罚（减分）的策略。

1701067648

1701067649 具体说，每个个体的策略由两个数字组成：背叛的概率（无耻度）和发现背叛行为时进行惩罚的概率（正义度）。在最初的群体中，概率值被随机赋予。

[ 上一页 ] [ :1.7010676e+09 ] [ 下一页 ]