打字猴:1.7010676e+09
1701067600
1701067601 假设俄国决定不发展这种武器,如果你决定建造,那美国对俄国的军力就会占优,同时国家也会有财政负担;而如果你决定不建造,那么美国和俄国仍然会维持军力平衡。
1701067602
1701067603 同鲍勃和爱丽丝面临的情形一样,无论俄国怎么做,你最好的选择都是同意建造,因为不管俄国的选择是什么,建造武器都是美国更好的选择。当然,俄国也这样想,因此两国都会决定建造新的核弹,而如果两国都不建造,本来结果会更好。
1701067604
1701067605 这就是囚徒困境悖论——用政治学家阿克塞尔罗德(Robert Axelrod)的话说,“每个人都追求自利,使得所有人的利益都受损。”  [193]  这个悖论指的是群体中的个体由于只顾自身利益,整体上却使得群体所有个体都受损的情形(全球变暖就是典型的这种例子)。经济学家哈丁(Garrett Hardin)有个著名的词描述这种情况——“公地悲剧”。  [194]  
1701067606
1701067607 囚徒困境及其变体作为理想模型体现了合作问题的本质,其影响遍及学术界和商业界,并且改变了各国政府对于核裁军、恐怖主义以及合作管理和规范等现实世界中政策问题的看法。
1701067608
1701067609 囚徒困境通常用两人“博弈”的收益矩阵表示——矩阵中各元素为两个人在各种可能情形下的收益。表14.1给出了囚徒困境收益矩阵的一个例子。博弈的目标是尽可能多得分(蹲监狱的时间尽可能短)。参与者各自决定“合作还是背叛”,各决定一次形成一个回合。也就是说,每个回合中,参与者A和B不能相互商量是否合作(例如,拒绝指证;决定不建造核弹)。如果双方都合作,各得3分。如果A合作而B背叛,则A得0分而B得5分,反之则A得5分而B得0分。如果双方都背叛,则各得1分。前面说了,如果只进行一个回合,则两人合理的策略就是背叛。但如果有多个回合,也就是说,如果双方相互博弈多次,则总是背叛的参与者的收益会远低于学会了相互合作的参与者。互利合作是如何产生的呢?
1701067610
1701067611 表14.1 囚徒困境的收益矩阵
1701067612
1701067613
1701067614
1701067615
1701067616 密歇根大学的政治学家阿克塞尔罗德(图14.3)深入研究了囚徒困境。他在这方面的成果深深影响了许多学科,也让他赢得了许多奖项,包括麦克阿瑟“天才”奖。
1701067617
1701067618 阿克塞尔罗德因为关注军备竞赛,从冷战时期开始研究囚徒困境。他的问题是:“在一个自私的世界里,如果没有中央权威,合作要如何才能出现?”  [195]  阿克塞尔罗德注意到历史上对这个问题最著名的回答是17世纪哲学家霍布斯(Thomas Hobbes)给出的,他认为合作只有在存在中央权威的情况下才有可能产生。  [196]  300年(和无数场战争)之后,爱因斯坦也提出了类似的观点,  [197]  认为在核武器时代要确保和平的唯一途径就是成立高效的世界政府。国际联盟,以及后来的联合国,就是以此为目的成立的,但是都没有成功成立世界政府,或是维持世界和平。
1701067619
1701067620
1701067621
1701067622
1701067623 ▲图14.3 阿克塞尔罗德(密歇根大学复杂系统研究中心提供照片)
1701067624
1701067625 高效的世界政府看来是指望不上了,阿克塞尔罗德想知道,如果没有世界政府是不是也有可能产生合作。他认为通过研究多回合的囚徒困境也许能有助于认识这个问题。阿克塞尔罗德认为,“合作要能够产生”就意味着,不管对手的策略如何变化,从长期来看,合作策略必须比非合作策略的收益更高。而且,如果用达尔文选择对策略进行演化,则种群中的合作策略的比重应当会随时间增加。
1701067626
1701067627 用计算机模拟囚徒困境
1701067628
1701067629 阿克塞尔罗德想知道什么样的策略是好策略,因此他组织了两次囚徒困境竞赛。他让各学科的研究人员提出各自的策略,并根据策略设计能进行囚徒困境博弈的计算机程序,然后在比赛中让这些程序互相博弈。
1701067630
1701067631 回想一下第9章讨论的机器人罗比,策略指的其实就是一组规则,规定了在各种情形中应该采取何种行动。对于囚徒困境来说,策略就是根据对手以前的行为决定下一步是合作还是背叛的规则。
1701067632
1701067633 第一次竞赛收到了14个程序;第二次增加到了63个。每个程序都相互博弈200个回合,根据表14.1中的收益矩阵计算总分。程序可以有记忆——每个程序都能存储一些之前与对手的博弈记录。有些提交来的策略相当复杂,使用统计方法分析其他策略的“心理”。然而,两次竞赛中获胜的策略——平均得分最高——都是所提交的策略中最简单的策略:针锋相对(TIT FOR TAT)。这个策略是数学家拉普波特(Anatol Rapoport)提交的,第一个回合合作,然后在后面的回合中采取对手在前一回合中所使用的策略。也就是说针锋相对策略愿意合作,并且对愿意合作的对手以礼相待。但如果对方背叛,针锋相对策略就会回之以背叛,直到对手又开始合作为止。
1701067634
1701067635 让人吃惊的是,这样简单的策略竟然打败了其他所有策略,尤其是第2次竞赛时参赛者已经知道了针锋相对策略,可以有针对性地与它对抗。然而,在参赛的几十位专家中,没有人能设计出更好的策略。
1701067636
1701067637 根据竞赛结果,阿克塞尔罗德得出了一些一般性结论。他注意到所有成绩好的策略都有友善的特点——他们从不先背叛对方。友善的策略中得分最低的是“绝不宽恕”策略:它开始时合作,但一旦对方背叛,它以后就会一直背叛。而针锋相对策略会以一次背叛惩罚对手的上一次背叛,但如果对手又开始合作,它就会原谅对方,也开始合作。阿克塞尔罗德还注意到,虽然大多数成功的策略既友善也能宽恕对手,但是它们也具有报复性——它们会在背叛发生后很快就进行惩罚。针锋相对策略不仅友善、宽恕和进行报复,它还有一个很重要的特性:行为明确,具有可预见性。对手很容易就能知道针锋相对采取的策略,因此也就能预知它会如何对对手的行为做出反应。这种可预见性对于促进合作很重要。
1701067638
1701067639 有趣的是,阿克塞尔罗德在竞赛之后又进行了一系列实验,用遗传算法演化囚徒困境的策略。策略的适应度就是它与种群中其他策略反复博弈之后的得分。遗传算法演化出的策略行为与针锋相对也是一样的。
1701067640
1701067641 囚徒困境的扩展
1701067642
1701067643 阿克塞尔罗德对囚徒困境的研究在20世纪80年代引起了轰动,尤其是在社会科学中影响很大。人们开始研究它的各种变体——采用不同的收益矩阵、不同的参与人数或者在多方博弈中让各方能选择对手,等等。其中有两个很有趣的实验分别增加了社会规范和空间结构。
1701067644
1701067645 加入社会规范
1701067646
1701067647 阿克塞尔罗德进行了添加社会规范的囚徒困境实验,  [198]  实验中规范表现为在背叛被其他人发现时的社会谴责(用负分表示)。在阿克塞尔罗德的多方博弈中,个体的每次背叛,都有一定的概率被其他个体发现。除了决定合作或背叛的策略,每个个体还有在发现其他个体的背叛行为时决定是否进行惩罚(减分)的策略。
1701067648
1701067649 具体说,每个个体的策略由两个数字组成:背叛的概率(无耻度)和发现背叛行为时进行惩罚的概率(正义度)。在最初的群体中,概率值被随机赋予。
[ 上一页 ]  [ :1.7010676e+09 ]  [ 下一页 ]