1701067620
1701067621
1701067622
1701067623
▲图14.3 阿克塞尔罗德(密歇根大学复杂系统研究中心提供照片)
1701067624
1701067625
高效的世界政府看来是指望不上了,阿克塞尔罗德想知道,如果没有世界政府是不是也有可能产生合作。他认为通过研究多回合的囚徒困境也许能有助于认识这个问题。阿克塞尔罗德认为,“合作要能够产生”就意味着,不管对手的策略如何变化,从长期来看,合作策略必须比非合作策略的收益更高。而且,如果用达尔文选择对策略进行演化,则种群中的合作策略的比重应当会随时间增加。
1701067626
1701067627
用计算机模拟囚徒困境
1701067628
1701067629
阿克塞尔罗德想知道什么样的策略是好策略,因此他组织了两次囚徒困境竞赛。他让各学科的研究人员提出各自的策略,并根据策略设计能进行囚徒困境博弈的计算机程序,然后在比赛中让这些程序互相博弈。
1701067630
1701067631
回想一下第9章讨论的机器人罗比,策略指的其实就是一组规则,规定了在各种情形中应该采取何种行动。对于囚徒困境来说,策略就是根据对手以前的行为决定下一步是合作还是背叛的规则。
1701067632
1701067633
第一次竞赛收到了14个程序;第二次增加到了63个。每个程序都相互博弈200个回合,根据表14.1中的收益矩阵计算总分。程序可以有记忆——每个程序都能存储一些之前与对手的博弈记录。有些提交来的策略相当复杂,使用统计方法分析其他策略的“心理”。然而,两次竞赛中获胜的策略——平均得分最高——都是所提交的策略中最简单的策略:针锋相对(TIT FOR TAT)。这个策略是数学家拉普波特(Anatol Rapoport)提交的,第一个回合合作,然后在后面的回合中采取对手在前一回合中所使用的策略。也就是说针锋相对策略愿意合作,并且对愿意合作的对手以礼相待。但如果对方背叛,针锋相对策略就会回之以背叛,直到对手又开始合作为止。
1701067634
1701067635
让人吃惊的是,这样简单的策略竟然打败了其他所有策略,尤其是第2次竞赛时参赛者已经知道了针锋相对策略,可以有针对性地与它对抗。然而,在参赛的几十位专家中,没有人能设计出更好的策略。
1701067636
1701067637
根据竞赛结果,阿克塞尔罗德得出了一些一般性结论。他注意到所有成绩好的策略都有友善的特点——他们从不先背叛对方。友善的策略中得分最低的是“绝不宽恕”策略:它开始时合作,但一旦对方背叛,它以后就会一直背叛。而针锋相对策略会以一次背叛惩罚对手的上一次背叛,但如果对手又开始合作,它就会原谅对方,也开始合作。阿克塞尔罗德还注意到,虽然大多数成功的策略既友善也能宽恕对手,但是它们也具有报复性——它们会在背叛发生后很快就进行惩罚。针锋相对策略不仅友善、宽恕和进行报复,它还有一个很重要的特性:行为明确,具有可预见性。对手很容易就能知道针锋相对采取的策略,因此也就能预知它会如何对对手的行为做出反应。这种可预见性对于促进合作很重要。
1701067638
1701067639
有趣的是,阿克塞尔罗德在竞赛之后又进行了一系列实验,用遗传算法演化囚徒困境的策略。策略的适应度就是它与种群中其他策略反复博弈之后的得分。遗传算法演化出的策略行为与针锋相对也是一样的。
1701067640
1701067641
囚徒困境的扩展
1701067642
1701067643
阿克塞尔罗德对囚徒困境的研究在20世纪80年代引起了轰动,尤其是在社会科学中影响很大。人们开始研究它的各种变体——采用不同的收益矩阵、不同的参与人数或者在多方博弈中让各方能选择对手,等等。其中有两个很有趣的实验分别增加了社会规范和空间结构。
1701067644
1701067645
加入社会规范
1701067646
1701067647
阿克塞尔罗德进行了添加社会规范的囚徒困境实验, [198] 实验中规范表现为在背叛被其他人发现时的社会谴责(用负分表示)。在阿克塞尔罗德的多方博弈中,个体的每次背叛,都有一定的概率被其他个体发现。除了决定合作或背叛的策略,每个个体还有在发现其他个体的背叛行为时决定是否进行惩罚(减分)的策略。
1701067648
1701067649
具体说,每个个体的策略由两个数字组成:背叛的概率(无耻度)和发现背叛行为时进行惩罚的概率(正义度)。在最初的群体中,概率值被随机赋予。
1701067650
1701067651
在每一代,群体进行一次循环博弈:群体中每个个体与其他所有个体博弈一次,每当出现背叛,背叛行为都有一定概率被其他个体发现。一旦被发现,发现背叛行为的个体就会根据自身的正义度以一定概率对背叛个体进行惩罚。
1701067652
1701067653
在每次循环之后,会发生进化过程:根据适应度(得分)选择父代策略,从而产生出下一代策略。父代通过变异复制产生后代:每个后代的无耻度和嫉恶度在父代的基础上稍微变化。如果开始时群体中大多数个体的正义度都设为0(也就是没有社会规范),那背叛者就会越来越多。阿克塞尔罗德最初希望能发现促进群体中合作进化的规范——也就是说,进化出正义度以对抗无耻度。
1701067654
1701067655
然而,结果是仅仅有规范并不足以保证产生合作。在后来的实验中,阿克塞尔罗德又加入了元规范(metanorms),在其中有执法者来惩罚非执法者。不知道你们明不明白我的意思,就好像逛超市的时候,如果我没有阻止我的小孩在过道里嬉闹,还撞到了其他顾客,有些这样的人就会以鄙视的眼神看着我。这样的元规范对我很有效。阿克塞尔罗德也发现元规范很有用——如果周围有惩罚者,非惩罚者就会演化得更倾向于惩罚,而被惩罚的背叛者也会演化得更愿意合作。用阿克塞尔罗德的话说,“元规范能促进并保持群体中的合作”。 [199]
1701067656
1701067657
加入空间结构
1701067658
1701067659
数学生物学家诺瓦克(Martin Nowak)和其合作者在囚徒困境中加入了空间结构,这种扩展也非常有趣。在阿克塞尔罗德最初的实验中没有空间的概念——所有参与者相遇的可能性都一样,参与者之间的距离没有意义。
1701067660
1701067661
诺瓦克猜测,如果参与者位于空间网格上,有严格的邻居概念,则会对合作的进化产生很强的影响。诺瓦克同他的博士后导师梅一起进行了计算机仿真 [200] (在第2章讲逻辑斯蒂映射时我们已经见过梅),实验中参与者位于2维网格上,都只与最近的邻居博弈。如图14.4所示,图中有一个5×5的网格,每个格子中有一个参与者(诺瓦克和梅的网格要大得多)。所有参与者的策略都极为简单——它们没有记忆;要么一直合作,要么一直背叛。
1701067662
1701067663
1701067664
1701067665
1701067666
▲图14.4 空间囚徒困境博弈示意图。每个策略只与最近的邻居进行博弈——例如,策略P13只与其最近的邻居(阴影部分)进行博弈和生存竞争
1701067667
1701067668
模型周期运行。在每个时间步,每个策略与8个最近的邻居分别进行一次囚徒困境博弈(与元胞自动机类似,边缘上的格子回绕相连),然后将8次博弈的得分加总。接下来进行选择,每个策略都替换为邻域中得分最高的策略(有可能是它自己):没有变异。
1701067669
[
上一页 ]
[ :1.70106762e+09 ]
[
下一页 ]