1701067630
1701067631
回想一下第9章讨论的机器人罗比,策略指的其实就是一组规则,规定了在各种情形中应该采取何种行动。对于囚徒困境来说,策略就是根据对手以前的行为决定下一步是合作还是背叛的规则。
1701067632
1701067633
第一次竞赛收到了14个程序;第二次增加到了63个。每个程序都相互博弈200个回合,根据表14.1中的收益矩阵计算总分。程序可以有记忆——每个程序都能存储一些之前与对手的博弈记录。有些提交来的策略相当复杂,使用统计方法分析其他策略的“心理”。然而,两次竞赛中获胜的策略——平均得分最高——都是所提交的策略中最简单的策略:针锋相对(TIT FOR TAT)。这个策略是数学家拉普波特(Anatol Rapoport)提交的,第一个回合合作,然后在后面的回合中采取对手在前一回合中所使用的策略。也就是说针锋相对策略愿意合作,并且对愿意合作的对手以礼相待。但如果对方背叛,针锋相对策略就会回之以背叛,直到对手又开始合作为止。
1701067634
1701067635
让人吃惊的是,这样简单的策略竟然打败了其他所有策略,尤其是第2次竞赛时参赛者已经知道了针锋相对策略,可以有针对性地与它对抗。然而,在参赛的几十位专家中,没有人能设计出更好的策略。
1701067636
1701067637
根据竞赛结果,阿克塞尔罗德得出了一些一般性结论。他注意到所有成绩好的策略都有友善的特点——他们从不先背叛对方。友善的策略中得分最低的是“绝不宽恕”策略:它开始时合作,但一旦对方背叛,它以后就会一直背叛。而针锋相对策略会以一次背叛惩罚对手的上一次背叛,但如果对手又开始合作,它就会原谅对方,也开始合作。阿克塞尔罗德还注意到,虽然大多数成功的策略既友善也能宽恕对手,但是它们也具有报复性——它们会在背叛发生后很快就进行惩罚。针锋相对策略不仅友善、宽恕和进行报复,它还有一个很重要的特性:行为明确,具有可预见性。对手很容易就能知道针锋相对采取的策略,因此也就能预知它会如何对对手的行为做出反应。这种可预见性对于促进合作很重要。
1701067638
1701067639
有趣的是,阿克塞尔罗德在竞赛之后又进行了一系列实验,用遗传算法演化囚徒困境的策略。策略的适应度就是它与种群中其他策略反复博弈之后的得分。遗传算法演化出的策略行为与针锋相对也是一样的。
1701067640
1701067641
囚徒困境的扩展
1701067642
1701067643
阿克塞尔罗德对囚徒困境的研究在20世纪80年代引起了轰动,尤其是在社会科学中影响很大。人们开始研究它的各种变体——采用不同的收益矩阵、不同的参与人数或者在多方博弈中让各方能选择对手,等等。其中有两个很有趣的实验分别增加了社会规范和空间结构。
1701067644
1701067645
加入社会规范
1701067646
1701067647
阿克塞尔罗德进行了添加社会规范的囚徒困境实验, [198] 实验中规范表现为在背叛被其他人发现时的社会谴责(用负分表示)。在阿克塞尔罗德的多方博弈中,个体的每次背叛,都有一定的概率被其他个体发现。除了决定合作或背叛的策略,每个个体还有在发现其他个体的背叛行为时决定是否进行惩罚(减分)的策略。
1701067648
1701067649
具体说,每个个体的策略由两个数字组成:背叛的概率(无耻度)和发现背叛行为时进行惩罚的概率(正义度)。在最初的群体中,概率值被随机赋予。
1701067650
1701067651
在每一代,群体进行一次循环博弈:群体中每个个体与其他所有个体博弈一次,每当出现背叛,背叛行为都有一定概率被其他个体发现。一旦被发现,发现背叛行为的个体就会根据自身的正义度以一定概率对背叛个体进行惩罚。
1701067652
1701067653
在每次循环之后,会发生进化过程:根据适应度(得分)选择父代策略,从而产生出下一代策略。父代通过变异复制产生后代:每个后代的无耻度和嫉恶度在父代的基础上稍微变化。如果开始时群体中大多数个体的正义度都设为0(也就是没有社会规范),那背叛者就会越来越多。阿克塞尔罗德最初希望能发现促进群体中合作进化的规范——也就是说,进化出正义度以对抗无耻度。
1701067654
1701067655
然而,结果是仅仅有规范并不足以保证产生合作。在后来的实验中,阿克塞尔罗德又加入了元规范(metanorms),在其中有执法者来惩罚非执法者。不知道你们明不明白我的意思,就好像逛超市的时候,如果我没有阻止我的小孩在过道里嬉闹,还撞到了其他顾客,有些这样的人就会以鄙视的眼神看着我。这样的元规范对我很有效。阿克塞尔罗德也发现元规范很有用——如果周围有惩罚者,非惩罚者就会演化得更倾向于惩罚,而被惩罚的背叛者也会演化得更愿意合作。用阿克塞尔罗德的话说,“元规范能促进并保持群体中的合作”。 [199]
1701067656
1701067657
加入空间结构
1701067658
1701067659
数学生物学家诺瓦克(Martin Nowak)和其合作者在囚徒困境中加入了空间结构,这种扩展也非常有趣。在阿克塞尔罗德最初的实验中没有空间的概念——所有参与者相遇的可能性都一样,参与者之间的距离没有意义。
1701067660
1701067661
诺瓦克猜测,如果参与者位于空间网格上,有严格的邻居概念,则会对合作的进化产生很强的影响。诺瓦克同他的博士后导师梅一起进行了计算机仿真 [200] (在第2章讲逻辑斯蒂映射时我们已经见过梅),实验中参与者位于2维网格上,都只与最近的邻居博弈。如图14.4所示,图中有一个5×5的网格,每个格子中有一个参与者(诺瓦克和梅的网格要大得多)。所有参与者的策略都极为简单——它们没有记忆;要么一直合作,要么一直背叛。
1701067662
1701067663
1701067664
1701067665
1701067666
▲图14.4 空间囚徒困境博弈示意图。每个策略只与最近的邻居进行博弈——例如,策略P13只与其最近的邻居(阴影部分)进行博弈和生存竞争
1701067667
1701067668
模型周期运行。在每个时间步,每个策略与8个最近的邻居分别进行一次囚徒困境博弈(与元胞自动机类似,边缘上的格子回绕相连),然后将8次博弈的得分加总。接下来进行选择,每个策略都替换为邻域中得分最高的策略(有可能是它自己):没有变异。
1701067669
1701067670
这项研究的出发点是生物学。就像诺瓦克和梅说的,“我们认为,群体中确定的空间结构对合作的进化可能很重要 [201] ,无论是分子、细胞,还是生物”。
1701067671
1701067672
诺瓦克和梅用各种合作和背叛个体的初始设置以及不同的收益矩阵进行了实验。他们发现在有些条件下,合作和进化个体的空间分布模式有可能振荡,甚至产生“混沌性变化”, [202] 在其中合作者和背叛者共存。而在非空间性的多方囚徒困境博弈中,如果没有前面提到的元规范,最后背叛者会占据群体。在诺瓦克和梅加入空间后,合作者可以一直坚持下去,无需在博弈中加入规范或元规范。
1701067673
1701067674
诺瓦克和梅认为他们的结果表现了真实世界中的一个特性——即,空间相邻关系的存在会促进合作。在评论这项研究时,生物学家西格蒙德(Karl Sigmund)这样说道:“地域性有利于合作 [203] ……这在真实的社区中可能也是成立的。”
1701067675
1701067677
建模的好处
1701067678
1701067679
对于囚徒困境这样的理想模型的计算机仿真,如果做得好的话,会是实验科学和数学理论的有力补充。对于大部分复杂系统来说,不可能对其进行真正的实验,用数学研究也非常困难,这个时候模型就是研究它们的唯一可行途径。像囚徒困境这样的理想模型最大的贡献就是为我们提供了一把钥匙,来研究合作的进化这类没有精确的科学术语和完善定义的现象。
[
上一页 ]
[ :1.70106763e+09 ]
[
下一页 ]