打字猴:1.70102805e+09
1701028050
1701028051 区分善良规则好坏的一个特征是看它们如何迅速地和可靠地对来自对方的挑战作出反应。一个规则可以被称为“报复性的”,如果它在对方的“无缘无故”的背叛之后立即以背叛报复。“无缘无故”的定义是不太明确的。但是,问题在于,除非一个策略能迅速对来自对方的挑战作出反应,否则,对方将简单地从这样一个好说话的策略身上获得越来越多的好处。
1701028052
1701028053 在第二轮比赛中,有好几个规则故意使用若干次背叛试试看它们能否讨到便宜。因此,在很大程度上,决定善良规则的最后名次的是它们能否很好地应付这些挑战。这些挑战者中有两个是特别重要的,我把它们称为“检验者”(TESTER)和“镇定者”(TRANQUILIZER)。
1701028054
1701028055 “检验者”是由戴维·格拉德斯坦(David Gladstein)提交的,在竞赛中名列46名。它被设计成专门欺负软骨头。但是一旦对方表示出不可欺负性,它就罢手。这个规则的不寻常之处是为了检验对方的反应,它在第一步就背叛,如果对方背叛,它就赶快抱歉,回之以合作。然后在其余的步中采用“一报还一报”。如果对方不反应它的第一步背叛,它就在第二步和第三步合作,但是在而后的步中它就每隔一步背叛一次。“检验者”与那几个在第一轮竞赛中可能取胜的补充规则对局时占了不少便宜。例如,“两报还一报”只有在对方前两步连续背叛时才背叛。但“检验者”从不连续背叛两次。因此“两报还一报”总是宽宏大量地与“检验者”合作,而被占了不少便宜。虽然“检验者”自己在竞赛中总的表现并不佳,但是它让那些“好说话”的规则吃了大亏。
1701028056
1701028057 “检验者”给一些在第一轮竞赛中表现颇佳的规则带来了麻烦,其中包括莱斯利·唐宁(Leslie Downing)的结果最大化原则的三个变形规则。在第一轮中看来很有希望的“唐宁”的基础上,有两个分别提交的“改进的唐宁”程序,它们来自斯坦利· F.奎尔(Stanley F. Quayle)和莱斯利·唐宁自己。还有一个稍加变化的版本来自一个年轻的竞争者,11岁的史蒂夫·纽曼(Steve Newman)。可是,这三个都被“检验者”占了便宜,因为它们都计算出对于一个在自己合作之后有超过一半时间合作的程序,最好是继续与它保持合作。实际上如果它们像“一报还一报”及那些名列前茅的程序那样在第二步就立即用背叛反击“检验者”的话,它们的处境就会好得多。这可以使得“检验者”赶快抱歉,而后的情况就好多了。
1701028058
1701028059 “镇定者”采用更加“聪明”的方式来占人家的便宜。因此更难对付。“镇定者”首先争取与对方建立双方合作的关系,然后才偶尔试探看看是否有便宜可占。它是由克雷格·费瑟斯(Craig Feathers)提交的,在竞赛中名列27。这个规则通常是合作的。但是如果对方经常背叛的话,它就背叛。因此只要对方合作,它就会在开头十几步或二十几步中合作,然后再夹入一两次背叛。等到双方的合作已经建立,它指望能哄骗对方原谅它的偶尔背叛。如果对方继续合作,这种背叛就更加经常出现。然而只要“镇定者”平均得分保持在每步2.25分以上,它就不会连续背叛两次,而且背叛不会超过总数的1/4。它尽量避免自己做得太过分了。
1701028060
1701028061 对付像“检验者”和“镇定者”这类挑战性规则的最好办法是时刻准备报复来自对方的“无缘无故”的背叛。因此,善良能得到好处,报复也能得到好处。“一报还一报”综合了这些优点,它是善良的、宽容的和具报复性的。它从不首先背叛,它在作一次反击后就原谅一个孤立的背叛。但是不管过去相处的关系如何好,它总能被一个背叛所激怒。
1701028062
1701028063 第一轮竞赛的教训影响到第二轮竞赛的环境,因为参赛者都熟悉这些结果。第一轮计算机“囚徒困境”竞赛的报告(Axelrod 1980a)总结了善良和宽容的好处,第二轮的参赛者都知道,像“两报还一报”和“改进的唐宁”这样宽容的规则如果参加第一轮竞赛的话,可以比“一报还一报”表现得更好。
1701028064
1701028065 在第二轮的竞赛中,许多参赛者显然希望这些结论还能成立。在62个参赛程序中,39个是善良的并且它们差不多都具有一定程度的宽容性。“两报还一报”由英国的进化生物学家约翰·梅纳德·史密斯(John Maynard Smith)提交,但它只名列24。如前所述有两个人提交“改进的唐宁”,但它在第二轮比赛中名次落在了后边。
1701028066
1701028067 在从第一轮比赛中吸取不同教训的人之间的对局中似乎出现了一些有趣的现象,第一轮竞赛的教训一是要善良和宽容,教训二是要多占便宜,即如果其他人是善良和宽容的,那么就可以占他们的便宜。在第二轮中吸取教训一的人受到了吸取教训二的人的伤害。在第二轮中,像“镇定者”和“检验者”这样的规则,有效地剥削了那些太好说话的规则。但是吸取教训二的人自己总体表现也不佳。原因是在试图占他人便宜时,他们经常受到足够的惩罚以致双方的最终得分比双方合作可能得到的少。像“镇定者”和“检验者”,只分别名列27和46。它们与只有不到1/3的规则相遇的得分超过“一报还一报”。没有任何试图使用教训二来占便宜的规则名列前茅。
1701028068
1701028069 虽然吸取教训二的规则能伤害吸取教训一的规则,但是在竞赛中没有任何参赛程序能从企图剥削“好说话”的程序中得到比它所受到的损害更多的好处。一些成功的程序倾向于对“一报还一报”作一些小的改进,以识别并用总是背叛对付那些似乎随机的和非常不合作的家伙。但这些想法的实现并没有比原本的“一报还一报”表现得更好,因为“一报还一报”与大家都相处得很好。就像它赢得第一轮竞赛一样,它赢得了第二轮竞赛。
1701028070
1701028071 现在要问的是,如果参赛程序的分布有很大的不同,第二轮竞赛的结果是否会有很大的变化?换一个方式问:“一报还一报”在多样化的环境中也能表现得很好吗?也就是说,它是否具有鲁棒性(robust)?回答这个问题的一个好办法是构造一系列假想的竞赛,这些竞赛分别具有完全不同类型的参赛规则。附录A中介绍了构造这些迥然不同的竞赛的方法。结果是“一报还一报”赢了这6个变形竞赛中的5个,在第6个中它名列第二。这些结果有力地证明了“一报还一报”的成功具有很高的鲁棒性。
1701028072
1701028073 检验这些结果鲁棒性的另一个方式是构造一系列假想的未来竞赛。一些规则将由于它们不太成功而不再出现在未来的竞赛中,而那些成功的规则将继续出现。这样的一系列竞赛,有助于我们分析在大部分参赛规则是较成功的,而不太成功的规则却很少见的环境中,会出现什么情况。这个分析是对一个规则的性能的很严格的检验。因为持续的成功要求这个规则必须与其他成功的规则很好地相处。
1701028074
1701028075 进化生物学提供了一个很有用的方法来考虑这样的动态问题(Trivers 1971;Dawkins 1976,pp.197—202;Maynard Smith 1978)。想象有那么一群同种类的动物,它们相互之间经常接触。假设这种接触是以“囚徒困境”形式进行的。当两个动物相遇时,它们可以相互合作或者相互不合作,或者一个动物可以占另一个的便宜。进一步假设每个动物都能识别出那些曾经打过交道的动物,并能记住它们的一些突出特点,如是否经常合作等。一轮竞赛可以看作是模拟这些动物一代的行为。每种决策规则都被一大群动物采用,即一个动物既会遇到使用不同决策规则的动物,也会遇上使用同样决策规则的动物。
1701028076
1701028077 这种类比的意义在于它可以模拟未来的竞赛,成功的参赛规则更有可能在下一轮中被采用,而不成功的规则很少再被采用。更准确地说,一个给定规则的拷贝(或称为后代)的数量与它的竞赛得分成正比。我们可以简单地把个体所得的平均收益比看成个体的后代的期望数之比。例如在第一轮竞赛中一个规则得分是另一个规则的两倍,那么,在下一轮中提交的这个规则就是另一个规则的两倍。[6]因此,像“随机”程序在第二代中就显得不重要了,而“一报还一报”和其他名列前茅的规则就会多起来。
1701028078
1701028079 在人类活动中,一个得分不佳的规则不太可能在将来出现的原因有几个。一个可能是人们会尝试不同的策略,然后坚持使用那些看来是成功的策略。另一个可能是使用一种规则的人看到另一些规则更为成功,他就改换采用这些更为成功的策略。还有一种可能则是一个占据关键地位的人,如国会议员或公司经理,如果他采用的策略不是很成功,他就会被赶下台。因此在人类事务中的学习、模仿和选择使得这一过程得以进行,即相对不成功的策略在将来很少有机会再出现。对于“囚徒困境”竞赛,这个过程的模拟实际上是相当简单的。竞赛的矩阵给出了每个规则与其他规则相遇所得的分数。在某一代竞赛中规则之间的得分比就可以计算出这些规则在下一代竞赛中出现的比例。[7]一个策略表现得越好,所占的比例就会增加越多。
1701028080
1701028081 这些结果显示了一个很有趣的过程。首先发生的是,名列最后11名的规则到第五代时就剩下原来的一半,而名列中间的规则保持原来的规模,名列前茅的规则却逐渐增加。到了第50代,名列最后1/3的规则实质上已经消失,大部分名列中间的规则开始下降。而名列前1/3的规则在继续增长(参见图2.1)。
1701028082
1701028083
1701028084
1701028085
1701028086 图2.1 决策规则的生态模拟过程
1701028087
1701028088 这个过程模拟了适者生存,一个在当前规则分布中平均来说是成功的规则将在下一代的规则分布中占更大的比例。开始时,所有类型的成功规则都将很快增长。但是在不成功的规则消失后,就要求成功的规则必须能与其他成功的规则相抗衡。
1701028089
1701028090 由于它没有引入新的行为规则,这个模拟提供的是一个生态的方法,它与允许通过变异引入新的策略的进化的方法不同。在这个生态的方法中,只改变给定规则的分布。不太成功的规则变得更少了,成功的规则得到了增长。个体类型的统计分布每一代都在变,它改变了每个个体相互作用的环境。
1701028091
1701028092 一开始,差的和好的程序具有相同的比例。但是随着时间的推移,差的被淘汰,好的则繁荣起来。如果成功是来自与其他成功的规则相互作用的话,这个成功将孕育着更多成功。另一方面,如果一个决策规则的成功是靠占人家的便宜得到的,那么当这些被占便宜的规则消失后,剥削者赖以成功的基础就被腐蚀了,剥削者也就要遭受同样的命运。
1701028093
1701028094 “哈林顿”(HARRINGTON),这个在第二轮竞赛的前15名中唯一的非善良规则,提供了生态消亡的一个绝好的例子。在生态竞赛的头200代左右,和“一报还一报”及其他成功的善良程序一样,“哈林顿”的百分比也在增长,这是因为“哈林顿”是一个占便宜的策略。但是到了第200代,情况就发生了转折性的变化。不太成功的程序已经基本消失,这意味着能被“哈林顿”占便宜的傻大头越来越少。不久“哈林顿”就赶不上那些成功的善良的规则,到第1 000代,“哈林顿”就像被它占便宜的傻大头一样消失了。
1701028095
1701028096 生态分析表明,与那些本身得分并不佳的程序相遇时干得不错,这只不过是在经历一个自我毁灭的过程。非善良者在开头还显得挺有希望的,但是时间一长它就摧毁了它自己赖以成功的基础。
1701028097
1701028098 生态方法的结果说明了“一报还一报”的又一个胜利。在最初的竞赛中“一报还一报”领先一点点,而且在整个生态模拟过程中一直保持领先。到了第1 000代,它是最成功的规则,并且比任何一个其他规则都增长得快。
1701028099
[ 上一页 ]  [ :1.70102805e+09 ]  [ 下一页 ]