打字猴:1.70102807e+09

1701028070

1701028071 现在要问的是，如果参赛程序的分布有很大的不同，第二轮竞赛的结果是否会有很大的变化？换一个方式问：“一报还一报”在多样化的环境中也能表现得很好吗？也就是说，它是否具有鲁棒性（robust）？回答这个问题的一个好办法是构造一系列假想的竞赛，这些竞赛分别具有完全不同类型的参赛规则。附录A中介绍了构造这些迥然不同的竞赛的方法。结果是“一报还一报”赢了这6个变形竞赛中的5个，在第6个中它名列第二。这些结果有力地证明了“一报还一报”的成功具有很高的鲁棒性。

1701028072

1701028073 检验这些结果鲁棒性的另一个方式是构造一系列假想的未来竞赛。一些规则将由于它们不太成功而不再出现在未来的竞赛中，而那些成功的规则将继续出现。这样的一系列竞赛，有助于我们分析在大部分参赛规则是较成功的，而不太成功的规则却很少见的环境中，会出现什么情况。这个分析是对一个规则的性能的很严格的检验。因为持续的成功要求这个规则必须与其他成功的规则很好地相处。

1701028074

1701028075 进化生物学提供了一个很有用的方法来考虑这样的动态问题（Trivers 1971；Dawkins 1976，pp.197—202；Maynard Smith 1978）。想象有那么一群同种类的动物，它们相互之间经常接触。假设这种接触是以“囚徒困境”形式进行的。当两个动物相遇时，它们可以相互合作或者相互不合作，或者一个动物可以占另一个的便宜。进一步假设每个动物都能识别出那些曾经打过交道的动物，并能记住它们的一些突出特点，如是否经常合作等。一轮竞赛可以看作是模拟这些动物一代的行为。每种决策规则都被一大群动物采用，即一个动物既会遇到使用不同决策规则的动物，也会遇上使用同样决策规则的动物。

1701028076

1701028077 这种类比的意义在于它可以模拟未来的竞赛，成功的参赛规则更有可能在下一轮中被采用，而不成功的规则很少再被采用。更准确地说，一个给定规则的拷贝（或称为后代）的数量与它的竞赛得分成正比。我们可以简单地把个体所得的平均收益比看成个体的后代的期望数之比。例如在第一轮竞赛中一个规则得分是另一个规则的两倍，那么，在下一轮中提交的这个规则就是另一个规则的两倍。[6]因此，像“随机”程序在第二代中就显得不重要了，而“一报还一报”和其他名列前茅的规则就会多起来。

1701028078

1701028079 在人类活动中，一个得分不佳的规则不太可能在将来出现的原因有几个。一个可能是人们会尝试不同的策略，然后坚持使用那些看来是成功的策略。另一个可能是使用一种规则的人看到另一些规则更为成功，他就改换采用这些更为成功的策略。还有一种可能则是一个占据关键地位的人，如国会议员或公司经理，如果他采用的策略不是很成功，他就会被赶下台。因此在人类事务中的学习、模仿和选择使得这一过程得以进行，即相对不成功的策略在将来很少有机会再出现。对于“囚徒困境”竞赛，这个过程的模拟实际上是相当简单的。竞赛的矩阵给出了每个规则与其他规则相遇所得的分数。在某一代竞赛中规则之间的得分比就可以计算出这些规则在下一代竞赛中出现的比例。[7]一个策略表现得越好，所占的比例就会增加越多。

1701028080

1701028081 这些结果显示了一个很有趣的过程。首先发生的是，名列最后11名的规则到第五代时就剩下原来的一半，而名列中间的规则保持原来的规模，名列前茅的规则却逐渐增加。到了第50代，名列最后1/3的规则实质上已经消失，大部分名列中间的规则开始下降。而名列前1/3的规则在继续增长（参见图2.1）。

1701028082

1701028083

1701028084

1701028085

1701028086 图2.1　决策规则的生态模拟过程

1701028087

1701028088 这个过程模拟了适者生存，一个在当前规则分布中平均来说是成功的规则将在下一代的规则分布中占更大的比例。开始时，所有类型的成功规则都将很快增长。但是在不成功的规则消失后，就要求成功的规则必须能与其他成功的规则相抗衡。

1701028089

1701028090 由于它没有引入新的行为规则，这个模拟提供的是一个生态的方法，它与允许通过变异引入新的策略的进化的方法不同。在这个生态的方法中，只改变给定规则的分布。不太成功的规则变得更少了，成功的规则得到了增长。个体类型的统计分布每一代都在变，它改变了每个个体相互作用的环境。

1701028091

1701028092 一开始，差的和好的程序具有相同的比例。但是随着时间的推移，差的被淘汰，好的则繁荣起来。如果成功是来自与其他成功的规则相互作用的话，这个成功将孕育着更多成功。另一方面，如果一个决策规则的成功是靠占人家的便宜得到的，那么当这些被占便宜的规则消失后，剥削者赖以成功的基础就被腐蚀了，剥削者也就要遭受同样的命运。

1701028093

1701028094 “哈林顿”（HARRINGTON），这个在第二轮竞赛的前15名中唯一的非善良规则，提供了生态消亡的一个绝好的例子。在生态竞赛的头200代左右，和“一报还一报”及其他成功的善良程序一样，“哈林顿”的百分比也在增长，这是因为“哈林顿”是一个占便宜的策略。但是到了第200代，情况就发生了转折性的变化。不太成功的程序已经基本消失，这意味着能被“哈林顿”占便宜的傻大头越来越少。不久“哈林顿”就赶不上那些成功的善良的规则，到第1 000代，“哈林顿”就像被它占便宜的傻大头一样消失了。

1701028095

1701028096 生态分析表明，与那些本身得分并不佳的程序相遇时干得不错，这只不过是在经历一个自我毁灭的过程。非善良者在开头还显得挺有希望的，但是时间一长它就摧毁了它自己赖以成功的基础。

1701028097

1701028098 生态方法的结果说明了“一报还一报”的又一个胜利。在最初的竞赛中“一报还一报”领先一点点，而且在整个生态模拟过程中一直保持领先。到了第1 000代，它是最成功的规则，并且比任何一个其他规则都增长得快。

1701028099

1701028100 “一报还一报”的所有记录是令人难忘的。概括地说，在第二轮竞赛中，“一报还一报”是62个参赛者中平均得分最高的规则。在6次为了反应不同类型规则的影响而构造的假想竞赛中，它又获得5次最高分和1次第二名。最后，在竞赛的生态模拟中它一直保持领先。加上它在第一轮竞赛中的胜利和它在实验室的对策实验中的良好表现。“一报还一报”显然是一个非常成功的策略。

1701028101

1701028102 第一章的命题1表明不存在独立于环境的绝对最好的规则。“一报还一报”的成功可以说明的是，它是一个很具鲁棒性的规则：即它在很大范围的环境中表现极佳。它的成功部分是由于其他规则预料到它的存在并且被设计得与它很好相处。要和“一报还一报”很好相处就要求和它合作，这反过来就帮助了“一报还一报”。即使那些像“检验者”一样被设计成伺机占便宜而不被惩罚的规则，也很快向“一报还一报”道歉。任何想占“一报还一报”便宜的规则最终将伤害自己。“一报还一报”从自己的不可欺负性得到好处是因为以下三个条件得到了满足：

1701028103

1701028104 1．遇到“一报还一报”的可能性是显著的。

1701028105

1701028106 2．一旦相遇，“一报还一报”很容易被识别出来。

1701028107

1701028108 3．一旦被识别出来，“一报还一报”的不可欺负性就显示出来。

1701028109

1701028110 因此，“一报还一报”从它自己的清晰性中得到好处。

1701028111

1701028112 另一方面，“一报还一报”放弃了占他人便宜的可能性。这种机会有时是很有利可图的，但是在广泛的环境中，试图占便宜而引来的问题也多种多样。首先，如果一个规则用背叛试探是否可以占便宜，它就得冒被那些可激怒的规则报复的风险。第二，双方的反击一旦开始，就很难自己解脱。最后，试图识别那些不反应的规则（如“随机”规则或者那些过分不合作的规则）并放弃与它们合作的努力，经常错误地导致放弃与其他一些规则的合作，而这些规则是可以被有耐心的规则像“一报还一报”挽救的。既能占便宜又不会付出太大的代价是第二轮竞赛中任何一个参赛程序都没有实现的。

1701028113

1701028114 “一报还一报”的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦，它的报复性使对方试着背叛一次后就不敢再背叛，它的宽容性有助于重新恢复合作，它的清晰性使它容易被对方理解，从而引出长期的合作。

1701028115

1701028116 [1]如文中所述，第二轮竞赛的长度是个变量。

1701028117

1701028118 [2]Rapoport和Chammah（1965，pp.72—73）将宽容定义为在得到“给笨蛋的报酬”S之后合作的可能性。与之相比，此处则是对宽容的更广的定义。

1701028119

[ 上一页 ] [ :1.70102807e+09 ] [ 下一页 ]