打字猴:1.7010281e+09

1701028100 “一报还一报”的所有记录是令人难忘的。概括地说，在第二轮竞赛中，“一报还一报”是62个参赛者中平均得分最高的规则。在6次为了反应不同类型规则的影响而构造的假想竞赛中，它又获得5次最高分和1次第二名。最后，在竞赛的生态模拟中它一直保持领先。加上它在第一轮竞赛中的胜利和它在实验室的对策实验中的良好表现。“一报还一报”显然是一个非常成功的策略。

1701028101

1701028102 第一章的命题1表明不存在独立于环境的绝对最好的规则。“一报还一报”的成功可以说明的是，它是一个很具鲁棒性的规则：即它在很大范围的环境中表现极佳。它的成功部分是由于其他规则预料到它的存在并且被设计得与它很好相处。要和“一报还一报”很好相处就要求和它合作，这反过来就帮助了“一报还一报”。即使那些像“检验者”一样被设计成伺机占便宜而不被惩罚的规则，也很快向“一报还一报”道歉。任何想占“一报还一报”便宜的规则最终将伤害自己。“一报还一报”从自己的不可欺负性得到好处是因为以下三个条件得到了满足：

1701028103

1701028104 1．遇到“一报还一报”的可能性是显著的。

1701028105

1701028106 2．一旦相遇，“一报还一报”很容易被识别出来。

1701028107

1701028108 3．一旦被识别出来，“一报还一报”的不可欺负性就显示出来。

1701028109

1701028110 因此，“一报还一报”从它自己的清晰性中得到好处。

1701028111

1701028112 另一方面，“一报还一报”放弃了占他人便宜的可能性。这种机会有时是很有利可图的，但是在广泛的环境中，试图占便宜而引来的问题也多种多样。首先，如果一个规则用背叛试探是否可以占便宜，它就得冒被那些可激怒的规则报复的风险。第二，双方的反击一旦开始，就很难自己解脱。最后，试图识别那些不反应的规则（如“随机”规则或者那些过分不合作的规则）并放弃与它们合作的努力，经常错误地导致放弃与其他一些规则的合作，而这些规则是可以被有耐心的规则像“一报还一报”挽救的。既能占便宜又不会付出太大的代价是第二轮竞赛中任何一个参赛程序都没有实现的。

1701028113

1701028114 “一报还一报”的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦，它的报复性使对方试着背叛一次后就不敢再背叛，它的宽容性有助于重新恢复合作，它的清晰性使它容易被对方理解，从而引出长期的合作。

1701028115

1701028116 [1]如文中所述，第二轮竞赛的长度是个变量。

1701028117

1701028118 [2]Rapoport和Chammah（1965，pp.72—73）将宽容定义为在得到“给笨蛋的报酬”S之后合作的可能性。与之相比，此处则是对宽容的更广的定义。

1701028119

1701028120 [3]它们之间的5次比赛，“一报还一报”的平均得分为225，“乔斯”为230。

1701028121

1701028122 [4]在参加竞赛的15个策略中，“改进的唐宁”平均得分为542，超过了“一报还一报”的平均得分504。在同样的条件下，“一报还两报”的平均得分为532，“向前看”为520。

1701028123

1701028124 [5]结束每一步比赛的概率之所以如此，是为了使每次比赛步数的期望中位数为200步。实际上，每对参赛者比赛5次，每次比赛的长度都是通过随机抽样一次性确定的。比赛步数的分配是预定的，所以随机抽样的结果应该为5次比赛每次比赛的长度分别是63、77、151、156和308步。因此，每次比赛的平均长度为151步，小于期望中数。

1701028125

1701028126 [6]这个再复制过程创造了一个模拟的第二代竞赛，在这一竞赛中，每个策略的平均得分是它与其他每个策略比赛得分的加权平均分，其中权重与第一代竞赛中其他策略的成功成正比。

1701028127

1701028128 [7]对未来竞赛的模拟是通过计算一个策略与其他策略比赛的加权平均分而产生的，其中权重为当前代中其他策略的生存数量。一个策略在下一代中的数量与它在当前代中的数量和它的得分的乘积成正比。这一过程假设收益矩阵为数量，这是本书中唯一一次将收益定为数量，而非相对值。

1701028129

1701028130

1701028131

1701028132

1701028133 合作的进化（修订版） [:1701027604]

1701028134 合作的进化（修订版）第三章合作的建立

1701028135

1701028136 第二章的竞赛方法探讨了当一个给定的个体与许多使用各种不同策略的其他个体相互作用时所发生的情况。结果说明了“一报还一报”的明显成功。而且，模拟未来竞赛的生态分析表明，“一报还一报”将继续繁荣，最终被大家所采用。

1701028137

1701028138 假设每个人最终都采用同样的策略，然后将会发生什么呢？人们有没有什么理由采用不同的策略呢？或者说，大家会保持选择这个公共的策略吗？

1701028139

1701028140 回答这个问题的一个很有用的方法是由进化生物学家约翰·梅纳德·史密斯（Maynard Smith 1974 and 1978）提出的。这个方法假设存在一个全部采用某一个特定策略的群体和一个采用另外不同策略的变异个体。如果这个变异个体能得到的收益比群体中的个体得到的更多，那就称这个变异策略能侵入这个群体。换句话说，整个群体都采用一个策略，而一个采用新的策略的个体进到这个群体中来。这个新来者将只和原有群体中的个体相遇。而原有群体中的个体可以看作只和原有群体中的另一些个体相遇，因为新来者只是群体中可以忽略的部分。因此，如果新来的个体在与原有的个体相遇时比两个原有的个体相遇时得分高，那么就称新来的策略可以侵入原有策略。由于原有的个体几乎占有整个群体，所以侵入的概念等价于这个变异的个体干得比群体平均要好。这就直接导出了进化方法的一个关键的概念：如果一个策略不能被其他策略侵入，这个策略就是集体稳定的。[1]

1701028141

1701028142 这个方法的生物学意义是基于用适应性（即生存和后代的数量）来解释博弈的收益。由于所有变异都是可能的，如果有任何一个个体能侵入一个给定的群体，就可以假定变异有机会做到这一点。因此，只有集体稳定的策略才能在长期的均衡中使自己持续地作为大家都采用的策略。生物学的应用将在第五章中讨论。但现在要指出的是，集体稳定策略的重要性在于只有它能面对任何可能的变异而保持整个群体的稳定。把集体稳定性应用到对人类行为的分析上是为了发现什么样的策略能持续被一个群体采用而不至于去采用其他可能的策略。如果有一个更成功的可选策略存在的话，它就可能被“变异”的个体通过有意识的分析，或者通过“试错方法”或者只不过是幸运来发现。如果所有人都采用一个特定的策略而有一些其他策略能在当前群体的环境中做得更好，那么迟早会有人发现这些策略的。所以只有不可侵入的策略才能使它自己持续地作为大家所采用的策略。

1701028143

1701028144 需要提醒大家的是关于集体稳定策略的定义，它假设那些尝试新异策略的个体之间没有太多的接触。[2]就像以后要说明的一样，如果他们以小群体出现，情况将可能有新的非常重要的发展。

1701028145

1701028146 把集体稳定性的概念应用到“重复囚徒困境”，其问题在于很难真正地确定哪个策略具有集体稳定性，哪个没有。有人通过局限于分析简单策略的情况或者只考虑一些有限的策略集合来绕过这些困难。[3]由于可以做出在“重复囚徒困境”中的所有集体稳定策略的特点来，这个问题现在已经被解决了。这些特点将在附录B中给出。

1701028147

1701028148 现在我们来看看一个特定的策略在什么条件下能够阻止其他策略的侵入。“一报还一报”是一个很好的例子。“一报还一报”在第一步合作，然后重复对方上一步的选择。因此一个采用“一报还一报”的群体将相互合作。每人每步将得到收益R。如果另一策略想侵入这个群体，它就必须得到比这个更高的期望值。什么样的策略与“一报还一报”的策略相遇能得到比这更高的收益呢？

1701028149

[ 上一页 ] [ :1.7010281e+09 ] [ 下一页 ]