打字猴:1.70102812e+09

1701028120 [3]它们之间的5次比赛，“一报还一报”的平均得分为225，“乔斯”为230。

1701028121

1701028122 [4]在参加竞赛的15个策略中，“改进的唐宁”平均得分为542，超过了“一报还一报”的平均得分504。在同样的条件下，“一报还两报”的平均得分为532，“向前看”为520。

1701028123

1701028124 [5]结束每一步比赛的概率之所以如此，是为了使每次比赛步数的期望中位数为200步。实际上，每对参赛者比赛5次，每次比赛的长度都是通过随机抽样一次性确定的。比赛步数的分配是预定的，所以随机抽样的结果应该为5次比赛每次比赛的长度分别是63、77、151、156和308步。因此，每次比赛的平均长度为151步，小于期望中数。

1701028125

1701028126 [6]这个再复制过程创造了一个模拟的第二代竞赛，在这一竞赛中，每个策略的平均得分是它与其他每个策略比赛得分的加权平均分，其中权重与第一代竞赛中其他策略的成功成正比。

1701028127

1701028128 [7]对未来竞赛的模拟是通过计算一个策略与其他策略比赛的加权平均分而产生的，其中权重为当前代中其他策略的生存数量。一个策略在下一代中的数量与它在当前代中的数量和它的得分的乘积成正比。这一过程假设收益矩阵为数量，这是本书中唯一一次将收益定为数量，而非相对值。

1701028129

1701028130

1701028131

1701028132

1701028133 合作的进化（修订版） [:1701027604]

1701028134 合作的进化（修订版）第三章合作的建立

1701028135

1701028136 第二章的竞赛方法探讨了当一个给定的个体与许多使用各种不同策略的其他个体相互作用时所发生的情况。结果说明了“一报还一报”的明显成功。而且，模拟未来竞赛的生态分析表明，“一报还一报”将继续繁荣，最终被大家所采用。

1701028137

1701028138 假设每个人最终都采用同样的策略，然后将会发生什么呢？人们有没有什么理由采用不同的策略呢？或者说，大家会保持选择这个公共的策略吗？

1701028139

1701028140 回答这个问题的一个很有用的方法是由进化生物学家约翰·梅纳德·史密斯（Maynard Smith 1974 and 1978）提出的。这个方法假设存在一个全部采用某一个特定策略的群体和一个采用另外不同策略的变异个体。如果这个变异个体能得到的收益比群体中的个体得到的更多，那就称这个变异策略能侵入这个群体。换句话说，整个群体都采用一个策略，而一个采用新的策略的个体进到这个群体中来。这个新来者将只和原有群体中的个体相遇。而原有群体中的个体可以看作只和原有群体中的另一些个体相遇，因为新来者只是群体中可以忽略的部分。因此，如果新来的个体在与原有的个体相遇时比两个原有的个体相遇时得分高，那么就称新来的策略可以侵入原有策略。由于原有的个体几乎占有整个群体，所以侵入的概念等价于这个变异的个体干得比群体平均要好。这就直接导出了进化方法的一个关键的概念：如果一个策略不能被其他策略侵入，这个策略就是集体稳定的。[1]

1701028141

1701028142 这个方法的生物学意义是基于用适应性（即生存和后代的数量）来解释博弈的收益。由于所有变异都是可能的，如果有任何一个个体能侵入一个给定的群体，就可以假定变异有机会做到这一点。因此，只有集体稳定的策略才能在长期的均衡中使自己持续地作为大家都采用的策略。生物学的应用将在第五章中讨论。但现在要指出的是，集体稳定策略的重要性在于只有它能面对任何可能的变异而保持整个群体的稳定。把集体稳定性应用到对人类行为的分析上是为了发现什么样的策略能持续被一个群体采用而不至于去采用其他可能的策略。如果有一个更成功的可选策略存在的话，它就可能被“变异”的个体通过有意识的分析，或者通过“试错方法”或者只不过是幸运来发现。如果所有人都采用一个特定的策略而有一些其他策略能在当前群体的环境中做得更好，那么迟早会有人发现这些策略的。所以只有不可侵入的策略才能使它自己持续地作为大家所采用的策略。

1701028143

1701028144 需要提醒大家的是关于集体稳定策略的定义，它假设那些尝试新异策略的个体之间没有太多的接触。[2]就像以后要说明的一样，如果他们以小群体出现，情况将可能有新的非常重要的发展。

1701028145

1701028146 把集体稳定性的概念应用到“重复囚徒困境”，其问题在于很难真正地确定哪个策略具有集体稳定性，哪个没有。有人通过局限于分析简单策略的情况或者只考虑一些有限的策略集合来绕过这些困难。[3]由于可以做出在“重复囚徒困境”中的所有集体稳定策略的特点来，这个问题现在已经被解决了。这些特点将在附录B中给出。

1701028147

1701028148 现在我们来看看一个特定的策略在什么条件下能够阻止其他策略的侵入。“一报还一报”是一个很好的例子。“一报还一报”在第一步合作，然后重复对方上一步的选择。因此一个采用“一报还一报”的群体将相互合作。每人每步将得到收益R。如果另一策略想侵入这个群体，它就必须得到比这个更高的期望值。什么样的策略与“一报还一报”的策略相遇能得到比这更高的收益呢？

1701028149

1701028150 首先这个策略必须在某个时候背叛，否则的话它也就是和对方一样得到R。当它首先背叛时，它将得到较高的收益T。但是“一报还一报”接着也将背叛。显然，“一报还一报”只有在游戏能持续足够长的时间，使得它的报复能抵消对方背叛所得到的好处时才能避免被这个策略侵入。事实上，如果折扣系数w足够大，没有策略能侵入“一报还一报”。

1701028151

1701028152 可以利用“一报还一报”只有一步记忆这一事实来说明这个问题。因为“一报还一报”只有一步记忆。那么有效的挑战者可通过重复最好的合作和背叛的组合序列来获取最大利益。由于这个记忆是短暂的，重复的序列只需要两步。显然，这两步组合可以是DC（背叛合作交替）或DD（总是背叛）。如果这两个策略不能侵入“一报还一报”，就没有任何策略可以侵入它。那么“一报还一报”就是集体稳定的。

1701028153

1701028154 这两个潜在的挑战者在第一步得到的比R多，但在第二步得到的比R少。因此，如果未来相对现在来说不是那么重要的话，他们就能得到好处。然而，如果w足够大，“总是背叛”和“背叛合作交替”的策略就不能侵入“一报还一报”，而且如果这两个策略不能侵入“一报还一报”，那么其他策略也不能。这就是命题2。对它的证明在附录B中。

1701028155

1701028156 命题2：当且仅当w足够大时，“一报还一报”是集体稳定的。且w的临界值是四个收益参数T、R、P和S的函数。[4]

1701028157

1701028158 这个命题的意义是：在全部采用“一报还一报”的群体中，每一个人都与其他人合作。只要未来对现在有足够大的影响，那么没有人能够通过采用其他策略而干得更好。换句话说，只要折扣参数大于四个收益参数所确定的要求，“一报还一报”就是不可侵入的。例如：假设在图1.1所示的收益矩阵中，T=5，R=3，P=1和S=0，那么，下一步相对于当前步的重要性至少是2/3时（即w≥2/3），“一报还一报”就是集体稳定的。在这些条件下，如果其他人采用“一报还一报”策略，你能做到的最好的结果就是和他们一样与他们合作。反之，如果w小于这个临界值2/3，其他人都采用“一报还一报”策略的话，“背叛合作交替”策略便会占便宜。如果w小于1/2，甚至“总是背叛”策略都会占便宜。

1701028159

1701028160 这意味着如果对方明显虚弱，不能活太久，那么w的观察值就会下降，“一报还一报”的回报性就不再是稳定的了。恺撒大帝曾对为什么庞培的同盟者停止与其合作解释道：“他们认为庞培的前途是没有希望的。他们按照逆境中一个人的朋友也会变成敌人”的一般规则行事（由雷克斯·沃纳翻译，Warner 1960，p.328）。

1701028161

1701028162 另一个例子是一个濒于破产的公司要把应收账款卖给清算代理商。这个买卖将打很大的折扣。因为：

1701028163

1701028164 一旦一个制造商开始走下坡路，即使是他最好的客户也开始以抱怨质量问题、不符合规格要求、到货迟缓或各种各样的原因而要求拒付货款。商业中最有力的道德执法者是持续的关系，即人们相信你能与客户或供应商继续做生意。当一个失败的公司失去这个自动的执法者，任何手段都将无法代替（Mayer 1974，p.280）。

1701028165

1701028166 相似地，一个被认为在下次选举中将落选的国会议员就很难在原有的信任和声誉的基础上和同僚们做立法交易。[5]

1701028167

1701028168 还有许多例子说明长期的相互关系对合作的稳定性的重要性。在一个稳定的小镇或同一种族的邻里之间就容易建立互惠的规范。相反，一个访问教授就很可能受到其他教工的冷落，而他们对待固定同事并不这样。

1701028169

[ 上一页 ] [ :1.70102812e+09 ] [ 下一页 ]