打字猴:1.701028135e+09

1701028135

1701028136 第二章的竞赛方法探讨了当一个给定的个体与许多使用各种不同策略的其他个体相互作用时所发生的情况。结果说明了“一报还一报”的明显成功。而且，模拟未来竞赛的生态分析表明，“一报还一报”将继续繁荣，最终被大家所采用。

1701028137

1701028138 假设每个人最终都采用同样的策略，然后将会发生什么呢？人们有没有什么理由采用不同的策略呢？或者说，大家会保持选择这个公共的策略吗？

1701028139

1701028140 回答这个问题的一个很有用的方法是由进化生物学家约翰·梅纳德·史密斯（Maynard Smith 1974 and 1978）提出的。这个方法假设存在一个全部采用某一个特定策略的群体和一个采用另外不同策略的变异个体。如果这个变异个体能得到的收益比群体中的个体得到的更多，那就称这个变异策略能侵入这个群体。换句话说，整个群体都采用一个策略，而一个采用新的策略的个体进到这个群体中来。这个新来者将只和原有群体中的个体相遇。而原有群体中的个体可以看作只和原有群体中的另一些个体相遇，因为新来者只是群体中可以忽略的部分。因此，如果新来的个体在与原有的个体相遇时比两个原有的个体相遇时得分高，那么就称新来的策略可以侵入原有策略。由于原有的个体几乎占有整个群体，所以侵入的概念等价于这个变异的个体干得比群体平均要好。这就直接导出了进化方法的一个关键的概念：如果一个策略不能被其他策略侵入，这个策略就是集体稳定的。[1]

1701028141

1701028142 这个方法的生物学意义是基于用适应性（即生存和后代的数量）来解释博弈的收益。由于所有变异都是可能的，如果有任何一个个体能侵入一个给定的群体，就可以假定变异有机会做到这一点。因此，只有集体稳定的策略才能在长期的均衡中使自己持续地作为大家都采用的策略。生物学的应用将在第五章中讨论。但现在要指出的是，集体稳定策略的重要性在于只有它能面对任何可能的变异而保持整个群体的稳定。把集体稳定性应用到对人类行为的分析上是为了发现什么样的策略能持续被一个群体采用而不至于去采用其他可能的策略。如果有一个更成功的可选策略存在的话，它就可能被“变异”的个体通过有意识的分析，或者通过“试错方法”或者只不过是幸运来发现。如果所有人都采用一个特定的策略而有一些其他策略能在当前群体的环境中做得更好，那么迟早会有人发现这些策略的。所以只有不可侵入的策略才能使它自己持续地作为大家所采用的策略。

1701028143

1701028144 需要提醒大家的是关于集体稳定策略的定义，它假设那些尝试新异策略的个体之间没有太多的接触。[2]就像以后要说明的一样，如果他们以小群体出现，情况将可能有新的非常重要的发展。

1701028145

1701028146 把集体稳定性的概念应用到“重复囚徒困境”，其问题在于很难真正地确定哪个策略具有集体稳定性，哪个没有。有人通过局限于分析简单策略的情况或者只考虑一些有限的策略集合来绕过这些困难。[3]由于可以做出在“重复囚徒困境”中的所有集体稳定策略的特点来，这个问题现在已经被解决了。这些特点将在附录B中给出。

1701028147

1701028148 现在我们来看看一个特定的策略在什么条件下能够阻止其他策略的侵入。“一报还一报”是一个很好的例子。“一报还一报”在第一步合作，然后重复对方上一步的选择。因此一个采用“一报还一报”的群体将相互合作。每人每步将得到收益R。如果另一策略想侵入这个群体，它就必须得到比这个更高的期望值。什么样的策略与“一报还一报”的策略相遇能得到比这更高的收益呢？

1701028149

1701028150 首先这个策略必须在某个时候背叛，否则的话它也就是和对方一样得到R。当它首先背叛时，它将得到较高的收益T。但是“一报还一报”接着也将背叛。显然，“一报还一报”只有在游戏能持续足够长的时间，使得它的报复能抵消对方背叛所得到的好处时才能避免被这个策略侵入。事实上，如果折扣系数w足够大，没有策略能侵入“一报还一报”。

1701028151

1701028152 可以利用“一报还一报”只有一步记忆这一事实来说明这个问题。因为“一报还一报”只有一步记忆。那么有效的挑战者可通过重复最好的合作和背叛的组合序列来获取最大利益。由于这个记忆是短暂的，重复的序列只需要两步。显然，这两步组合可以是DC（背叛合作交替）或DD（总是背叛）。如果这两个策略不能侵入“一报还一报”，就没有任何策略可以侵入它。那么“一报还一报”就是集体稳定的。

1701028153

1701028154 这两个潜在的挑战者在第一步得到的比R多，但在第二步得到的比R少。因此，如果未来相对现在来说不是那么重要的话，他们就能得到好处。然而，如果w足够大，“总是背叛”和“背叛合作交替”的策略就不能侵入“一报还一报”，而且如果这两个策略不能侵入“一报还一报”，那么其他策略也不能。这就是命题2。对它的证明在附录B中。

1701028155

1701028156 命题2：当且仅当w足够大时，“一报还一报”是集体稳定的。且w的临界值是四个收益参数T、R、P和S的函数。[4]

1701028157

1701028158 这个命题的意义是：在全部采用“一报还一报”的群体中，每一个人都与其他人合作。只要未来对现在有足够大的影响，那么没有人能够通过采用其他策略而干得更好。换句话说，只要折扣参数大于四个收益参数所确定的要求，“一报还一报”就是不可侵入的。例如：假设在图1.1所示的收益矩阵中，T=5，R=3，P=1和S=0，那么，下一步相对于当前步的重要性至少是2/3时（即w≥2/3），“一报还一报”就是集体稳定的。在这些条件下，如果其他人采用“一报还一报”策略，你能做到的最好的结果就是和他们一样与他们合作。反之，如果w小于这个临界值2/3，其他人都采用“一报还一报”策略的话，“背叛合作交替”策略便会占便宜。如果w小于1/2，甚至“总是背叛”策略都会占便宜。

1701028159

1701028160 这意味着如果对方明显虚弱，不能活太久，那么w的观察值就会下降，“一报还一报”的回报性就不再是稳定的了。恺撒大帝曾对为什么庞培的同盟者停止与其合作解释道：“他们认为庞培的前途是没有希望的。他们按照逆境中一个人的朋友也会变成敌人”的一般规则行事（由雷克斯·沃纳翻译，Warner 1960，p.328）。

1701028161

1701028162 另一个例子是一个濒于破产的公司要把应收账款卖给清算代理商。这个买卖将打很大的折扣。因为：

1701028163

1701028164 一旦一个制造商开始走下坡路，即使是他最好的客户也开始以抱怨质量问题、不符合规格要求、到货迟缓或各种各样的原因而要求拒付货款。商业中最有力的道德执法者是持续的关系，即人们相信你能与客户或供应商继续做生意。当一个失败的公司失去这个自动的执法者，任何手段都将无法代替（Mayer 1974，p.280）。

1701028165

1701028166 相似地，一个被认为在下次选举中将落选的国会议员就很难在原有的信任和声誉的基础上和同僚们做立法交易。[5]

1701028167

1701028168 还有许多例子说明长期的相互关系对合作的稳定性的重要性。在一个稳定的小镇或同一种族的邻里之间就容易建立互惠的规范。相反，一个访问教授就很可能受到其他教工的冷落，而他们对待固定同事并不这样。

1701028169

1701028170 人们会因为彼此之间存在持续的相互关系而合作。一个很有趣的实例发生在第一次世界大战的堑壕战中。在这个残酷的战争中，相互对立的人们之间发展出一个称为“自己活也让别人活”的系统。如果接到命令的话，部队就相互攻击。但是在大战役的空隙间，每一方都尽量避免太多地伤害对方，如果对方也是这样回报的话。这个策略并不一定是“一报还一报”，有时是“一报还两报”。正如一个英国官员描述从法国手中接管一个新防区的回忆录中写的：

1701028171

1701028172 法国人实行的是在安静防区中不主动骚扰和只有受到挑战才给予强有力反击的策略。当我们从他们手中接管一个防区时，他们向我解释，他们所实行的被敌人所理解的准则是对方开一枪我们反击两枪，但从不首先开枪。（Kelly 1930，p.18）

1701028173

1701028174 这种心照不宣的合作是很不合法的，但也是很有特色的。尽管将军们有战争热情并努力推行长期消耗战术，但这个系统仍自我发展和完善了好几年。这个故事的丰富细节将在下一章描述。

1701028175

1701028176 即使没有深入探讨堑壕战的细节，“一报还两报”策略的出现提醒我们，不要只局限于从纯“一报还一报”策略中匆忙得出的结论。只有在未来的相互接触是足够重要的情况下，“一报还一报”才是集体稳定的。这一命题适用范围有多大呢？下一个命题说明这个结果确实是普遍的，实际上可以适用于任何可能首先合作的策略。

1701028177

1701028178 命题3：只有当w足够大时，任何可能首先合作的策略才可能是集体稳定的。

1701028179

1701028180 理由是，一个策略想要集体稳定，它就必须保护自己不受任何策略包括“总是背叛”策略的侵入。只要这个所考虑的策略一旦合作，“总是背叛”将在这一步得到T。另外，合作策略之间平均每步得分不会超过R。因此为了使这个群体平均不少于挑战者“总是背叛”的得分，这个策略群体的相互接触就必须持续足够长的时间，使背叛得到的好处在未来的接触中被抵消。这是问题的核心。正式的证明参见附录B。

1701028181

1701028182 “一报还一报”和“一报还两报”策略都是“善良”的决策规则，它们决不会首先背叛。善良规则在阻止侵入时的优势是它们能得到在只包含一种策略的群体中所能得到的最高分数，这是采用相同策略的个体通过双方合作而实现的。

1701028183

1701028184 “一报还一报”和“一报还两报”之间有共同的地方。他们都在对方背叛之后报复。这个观察引出一个一般性的原则，因为任何愿意合作的集体稳定策略必须以某种方式使它自己不会被挑战者占便宜。这个一般性原则是，善良的规则必须能被对方的第一个背叛所激怒，即意味着在而后的某一步这个策略必须有用自己的背叛反击的机会。[6]

[ 上一页 ] [ :1.701028135e+09 ] [ 下一页 ]