打字猴:1.70102815e+09

1701028150 首先这个策略必须在某个时候背叛，否则的话它也就是和对方一样得到R。当它首先背叛时，它将得到较高的收益T。但是“一报还一报”接着也将背叛。显然，“一报还一报”只有在游戏能持续足够长的时间，使得它的报复能抵消对方背叛所得到的好处时才能避免被这个策略侵入。事实上，如果折扣系数w足够大，没有策略能侵入“一报还一报”。

1701028151

1701028152 可以利用“一报还一报”只有一步记忆这一事实来说明这个问题。因为“一报还一报”只有一步记忆。那么有效的挑战者可通过重复最好的合作和背叛的组合序列来获取最大利益。由于这个记忆是短暂的，重复的序列只需要两步。显然，这两步组合可以是DC（背叛合作交替）或DD（总是背叛）。如果这两个策略不能侵入“一报还一报”，就没有任何策略可以侵入它。那么“一报还一报”就是集体稳定的。

1701028153

1701028154 这两个潜在的挑战者在第一步得到的比R多，但在第二步得到的比R少。因此，如果未来相对现在来说不是那么重要的话，他们就能得到好处。然而，如果w足够大，“总是背叛”和“背叛合作交替”的策略就不能侵入“一报还一报”，而且如果这两个策略不能侵入“一报还一报”，那么其他策略也不能。这就是命题2。对它的证明在附录B中。

1701028155

1701028156 命题2：当且仅当w足够大时，“一报还一报”是集体稳定的。且w的临界值是四个收益参数T、R、P和S的函数。[4]

1701028157

1701028158 这个命题的意义是：在全部采用“一报还一报”的群体中，每一个人都与其他人合作。只要未来对现在有足够大的影响，那么没有人能够通过采用其他策略而干得更好。换句话说，只要折扣参数大于四个收益参数所确定的要求，“一报还一报”就是不可侵入的。例如：假设在图1.1所示的收益矩阵中，T=5，R=3，P=1和S=0，那么，下一步相对于当前步的重要性至少是2/3时（即w≥2/3），“一报还一报”就是集体稳定的。在这些条件下，如果其他人采用“一报还一报”策略，你能做到的最好的结果就是和他们一样与他们合作。反之，如果w小于这个临界值2/3，其他人都采用“一报还一报”策略的话，“背叛合作交替”策略便会占便宜。如果w小于1/2，甚至“总是背叛”策略都会占便宜。

1701028159

1701028160 这意味着如果对方明显虚弱，不能活太久，那么w的观察值就会下降，“一报还一报”的回报性就不再是稳定的了。恺撒大帝曾对为什么庞培的同盟者停止与其合作解释道：“他们认为庞培的前途是没有希望的。他们按照逆境中一个人的朋友也会变成敌人”的一般规则行事（由雷克斯·沃纳翻译，Warner 1960，p.328）。

1701028161

1701028162 另一个例子是一个濒于破产的公司要把应收账款卖给清算代理商。这个买卖将打很大的折扣。因为：

1701028163

1701028164 一旦一个制造商开始走下坡路，即使是他最好的客户也开始以抱怨质量问题、不符合规格要求、到货迟缓或各种各样的原因而要求拒付货款。商业中最有力的道德执法者是持续的关系，即人们相信你能与客户或供应商继续做生意。当一个失败的公司失去这个自动的执法者，任何手段都将无法代替（Mayer 1974，p.280）。

1701028165

1701028166 相似地，一个被认为在下次选举中将落选的国会议员就很难在原有的信任和声誉的基础上和同僚们做立法交易。[5]

1701028167

1701028168 还有许多例子说明长期的相互关系对合作的稳定性的重要性。在一个稳定的小镇或同一种族的邻里之间就容易建立互惠的规范。相反，一个访问教授就很可能受到其他教工的冷落，而他们对待固定同事并不这样。

1701028169

1701028170 人们会因为彼此之间存在持续的相互关系而合作。一个很有趣的实例发生在第一次世界大战的堑壕战中。在这个残酷的战争中，相互对立的人们之间发展出一个称为“自己活也让别人活”的系统。如果接到命令的话，部队就相互攻击。但是在大战役的空隙间，每一方都尽量避免太多地伤害对方，如果对方也是这样回报的话。这个策略并不一定是“一报还一报”，有时是“一报还两报”。正如一个英国官员描述从法国手中接管一个新防区的回忆录中写的：

1701028171

1701028172 法国人实行的是在安静防区中不主动骚扰和只有受到挑战才给予强有力反击的策略。当我们从他们手中接管一个防区时，他们向我解释，他们所实行的被敌人所理解的准则是对方开一枪我们反击两枪，但从不首先开枪。（Kelly 1930，p.18）

1701028173

1701028174 这种心照不宣的合作是很不合法的，但也是很有特色的。尽管将军们有战争热情并努力推行长期消耗战术，但这个系统仍自我发展和完善了好几年。这个故事的丰富细节将在下一章描述。

1701028175

1701028176 即使没有深入探讨堑壕战的细节，“一报还两报”策略的出现提醒我们，不要只局限于从纯“一报还一报”策略中匆忙得出的结论。只有在未来的相互接触是足够重要的情况下，“一报还一报”才是集体稳定的。这一命题适用范围有多大呢？下一个命题说明这个结果确实是普遍的，实际上可以适用于任何可能首先合作的策略。

1701028177

1701028178 命题3：只有当w足够大时，任何可能首先合作的策略才可能是集体稳定的。

1701028179

1701028180 理由是，一个策略想要集体稳定，它就必须保护自己不受任何策略包括“总是背叛”策略的侵入。只要这个所考虑的策略一旦合作，“总是背叛”将在这一步得到T。另外，合作策略之间平均每步得分不会超过R。因此为了使这个群体平均不少于挑战者“总是背叛”的得分，这个策略群体的相互接触就必须持续足够长的时间，使背叛得到的好处在未来的接触中被抵消。这是问题的核心。正式的证明参见附录B。

1701028181

1701028182 “一报还一报”和“一报还两报”策略都是“善良”的决策规则，它们决不会首先背叛。善良规则在阻止侵入时的优势是它们能得到在只包含一种策略的群体中所能得到的最高分数，这是采用相同策略的个体通过双方合作而实现的。

1701028183

1701028184 “一报还一报”和“一报还两报”之间有共同的地方。他们都在对方背叛之后报复。这个观察引出一个一般性的原则，因为任何愿意合作的集体稳定策略必须以某种方式使它自己不会被挑战者占便宜。这个一般性原则是，善良的规则必须能被对方的第一个背叛所激怒，即意味着在而后的某一步这个策略必须有用自己的背叛反击的机会。[6]

1701028185

1701028186 命题4：对于善良的策略，如果是集体稳定的，它就必须能被对方的第一个背叛所激怒。

1701028187

1701028188 道理是很简单的，如果一个善良的策略不被在第n步的背叛所激怒，那么它就不是集体稳定的，因为它能被只在第n步背叛的策略侵入。

1701028189

1701028190 以上两个命题表明，如果未来对现在有足够大的影响且策略本身是可激怒的，那么一个善良的策略就可能是集体稳定的。但是不管折扣系数w的值和收益参数T、R、P和S是多少，有一个策略总是集体稳定的，这就是“总是背叛”策略。

1701028191

1701028192 命题5：“总是背叛”策略总是集体稳定的。

1701028193

1701028194 如果对方一定背叛，你合作便毫无意义。在一个大家都采用“总是背叛”策略的群体中，每人每步得到P。如果没有其他人愿意合作的话，任何人没有办法做得比这更好。况且，任何合作的选择将得到“给笨蛋的报酬”S，而且将来没有任何机会补偿。

1701028195

1701028196 这个命题对合作的进化有很重要的意义。如果我们设想一个系统，从一开始所有的个体就不愿合作。“总是背叛”的集体稳定性就意味着没有任何单一的个体可以指望比继续背叛和不合作做得更好。一个“小人”的世界可以阻止任何使用其他策略的个体的侵入，只要这个新来者每次都是单个的话。当然，问题就在于在这个“小人”的世界里没有人会回报任何合作。然而，如果新来者是一个小群体，它们就有机会建立合作。

1701028197

1701028198 为弄清这是如何发生的，让我们看看第一章图1.1中收益矩阵的一个简单的数值例子。这个例子中“对背叛的诱惑”T=5，“对双方合作的奖励”R=3，“对双方背叛的惩罚”P=1。而“给笨蛋的报酬”S=0。还有假设双方再次相遇的概率是w=0.9。那么，在采用“总是背叛”的“小人”的群体中，每位将得到收益P，累计得分是10分。

1701028199

[ 上一页 ] [ :1.70102815e+09 ] [ 下一页 ]