打字猴:1.701029e+09
1701029000
1701029001 有限的可激怒性是一个用来达到稳定合作的策略的有效的特性。“一报还一报”是用与对方背叛完全等量的背叛来反应。但在许多情况下,如果这个反应稍稍少于挑衅的话,合作的稳定性便可以得到增强。要不然,就很容易陷入彼此无止境地反应对方的上一步背叛。有几个方法可以控制反射作用。一个方法是首先背叛的一方要认识到对方的反应不应该再引起自己的另一个背叛。例如,苏联应该认识到北约的动员只不过是对它自己行为的一个反应而已,不应该被看作是威胁。当然,即使北约的反应是自动的和可预测的,苏联也不会这样看问题。因此,如果北约的反应在某种程度上小于苏联的动员还是有用的,如果苏联对此的反应也在某种程度上小于北约的动员,那么战备的升级就会稳定下来,并可能反过来回到正常状态。
1701029002
1701029003 幸运的是,友谊不是合作进化所必要的。正如堑壕战的例子说明的,即使是敌人也可以学到在回报的基础上发展合作。对关系的要求不是友谊,而是持续性。在国际关系中,主要大国能够确定它们将年复一年地打交道下去,这是件好事。它们的关系不一定总是双方有利的,但它是持续的。因此,下一年的相互作用将在这一年的选择上有一个很大的影响,合作有一个很大的机会最终得到进化。
1701029004
1701029005 预见性也不是必要的。正如生物的例子所证明的。但是没有预见性,进化的过程将要花很长的时间。幸运的是,人类确实有这种预见性,并用它加速本来是一个盲目的进化过程。最令人吃惊的是第一轮“囚徒困境”计算机竞赛和第二轮竞赛的差别。在第一轮中,参赛者是那些代表当时懂得如何能在“囚徒困境”中表现良好的对策专家。当他们的规则彼此配对时,他们的平均得分是2.1分,这只比从P=1(对双方背叛的惩罚)到R=3(对双方合作的奖励)的一半稍稍好一些。第二轮的参赛者做得好多了,平均得分是2.60分,这比从双方惩罚到双方奖励的3/4还好一些。[3]因此,参赛者能够用第一轮的结果预计在第二轮中怎样才能干得好些。总的来说,他们的预见性得到了高分的报偿。
1701029006
1701029007 第二轮比第一轮更复杂,基于回报的合作牢固地建立起来。各种想占那些在第一轮中出现的简单规则的便宜的企图,在第二轮中都失败了,这说明了像“一报还一报”这样的回报性策略的超常鲁棒性。也许能够指望人们会从计算机竞赛的经验中懂得回报在他们自己的“囚徒困境”的相互作用中的价值。
1701029008
1701029009 一旦宣布遵循回报,就要去实行它,如果你期望其他人既回报你的背叛也回报你的合作,你就应该明智地避免引起任何麻烦。并且你应该明智地在其他人背叛之后背叛以表示你是不可欺侮的,因此你使用基于回报的策略是明智的。任何人都应该这样。在这种方式下,对回报的价值的评价是一种自我强化,一旦它产生作用,就会变得越来越强。
1701029010
1701029011 这就是第三章所建立的棘轮作用的基本点:一旦基于回报的合作在群体中建立起来,它就不能够被试图占人便宜的一个小群体所征服。稳定合作的建立如果只基于盲目的进化力量,它就需要一个很长的时间,如果是明智的人来操作的话,它就可以很快地实现。本书中经验的和理论的结果,有助于人们更清楚地看到生活中潜在回报的机会。知道两次计算机“囚徒困境”竞赛结果的原因,了解回报成功的理由和条件,能为人们提供更多的预见。
1701029012
1701029013 我们可以更清楚地看到,“一报还一报”的成功不是由于它比与它打交道的任何人做得更好。它的成功是靠从其他人那里引出合作而不是靠背叛他们。我们习惯于把竞争考虑成只有一个胜利者,像踢足球或下棋,但世界上的事情很少像这样。在很多情况下,双方合作比双方背叛好。做得好的关键不在于征服对方而在于引导合作。
1701029014
1701029015 今天,人类面临的最重要的问题是,在国际关系舞台上,独立自私的国家在近于无政府状态下彼此对峙,这些问题中有许多采取的是“重复囚徒困境”的形式。具体例子是军备竞赛、核扩散、危机谈判和军事升级。当然,要在实际上了解这些问题就必须考虑许多不能并入简单的“囚徒困境”形式中的因素,如意识形态、官僚政治、承诺、联盟、调解和领导地位。然而,我们可以利用我们拥有的洞察力。
1701029016
1701029017 罗伯特·吉尔平(Robert Gilpin 1981,p.205)指出,从古希腊到现代的所有政治理论都说明了一个基本问题:人类(不管是出于自私或更宽大的目的)如何理解和控制似乎是盲目的历史的力量?在现代社会中这个问题由于有了原子弹而变得特别尖锐。
1701029018
1701029019 第六章中对“囚徒困境”竞赛者的劝告也可以作为对国家领导人的很好的劝告。不要妒忌,不要首先背叛,回报合作也回报背叛,不要太聪明。同样,第七章中促进“囚徒困境”中的合作的技术性探讨对促进国际政治中的合作也是有用的。
1701029020
1701029021 如何从合作中得到奖赏的问题核心在于试错学习是缓慢和痛苦的。这样的学习过程可能对长期发展有好处,但是我们可能没有时间等待这样盲目的过程而缓慢地走向基于回报的对双方有利的策略。也许,如果我们更好地了解这个过程,我们就能用我们的预见加快合作的进化。
1701029022
1701029023 [1]“囚徒困境”比这里所讨论的有更普遍的意义。“囚徒困境”的形式并不假设不管对方合作与否帮助的代价是相同的。因此,它使用一个附加的假设,即双方更偏爱相互帮助而不是有相同的机会剥削和被剥削。
1701029024
1701029025 [2]不足为奇的是,华盛顿成功的官员学会在这种“陌生人的政府”中依赖回报(Heclo 1977,pp.154—234)。
1701029026
1701029027 [3]这是除“随机”程序以外的所有对策者的平均得分,在第一轮竞赛中每次比赛有200步,而第二轮竞赛的步长不等,平均步长为151步。
1701029028
1701029029
1701029030
1701029031
1701029032 合作的进化(修订版) [:1701027614]
1701029033 合作的进化(修订版) 附录A 竞赛结果
1701029034
1701029035 附录A为第二章提供了关于两轮计算机“囚徒困境”竞赛的补充信息。它包括参赛人员的信息、提交的参赛程序以及与其他程序比赛时的成绩,它还考察了在6个变形竞赛中所发生的情况,并为“一报还一报”成功的鲁棒性提供了附加的证据。
1701029036
1701029037 第一轮的参赛者包含了14项参赛程序再加上“随机”程序,参赛者的名单和他们的决策规则的得分列在表A.1。每对规则比赛5次,每次比赛有200步,每个规则对各个其他规则的竞赛得分列在表A.2。每个策略的描述在罗伯特·阿克塞尔罗德(Axelrod 1980a)中给出,它也就是给参加第二轮竞赛者的报告。
1701029038
1701029039 表A.1 第一轮参赛者
1701029040
1701029041
1701029042
1701029043
1701029044
1701029045
1701029046
1701029047 表A.2 第一轮竞赛得分
1701029048
1701029049
[ 上一页 ]  [ :1.701029e+09 ]  [ 下一页 ]