1701028567
1701028568
对竞赛的生态分析揭示了另一个为什么首先背叛是很冒险的道理。第二轮竞赛中前15名规则中唯一的非善良策略是名列第8的“哈林顿”。这个规则表现得很好。因为它与竞赛中的名次较低的规则相遇时得分都很高。在假想的未来生态竞赛中,名次较低的规则在群体中的比例越来越小。最终能被这个最初挺成功的非善良策略占便宜的策略就越来越少,接着它自己也消亡了。因此生态分析说明,与那些自己本身得分并不高的策略相遇你表现得很好是没有用的,它只不过是一个自我毁灭的过程。这个教训说明,虽然不善良在最初看来似乎是很有希望的,但长期下去它将毁坏使自己成功所必需的环境。
1701028569
1701028570
对合作与背叛都要给予回报
1701028571
1701028572
“一报还一报”超常的成功给出了一个简单的但又是很有力的建议:要回报。在第一步合作之后,“一报还一报”只是简单地回报对方在上一步的所为。这个简单的规则具有惊人的鲁棒性。它赢得了第一轮“囚徒困境”计算机竞赛,并取得比任何其他由对策专家们送来的规则更高的平均得分。每一个第二轮竞赛的参加者都知道这个结果,但“一报还一报”又赢了第二轮竞赛。这个胜利显然是令人惊讶的。因为每一个参赛者是在考虑了“一报还一报”在第一轮竞赛中的胜利结果之后,才提交他们的参赛规则的。显然人们都希望他们能干得更好,但是他们错了。
1701028573
1701028574
“一报还一报”不仅赢得竞赛本身,而且在假设的继续比赛中比其他任何规则表现得都好。这表明“一报还一报”不仅与最初的各种规则相处得很好,而且能与那些可能在未来群体中占较大份额的成功的规则也相处得很好。它不毁坏自己成功的基础,相反,它在与其他成功的规则相互交往中繁荣起来。
1701028575
1701028576
“一报还一报”所体现的回报在理论上也是很重要的。当未来相对于现在是足够重要的时候,“一报还一报”是集体稳定的。这就意味着,如果每个人都使用“一报还一报”策略,那么对一个特定的个体的最好建议就是也采用“一报还一报”策略。或者这么说,如果你能肯定对方是采用“一报还一报”,并且这种交道将持续足够长时间,那么,你最好也采用相同的策略。“一报还一报”的回报性的精彩之处在于它能在很大范围的环境中表现出色。
1701028577
1701028578
事实上,“一报还一报”很善于区分哪些规则会回报它的最初合作而哪些则不会。从第三章引入的概念看,它是有最大识别力的。如命题6所示,这就使得它能够以一种小群体的形式侵入“小人”的世界。并且,它回报背叛也回报合作。这使得它是可激怒的。命题4证明了,像“一报还一报”这样的善良策略要阻止被侵入,就必须是可激怒的。
1701028579
1701028580
在反应对方的背叛时,“一报还一报”保持了惩罚和宽恕的平衡。“一报还一报”总是在对方每次背叛之后只背叛一次。这样它在竞赛中取得了成功。那么,是否总是严格的一对一回报才是最有效的平衡?这就很难说了,因为稍有不同平衡的规则并没有被提送参赛。但有一点是清楚的,即用多于一次背叛来回报对方的背叛将有可能使冲突升级。另一方面,少于一对一的回报将有被占便宜的危险。
1701028581
1701028582
“两报还一报”是一个只有当对方在前两步连续背叛时,它才背叛的规则。因此它是一对二回报。这个相对宽容的规则如果被提送就会赢得第一轮竞赛。它能做得如此好是因为它能避免与某些甚至引起“一报还一报”麻烦的其他规则陷入双方报复的境地,但是当它真的被送交参加第二轮竞赛时,它甚至没有进入前1/3名次。原因是在第二轮竞赛中有些规则利用它对单一背叛的宽恕而占它的便宜。
1701028583
1701028584
以上分析的启示是,最优的宽恕水平与环境有关。特别是如果主要的危险是来自那些善于占“好说话”规则便宜的策略,那么,太多的宽恕就要付出代价。对一个给定的环境,准确的平衡是很难确定的,但是,竞赛的结果证明,对背叛类似一对一的反应可能在大多数情况下都是相当有效的。因此,对参与者的一个很好的建议是对合作和背叛都要给予回报。
1701028585
1701028586
不要耍小聪明
1701028587
1701028588
竞赛结果表明,在“囚徒困境”的情况下人们容易耍小聪明,然而复杂的规则并不比简单的规则做得更好。事实上,所谓最大化规则表现很差就是因为它们经常陷入双方背叛。这些规则的共同问题是,使用一些复杂的方法来推断对方。而这些推断常常是错误的。一部分问题是对方经常用试探性的背叛来表明它不会被引诱而合作,但是问题的关键是这些最大化规则没有考虑到它自己的行为会引起对方的变化。
1701028589
1701028590
在决定是否带伞时,我们并不需要担心老天会考虑我们的行为。我们可以根据以往的经验,判断下雨的可能性。在零和博弈中,如下棋,我们可以放心地假设对手将走他所能发现的最危险的一步棋。并且我们可以依此去行动。因此,在我们的分析中尽可能地精明和复杂是有好处的。
1701028591
1701028592
非零和博弈——像“囚徒困境”——并不是这样。不像老天下雨,对方对你的行为是有反应的,也不像下棋的对手,在“囚徒困境”中的对方不应该被认为是一心想背叛你的。对方将把你的行为看作你是否回报合作的信号。因此,你自己的行为将会反射到你的身上。
1701028593
1701028594
试图使得分最大化的规则把对方看作环境的一个不变的部分而忽略了相互的作用,不管他们在有限的假设下所做的计算是多么的聪明。如果你离开对方适应你、你适应对方、对方又适应于你的适应这样一直下去的反应过程去模拟你的对方,那么你的聪明是不会有好结果的。这是一条充满成功希望的艰难之路,显然在两次竞赛中没有一个复杂的规则精于此道。
1701028595
1701028596
另一个太聪明的方式是使用“永久报复”的策略。这个策略只要对方合作它就合作,但是一旦对方背叛一次,它就决不合作。由于这个策略是善良的,它与其他善良的策略相处得很好。并且它与那些不怎么反应的规则(如完全随机的规则)相遇时,干得也不错。但它与许多其他规则相遇就干得很差,因为对于那些偶尔背叛但准备一旦受惩罚就撤回的规则来说,它太快放弃合作了。“永久报复”看起来似乎很聪明,因为它为避免背叛提供了最大的激励,但是它为了自己的利益显得太严厉了。
1701028597
1701028598
参加竞赛的规则中还有第三种太聪明的形式是,它们采用的概率策略是如此复杂以至于其他策略不能把它们与纯粹的随机选择区分开来。换句话说,就是太多的复杂性就显得是完全杂乱无章。如果你采用一个看起来是随机的策略,那么你也就显得对对方不反应,如果你是不反应的,对方就受不到与你合作的激励。因此复杂到不可理解是非常危险的。
1701028599
1701028600
当然,在许多人类事务中一个使用复杂规则的人可以向对方解释每一个选择的理由。然而,问题出现了。对方可能怀疑所提供的这些理由,因为它们是如此复杂显得好像是专门为这个场合设计的。在这个情况下对方将认为不值得有任何反应。因此,对方会把一个显得不可预测的规则看作是不可改造的。结果自然是导致背叛。
1701028601
1701028602
“一报还一报”在竞赛中得到巨大成功的原因之一是它具有很大的清晰性,即它非常容易被对方理解。当你使用“一报还一报”策略时,对方有很好的机会去理解你在干什么。你对任何背叛的一对一的反应是一个很容易被意识到的模式。而且你的未来行为是能被预测的。一旦这些情况发生了,对方能容易地发现应付“一报还一报”的最好方式就是与它合作。假设这个游戏有足够的可能继续下去,至少还有下一步相遇。那么当你遇到“一报还一报”策略时只有马上和它合作是最好的,这样你将可以在下一步得到一个合作。
1701028603
1701028604
另外,在零和博弈(如下棋)和非零和博弈(如“重复囚徒困境”)之间有一个重要的不同。在下棋时,让你的对手猜疑你的企图是很有用的,你的对手越是怀疑,他(或她)的策略就越没效果。在对手的任何无效行为就是你的利益的零和博弈中,隐瞒你的企图是很有用的。但是在非零和情况下,如此聪明不总是有好处的。在“重复囚徒困境”中,你要从对方的合作中得到好处。诀窍在于鼓励合作,一个好的方式就是清楚地表明你愿意回报,言语在这里是有帮助的。但大家都知道行动比言语更响亮。这就是“一报还一报”之所以如此有效的原因。
1701028605
1701028606
[1]贝尔(Behr 1981)用这一标准重新计算了第一轮计算机“囚徒困境”的分数。他指出,在某些环境中,比赛者试图将他们的相对而非绝对得分最大化。然而,依照这种解释,比赛就不再是“囚徒困境”,而是一种零和博弈,在这种零和博弈中“总是背叛”是在任何w值的情况下的唯一的超优策略。
1701028607
1701028608
[2]对策者的这两种比较标准可以采用以下规范表述方式:用表达式V(A|B)代表当策略A与策略B相遇时策略A的期望值。人们共同的错误是将V(A|B)与V(B|A)作比较,然后试图使自己比对手做得更好。正如在竞赛结构中所反映的比赛的本来目的是在与其他所有对策者相遇时获得最高可能的得分,即与所有策略B相遇后V(A|B)的平均值的最大化。当遇到使用特别策略B的对策者,一个好的比较标准是看你是否做得尽可能的好。与同一个策略B相遇,策略A的表现应和策略A′的表现相比较,即V(A|B)与V(A′|B)相比较。总之,你采用的应该是在与所有的策略B相遇后平均得分最高的策略。
1701028609
1701028610
[3]更多的有关吉普赛人与非吉普赛人之间的关系的论述,参见Kenrick and Puxon(1972),Quintana and Floyd(1972),Acton(1974),Sway(1980)。
1701028611
1701028612
[4]这一小群体的作用的例子基于w=0.9,T=5,R=3,P=1,S=0。
1701028613
1701028614
1701028615
1701028616
[
上一页 ]
[ :1.701028567e+09 ]
[
下一页 ]