打字猴:1.70102859e+09
1701028590 在决定是否带伞时,我们并不需要担心老天会考虑我们的行为。我们可以根据以往的经验,判断下雨的可能性。在零和博弈中,如下棋,我们可以放心地假设对手将走他所能发现的最危险的一步棋。并且我们可以依此去行动。因此,在我们的分析中尽可能地精明和复杂是有好处的。
1701028591
1701028592 非零和博弈——像“囚徒困境”——并不是这样。不像老天下雨,对方对你的行为是有反应的,也不像下棋的对手,在“囚徒困境”中的对方不应该被认为是一心想背叛你的。对方将把你的行为看作你是否回报合作的信号。因此,你自己的行为将会反射到你的身上。
1701028593
1701028594 试图使得分最大化的规则把对方看作环境的一个不变的部分而忽略了相互的作用,不管他们在有限的假设下所做的计算是多么的聪明。如果你离开对方适应你、你适应对方、对方又适应于你的适应这样一直下去的反应过程去模拟你的对方,那么你的聪明是不会有好结果的。这是一条充满成功希望的艰难之路,显然在两次竞赛中没有一个复杂的规则精于此道。
1701028595
1701028596 另一个太聪明的方式是使用“永久报复”的策略。这个策略只要对方合作它就合作,但是一旦对方背叛一次,它就决不合作。由于这个策略是善良的,它与其他善良的策略相处得很好。并且它与那些不怎么反应的规则(如完全随机的规则)相遇时,干得也不错。但它与许多其他规则相遇就干得很差,因为对于那些偶尔背叛但准备一旦受惩罚就撤回的规则来说,它太快放弃合作了。“永久报复”看起来似乎很聪明,因为它为避免背叛提供了最大的激励,但是它为了自己的利益显得太严厉了。
1701028597
1701028598 参加竞赛的规则中还有第三种太聪明的形式是,它们采用的概率策略是如此复杂以至于其他策略不能把它们与纯粹的随机选择区分开来。换句话说,就是太多的复杂性就显得是完全杂乱无章。如果你采用一个看起来是随机的策略,那么你也就显得对对方不反应,如果你是不反应的,对方就受不到与你合作的激励。因此复杂到不可理解是非常危险的。
1701028599
1701028600 当然,在许多人类事务中一个使用复杂规则的人可以向对方解释每一个选择的理由。然而,问题出现了。对方可能怀疑所提供的这些理由,因为它们是如此复杂显得好像是专门为这个场合设计的。在这个情况下对方将认为不值得有任何反应。因此,对方会把一个显得不可预测的规则看作是不可改造的。结果自然是导致背叛。
1701028601
1701028602 “一报还一报”在竞赛中得到巨大成功的原因之一是它具有很大的清晰性,即它非常容易被对方理解。当你使用“一报还一报”策略时,对方有很好的机会去理解你在干什么。你对任何背叛的一对一的反应是一个很容易被意识到的模式。而且你的未来行为是能被预测的。一旦这些情况发生了,对方能容易地发现应付“一报还一报”的最好方式就是与它合作。假设这个游戏有足够的可能继续下去,至少还有下一步相遇。那么当你遇到“一报还一报”策略时只有马上和它合作是最好的,这样你将可以在下一步得到一个合作。
1701028603
1701028604 另外,在零和博弈(如下棋)和非零和博弈(如“重复囚徒困境”)之间有一个重要的不同。在下棋时,让你的对手猜疑你的企图是很有用的,你的对手越是怀疑,他(或她)的策略就越没效果。在对手的任何无效行为就是你的利益的零和博弈中,隐瞒你的企图是很有用的。但是在非零和情况下,如此聪明不总是有好处的。在“重复囚徒困境”中,你要从对方的合作中得到好处。诀窍在于鼓励合作,一个好的方式就是清楚地表明你愿意回报,言语在这里是有帮助的。但大家都知道行动比言语更响亮。这就是“一报还一报”之所以如此有效的原因。
1701028605
1701028606 [1]贝尔(Behr 1981)用这一标准重新计算了第一轮计算机“囚徒困境”的分数。他指出,在某些环境中,比赛者试图将他们的相对而非绝对得分最大化。然而,依照这种解释,比赛就不再是“囚徒困境”,而是一种零和博弈,在这种零和博弈中“总是背叛”是在任何w值的情况下的唯一的超优策略。
1701028607
1701028608 [2]对策者的这两种比较标准可以采用以下规范表述方式:用表达式V(A|B)代表当策略A与策略B相遇时策略A的期望值。人们共同的错误是将V(A|B)与V(B|A)作比较,然后试图使自己比对手做得更好。正如在竞赛结构中所反映的比赛的本来目的是在与其他所有对策者相遇时获得最高可能的得分,即与所有策略B相遇后V(A|B)的平均值的最大化。当遇到使用特别策略B的对策者,一个好的比较标准是看你是否做得尽可能的好。与同一个策略B相遇,策略A的表现应和策略A′的表现相比较,即V(A|B)与V(A′|B)相比较。总之,你采用的应该是在与所有的策略B相遇后平均得分最高的策略。
1701028609
1701028610 [3]更多的有关吉普赛人与非吉普赛人之间的关系的论述,参见Kenrick and Puxon(1972),Quintana and Floyd(1972),Acton(1974),Sway(1980)。
1701028611
1701028612 [4]这一小群体的作用的例子基于w=0.9,T=5,R=3,P=1,S=0。
1701028613
1701028614
1701028615
1701028616
1701028617 合作的进化(修订版) [:1701027610]
1701028618 合作的进化(修订版) 第七章 如何促进合作
1701028619
1701028620 这一章是从改革者的角度来看问题。本章提出的问题是为了促进参与者之间的合作,策略的环境本身要如何改变。上一章是从一个不同的角度考虑如何给处于一个给定环境的个体提建议。如果策略环境允许个体之间有足够长时间的接触,那么这些建议指出了为什么一个自私者在即使存在短期不合作的激励的情况下会愿意合作。但是如果这种接触不是持续性的,那么一个自私者将会通过短期的利益而得到好处,即背叛。然而这一章不考虑给定的策略环境,而是探讨如何通过改变策略的环境本身,例如通过增大未来的影响,来促进合作。
1701028621
1701028622 通常人们认为合作是件好事,从对局者本身的眼光考虑这是很自然的。毕竟双方合作在“囚徒困境”中对双方都有好处。所以,本章是用如何促进合作的观点来写的。然而如前面说过的,在一些情形中人们要做的却恰恰相反。为了防止公司联手固定价格或者防止潜在的敌人协调他们的行动,人们需要做破坏合作的事。
1701028623
1701028624 “囚徒困境”本身来源于这样一种情形。两个同案犯被逮捕并被分别审讯。他们可以坦白罪行而背叛对方,以期得到较轻的惩罚。但是如果他们两人都供认,那么这个坦白就不那么值钱了。另一方面,如果他们俩相互合作,拒绝供认,地方检察官只能给他们一个很小的惩罚。假设他们俩都不会因为告密而感觉道德上的不安或害怕,那么收益情况能构成“囚徒困境”(Luce and Raiffa 1957,pp.94—95)。从社会的观点看,这两个同案犯最好不要不久又在同样的情况下被抓,因为只有这样他们才能通过出卖对方得到个人的好处。
1701028625
1701028626 只要这种接触不是重复的,合作就非常困难,这就是为什么促进合作的一个重要方法,就是安排两个人再次见面,使他们能相互认识,并能回忆起对方至今是如何行为的。正是持续的接触,使基于回报的合作的稳定成为可能。促进双方合作可以从三个方面着手:使得未来相对于现在更重要些;改变对策者的四个可能的结果的收益值;教给对策者那些促进合作的准则、事实和技能。
1701028627
1701028628 增大未来的影响
1701028629
1701028630 如果未来相对于现在是足够重要的话,双方的合作就会是稳定的。因为每个对策者可以用隐含的报复来威胁对方,如果相互之间的接触时间持续足够长,使得这种威胁能够奏效的话。用数值的例子来说明这是如何进行的能使增加未来的影响的不同方法系统化。
1701028631
1701028632 如前所述,假设下一步所得到的收益只是当前步得到同样收益的一个固定的百分比。这个折扣系数w反映了为什么未来不如现在重要的两个理由。首先,对策的任何一方可能去世、破产或迁移,或者这个关系由于其他原因而终止。因为这些因素是不能明确预测的,所以下一步就不如当前步重要,有时还可能没有下一步。另一个未来没有现在重要的原因是,每个人都愿意今天就得到一定的好处,而不愿等到明天去得到同样的好处。这些因素结合起来就使得下一步没有当前重要。
1701028633
1701028634 数值的例子是我们熟悉的“重复囚徒困境”,它的收益值如下:当对方合作你背叛时则得到“诱惑”T=5,双方合作得到“奖励”R=3,双方背叛得到“惩罚”P=1,对方背叛你合作时则得到“笨蛋”的收益S=0。暂时先假设下一步的收益只相当于当前步的90%,即w=0.9。那么,如果对方采用“一报还一报”策略,你背叛就没有好处,这个结果可以从关于“一报还一报”什么时候是集体稳定的命题2直接得到。但我们可以再算算看是怎么回事。当遇到“一报还一报”策略时,你从不背叛,那么,你每一步得分是R。考虑到折扣率,它的累计期望得分是R+wR+w2R+w3R…,即R/(1-w),在R=3,w=0.9时,这个得分是30分。
1701028635
1701028636 你不能比这做得更好了。如果你总是背叛,你在第一步得到富有诱惑的T=5。但在此之后,你只能得到对背叛的惩罚P=1,这个积累值是14分。[1]这显然没有你通过合作得到的30分好。你也可以试试采用背叛和合作交替的策略,重复地每两步占“一报还一报”一次便宜。但代价是每两步中有一步你要被占便宜,这时的得分是26.3分。[2]这虽然比总是背叛的14分好,但比与“一报还一报”总是合作的30分差。命题2的含义是:如果这两个策略与“一报还一报”的对策结果没能比双方合作好,那么,其他策略也不能。如果未来对现在有较大的影响,如折扣系数为90%,那么,与采用“一报还一报”的人合作是有好处的。正因为这样,采用“一报还一报”是有好处的。因此,在未来的影响较大的情况下,基于回报的合作是稳定的。
1701028637
1701028638 当未来的影响不是这么大时,情况就有所变化。假设折扣系数从90%变成30%,这个减少可能是由于终止相互接触的可能性变大,或者由于对即时的利益比对以后的报酬有更大的偏好,或者由于两个因素的组合。另外,假设对方采用“一报还一报”,如果你合作,你每步将得到R,期望得分将和原来一样:R/(1-w)。但现在因为w值较低,它只值4.3分。你是否能做得更好?如果你总是背叛,第一步得T=5,以后的每步你得P=1,这个积累值是5.4分,它比你善良时所能得到的多。背叛与合作交替的策略做得更好,它得5.5分。所以当折扣系数不是足够高的话,合作就很可能被双方错过或者很快就消失掉。这个结果和采用“一报还一报”无关,因为第三章中的命题3表明,任何首先合作的策略只有在折扣系数足够大时才是稳定的。这意味着当未来相对于现在不是足够重要时,没有任何形式的合作是稳定的。
1701028639
[ 上一页 ]  [ :1.70102859e+09 ]  [ 下一页 ]