1701028855
说明:每个位置的数字代表该策略在第二轮计算机竞赛中的名次,例如:“1”代表“一报还一报”,“31”代表“奈德格”。
1701028856
1701028857
在这个稳定的策略模式中有几个显著的特征。首先,生存下来的策略一般都是结成大小不等的群。开始时随机散布的群体已经变成几个由相同规则形成的区域。有时这些规则能传播很长的距离。然而也有很少的几个被其他两三个不同区域包围的小区域,甚至有单个领地。
1701028858
1701028859
能生存下来的策略大多是在竞赛中得分较高的规则。例如“一报还一报”,每次从4个拷贝开始,在最终的群体中平均出现有17个。但也有5个其他规则较多地出现在最终的群体中,最好的一个是由鲁迪·奈德格(Rudy Nydegger)提交的在循环赛中名列第31名的规则。在领地系统中,它平均有50个追随者。因此,一个在循环赛中只名列中间的规则在二维领地系统中却成为最成功的规则,这种情况是如何发生的呢?
1701028860
1701028861
这个规则的策略本身是很难分析的,因为它基于一个复杂的查表方式,根据前3步的结果来决定下一步该如何做。但是可以通过它与其他规则相遇的情况来进行分析。和其他生存下来的规则一样,“奈德格”决不首先背叛。但是,它的独特之处在于当对手首先背叛后,“奈德格”有时能让对方慷慨“道歉”,使得它最终得到比双方合作更高的得分。这种情况发生在24个非善良规则中的5个规则身上。在循环赛中,这不足以使“奈德格”表现出色,因为它经常与其他非善良规则陷入麻烦。
1701028862
1701028863
在领地系统中,情况就不一样。通过使那5个非善良规则向他“道歉”,“奈德格”使得很多邻居都向它转化。当这些“道歉”者中有一个是“奈德格”的邻居,而它的其他3个邻居是善良规则时,“奈德格”就有可能比它的4个邻居或者甚至比它们的邻居们干得更好。这时,它不仅使这个“道歉者”转化过来,而且也使一些或全部邻居转化过来。因此,在基于通过模仿而扩散的社会系统中,即使在平均意义上说不是那么出色的规则也有很大的可能取得出色的成功。这是因为偶尔的成功会赢得很多的转化。“奈德格”的善良性使它避免了不必要的冲突,并在非善良规则被淘汰后还能保持它的胜利。“奈德格”的优势在于有5个规则会低声下气地向它道歉,而没有其他善良规则能从多于2个的规则身上引出这样的“道歉”来。
1701028864
1701028865
领地系统相当生动地说明了对策者的相互作用影响进化过程的方式。虽然有许多其他的有趣的可能性有待分析,但我们已经在进化的意义上分析了各种结构。[5]本书中考虑的五个结构揭示了合作进化的各个不同的方面。
1701028866
1701028867
1.随机混合被用来作为最基本的结构。循环赛和理论上的命题说明了基于回报的合作如何能够在这种即使是最少的社会结构情况下成长起来。
1701028868
1701028869
2.对小群体的考察说明了合作的进化是如何开始的。小群体允许新来者至少有一个小的机会与其他新来者相遇,尽管新来者本身是原来群体的一个可忽略的部分。即使新来者绝大部分是与原来的非合作策略相遇,但采用回报的小群体的新来者能够侵入“小人”的群体。
1701028870
1701028871
3.当与通过它们自己相互作用的经历所得的信息相比,对策者之间拥有更多的信息时,群体的分化就发生了。如果对策者有标记指示它们的群体身份和个体的态度,成见和等级地位就会产生。如果对策者能相互观察到对方与其他个体的相互作用,它们就能建立信誉,而信誉的存在能导致一个以尽力阻止恶棍为特征的世界。
1701028872
1701028873
4.政府在使它的大部分公民服从方面有它自己的策略问题,这不仅是在某一特定情况下选择一个有效的策略的问题,而且还是一个如何设立标准,使得服从既对公民有吸引力又能有利于社会。
1701028874
1701028875
5.领地系统是考察如果对策者只和它们的邻居打交道并且模仿比它们做得更成功的邻居时,会出现什么情况。与邻居的相互作用,产生了特定策略传播的复杂模式,并且为有些做得很差的策略在某些情况下做得异常出色提供了可能。
1701028876
1701028877
[1]用市场的术语来表达就称为指标。
1701028878
1701028879
[2]如果屈服,你的得分为S+wR+w2S+w3R…=(S+wR)/(1-w2);如果反抗,你就得一直背叛,得分为P+wP+w2P+w3P…=(P+wP)/(1-w2)。所以,当(S+wR)/(1-w2)>(P+wP)/(1-w2)或S+wR>p+wP或w>(P-S)/(R-P)时,背叛就显得毫无意义。因此,当w足够大时,就没有必要背叛。如果S=0,P=1,R=3(像书中给出的那样),当w大于1/2时,就没有必要再反抗。
1701028880
1701028881
[3]进化稳定策略的概念与集体稳定策略的概念相类似,但对于一个善良策略而言,两者是一回事,正如第三章注释[1]中阐述的那样。
1701028882
1701028883
[4]基于这些数值,且w=1/3,这个领地系统使得Dn>Tn-1>Dn-1,除非D3>T4。其中Dn为总是背叛与n个邻近的“一报还一报”相遇的得分,Tn为“一报还一报”与其他n个临近的“一报还一报”相遇的得分。例如,D4=V(“总是背叛”|“一报还一报”)=T+wP/(1-w)=56+(1/3)×6/(2/3)=59。
1701028884
1701028885
[5]一些有意思的有待研究的可能性是:
1701028886
1701028887
(1)相互作用的结果取决于相互作用的历史,例如,它可能取决于对策者做得如何。一个不成功的比赛者更有可能会死亡、破产或去寻找新的伙伴。这意味着不值得去剥削一个不会或不能报复的比赛者,原因是你不必杀鸡取蛋。
1701028888
1701028889
(2)比赛不必是重复“囚徒困境”。例如,它可能是一种重复“孬种游戏”,最坏的结果便是双方背叛,如危机谈判或工人罢工等(Jervis 1978)。这样的比赛中合作进化的结果,参见Maynard Smith(1982)和Lipman(1983)。另一种可能性是每一步所承担的风险是不同的(Axelrod 1979)。还有一种可能,除了简单的两种选择(合作或背叛)以外,对策者可能会面临更多的选择。
1701028890
1701028891
(3)相互作用可能会同时在两个以上的对策者中发生。共有物的供应为n人的“囚徒困境”提供了一个典型的范例(Olson 1965)。其应用涉及范围很广,在这类问题中,每个参加者都受到免费享用其他人努力的诱惑。这方面的例子包括议会中游说的组织和集体安全的提供。如道斯(Dawes 1980)指出的,n人情形与两人情形在定性上有三个方面不同。首先,一个背叛所引起的危害会涉及许多人而不是集中在一个人身上;第二,在n人对策中,对策者的行为可能是匿名的;第三,由于收益取决于许多不同的对策者的行为,每个对策者不可能完全控制所有其他对策者。有大量的有关文献,但较好的有Olson(1965),G. Hardin(1968),Schelling(1973),Taylor(1976),Dawes(1980)和R. Hardin(1982)。
1701028892
1701028893
(4)辨别和报复的能力都是有代价的,因此如果几乎所有的其他人使用善良策略,那么,你最好放弃辨别和报复的能力。这有助于说明报复能力的减弱,并提供了一个基于进化原则而不是正规协议的方式来研究军备控制和裁军。
1701028894
1701028895
(5)对策者有时不能确定对方上一步的真正选择。这是一个随机噪声或系统性的误解的问题(Jervis 1976)。为了研究这个情况,在加上对对方上一步选择有1%机会的误解后,重新进行第一轮竞赛。结果又是“一报还一报”胜利。这说明在有点误解的条件下“一报还一报”是相当鲁棒的。
1701028896
1701028897
1701028898
1701028899
1701028901
合作的进化(修订版) 第九章 回报的鲁棒性
1701028902
1701028903
进化的方法基于一个简单的原则:成功的东西更有可能在将来经常出现。但机制有各种各样,经典的达尔文进化中的机制是基于不同的生存和复制的自然选择。议会中的机制可能是那些有效地为选民提供法案和服务的议员们会增加再次当选的机会。商业界的机制可能是一个获利的公司可以避免破产。但是进化的机制不必是生与死的问题,对于有智能的对策者,一个成功的策略能更经常地在将来出现,是因为其他人转变过来采用这个策略。这种转变或多或少可以是对成功者的盲目模仿,或者是基于有意识的学习过程。
1701028904
[
上一页 ]
[ :1.701028855e+09 ]
[
下一页 ]