打字猴:1.701028083e+09
1701028083
1701028084
1701028085
1701028086 图2.1 决策规则的生态模拟过程
1701028087
1701028088 这个过程模拟了适者生存,一个在当前规则分布中平均来说是成功的规则将在下一代的规则分布中占更大的比例。开始时,所有类型的成功规则都将很快增长。但是在不成功的规则消失后,就要求成功的规则必须能与其他成功的规则相抗衡。
1701028089
1701028090 由于它没有引入新的行为规则,这个模拟提供的是一个生态的方法,它与允许通过变异引入新的策略的进化的方法不同。在这个生态的方法中,只改变给定规则的分布。不太成功的规则变得更少了,成功的规则得到了增长。个体类型的统计分布每一代都在变,它改变了每个个体相互作用的环境。
1701028091
1701028092 一开始,差的和好的程序具有相同的比例。但是随着时间的推移,差的被淘汰,好的则繁荣起来。如果成功是来自与其他成功的规则相互作用的话,这个成功将孕育着更多成功。另一方面,如果一个决策规则的成功是靠占人家的便宜得到的,那么当这些被占便宜的规则消失后,剥削者赖以成功的基础就被腐蚀了,剥削者也就要遭受同样的命运。
1701028093
1701028094 “哈林顿”(HARRINGTON),这个在第二轮竞赛的前15名中唯一的非善良规则,提供了生态消亡的一个绝好的例子。在生态竞赛的头200代左右,和“一报还一报”及其他成功的善良程序一样,“哈林顿”的百分比也在增长,这是因为“哈林顿”是一个占便宜的策略。但是到了第200代,情况就发生了转折性的变化。不太成功的程序已经基本消失,这意味着能被“哈林顿”占便宜的傻大头越来越少。不久“哈林顿”就赶不上那些成功的善良的规则,到第1 000代,“哈林顿”就像被它占便宜的傻大头一样消失了。
1701028095
1701028096 生态分析表明,与那些本身得分并不佳的程序相遇时干得不错,这只不过是在经历一个自我毁灭的过程。非善良者在开头还显得挺有希望的,但是时间一长它就摧毁了它自己赖以成功的基础。
1701028097
1701028098 生态方法的结果说明了“一报还一报”的又一个胜利。在最初的竞赛中“一报还一报”领先一点点,而且在整个生态模拟过程中一直保持领先。到了第1 000代,它是最成功的规则,并且比任何一个其他规则都增长得快。
1701028099
1701028100 “一报还一报”的所有记录是令人难忘的。概括地说,在第二轮竞赛中,“一报还一报”是62个参赛者中平均得分最高的规则。在6次为了反应不同类型规则的影响而构造的假想竞赛中,它又获得5次最高分和1次第二名。最后,在竞赛的生态模拟中它一直保持领先。加上它在第一轮竞赛中的胜利和它在实验室的对策实验中的良好表现。“一报还一报”显然是一个非常成功的策略。
1701028101
1701028102 第一章的命题1表明不存在独立于环境的绝对最好的规则。“一报还一报”的成功可以说明的是,它是一个很具鲁棒性的规则:即它在很大范围的环境中表现极佳。它的成功部分是由于其他规则预料到它的存在并且被设计得与它很好相处。要和“一报还一报”很好相处就要求和它合作,这反过来就帮助了“一报还一报”。即使那些像“检验者”一样被设计成伺机占便宜而不被惩罚的规则,也很快向“一报还一报”道歉。任何想占“一报还一报”便宜的规则最终将伤害自己。“一报还一报”从自己的不可欺负性得到好处是因为以下三个条件得到了满足:
1701028103
1701028104 1.遇到“一报还一报”的可能性是显著的。
1701028105
1701028106 2.一旦相遇,“一报还一报”很容易被识别出来。
1701028107
1701028108 3.一旦被识别出来,“一报还一报”的不可欺负性就显示出来。
1701028109
1701028110 因此,“一报还一报”从它自己的清晰性中得到好处。
1701028111
1701028112 另一方面,“一报还一报”放弃了占他人便宜的可能性。这种机会有时是很有利可图的,但是在广泛的环境中,试图占便宜而引来的问题也多种多样。首先,如果一个规则用背叛试探是否可以占便宜,它就得冒被那些可激怒的规则报复的风险。第二,双方的反击一旦开始,就很难自己解脱。最后,试图识别那些不反应的规则(如“随机”规则或者那些过分不合作的规则)并放弃与它们合作的努力,经常错误地导致放弃与其他一些规则的合作,而这些规则是可以被有耐心的规则像“一报还一报”挽救的。既能占便宜又不会付出太大的代价是第二轮竞赛中任何一个参赛程序都没有实现的。
1701028113
1701028114 “一报还一报”的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦,它的报复性使对方试着背叛一次后就不敢再背叛,它的宽容性有助于重新恢复合作,它的清晰性使它容易被对方理解,从而引出长期的合作。
1701028115
1701028116 [1]如文中所述,第二轮竞赛的长度是个变量。
1701028117
1701028118 [2]Rapoport和Chammah(1965,pp.72—73)将宽容定义为在得到“给笨蛋的报酬”S之后合作的可能性。与之相比,此处则是对宽容的更广的定义。
1701028119
1701028120 [3]它们之间的5次比赛,“一报还一报”的平均得分为225,“乔斯”为230。
1701028121
1701028122 [4]在参加竞赛的15个策略中,“改进的唐宁”平均得分为542,超过了“一报还一报”的平均得分504。在同样的条件下,“一报还两报”的平均得分为532,“向前看”为520。
1701028123
1701028124 [5]结束每一步比赛的概率之所以如此,是为了使每次比赛步数的期望中位数为200步。实际上,每对参赛者比赛5次,每次比赛的长度都是通过随机抽样一次性确定的。比赛步数的分配是预定的,所以随机抽样的结果应该为5次比赛每次比赛的长度分别是63、77、151、156和308步。因此,每次比赛的平均长度为151步,小于期望中数。
1701028125
1701028126 [6]这个再复制过程创造了一个模拟的第二代竞赛,在这一竞赛中,每个策略的平均得分是它与其他每个策略比赛得分的加权平均分,其中权重与第一代竞赛中其他策略的成功成正比。
1701028127
1701028128 [7]对未来竞赛的模拟是通过计算一个策略与其他策略比赛的加权平均分而产生的,其中权重为当前代中其他策略的生存数量。一个策略在下一代中的数量与它在当前代中的数量和它的得分的乘积成正比。这一过程假设收益矩阵为数量,这是本书中唯一一次将收益定为数量,而非相对值。
1701028129
1701028130
1701028131
1701028132
[ 上一页 ]  [ :1.701028083e+09 ]  [ 下一页 ]