1701029120
表A.5 第二轮规则的成绩
1701029121
1701029122
1701029123
1701029124
1701029125
1701029126
1701029127
1701029128
1701029129
1701029130
1701029131
在表A.5中还列有每个规则实际竞赛得分以及它与预测得分之间的差值,我们注意到竞赛值的范围是几百分,但这些差值一般都小于10分,这再一次证明这5个代表能很好地说明规则的总体性能。
1701029132
1701029133
差值的另一个有趣的特点是,名列前茅的规则趋于具有最大的正的差值,这说明在5个代表规则不能说明的方面,它们比大多数其他规则做得好。
1701029134
1701029135
现在这些代表可以用来帮助回答什么在起作用,为什么起作用这个中心问题。
1701029136
1701029137
表A.5很清楚地显示了与5个代表的得分模式。头3个代表本身是善良的,所有善良的规则与这3个规则的得分都是453,所以善良规则与这3个规则的得分和第一名“一报还一报”相比并没有丢分。非善良的规则一般就不如“一报还一报”做得好。就如表A.5这三列所显示的正数比负数占优势。
1701029138
1701029139
举一个例子,非善良规则中最好的是由保罗·哈林顿(Paul Harrington)提交的。这个规则是“一报还一报”的变形,是一个能检查出“随机”程序,有办法摆脱交替背叛(反射作用)和用某种方法来试着逃避惩罚的规则。它总是在第37步背叛并在这之后增加背叛的概率,除非对方在这些背叛之后立即用背叛报复它。它与5个代表竞赛时都不如“一报还一报”做得好。特别是与第二个代表,它损失最大,它比“一报还一报”少得到37.2分。这第二个代表是“修正的状态转换”,它是第一轮中的补充规则的改进,由乔纳森·平克利(Jonathan Pinkley)提交第二轮竞赛。这个“修正的状态转换”规则把对方模拟成一个一步马尔可夫过程,在假设这个模型是正确的基础上,它作出最大化它的长期得分的选择。当哈林顿的规则背叛越来越多时,这个“修正的状态转换”规则一直进行对方在四个可能的结果下的合作概率的估计,最终“修正的状态转换”规则认定在对方占它便宜之后合作是没有好处的,紧接下来它又认定,即使在双方合作之后再合作也是没有好处的。[1]
1701029140
1701029141
因此,即使对方愿意接受一些背叛,一旦达到它的忍耐极限就很难让它相信某人能改过。虽然一些非善良规则在与“修正的状态转换”相遇时表现比“一报还一报”好,但是,这些规则与其他代表相遇时一般都表现很差。
1701029142
1701029143
这5个代表不仅能用来分析第二轮竞赛的结果,还能用来构造竞赛的假想变形。这是通过对各个类型的规则指定不同的相对权重来实现的。5个代表可以看作各自有一个大的选民区。加上残差的非代表选民区,这5个选民区就可以完全决定每个规则在竞赛中的成绩。这些代表的使用使得我们能研究如果这些选民区中的一个比它原来大了许多时会发生什么情况。特别地,我们考虑的假想竞赛是如果一个给定的选区是它原来的5倍时的情况。由于有6个选区,所以有6个假想竞赛。这些假想竞赛每个都与原来的竞赛有很大变化,因为它们各自使6个选区中的一个变为原来的5倍。并且每一个代表了不同种类的变化,因为它们都是基于放大规则环境的不同方面的影响。[2]
1701029144
1701029145
事实上,这些假想竞赛的得分与原来竞赛的得分有很好的相关性,如果残差是原来的5倍,这个竞赛的得分与原来竞赛的得分的相关系数是0.82。并且当5个代表中的任何1个选区变为原来的5倍,所得的竞赛得分与原来第二轮竞赛的得分的相关系数是从0.9到0.96。这意味着即使各种类型参赛程序的分布与原来的情况有很大的不同,总体的结果仍是相当稳定的。因此,第二轮竞赛的结果是相当鲁棒的。
1701029146
1701029147
如果注意力从竞赛的总体情况移到胜利者的一致性上,人们会问“一报还一报”在这6个假想竞赛中表现如何。答案是在6个假想竞赛的5个中它名列第一。这是一个非常强的结果,因为它表明“一报还一报”在变化很大的环境下也还是最好的规则。
1701029148
1701029149
“一报还一报”在假想竞赛中成功的一个例外是很有趣的,在“修正的状态转换”规则的选区变大5倍的情况下,“一报还一报”名列第二。第一名是一个在原来竞赛中只名列49的规则。这个规则是由新西兰奥克兰的罗伯特·莱兰(Robert Leyland)提交的。它的动机与“镇定者”相似。它以合作开始,然后就试探它能够占多大的便宜而不被惩罚。正如从表A.5中可以看到,莱兰的规则由于与第三个代表以及“镇定者”相遇时表现太差而名列49。但是它与“修正的状态转换”相遇时比“一报还一报”多得90分,因为这个规则从初期的合作中得到了很大的好处。如果“修正的状态转换”代表的选区增大5倍,莱兰的规则确实干得比“一报还一报”以及其他任何提交的规则好。
1701029150
1701029151
“一报还一报”赢得5个假想竞赛,并在第6个假想竞赛中名列第二的事实说明:“一报还一报”的胜利确实是非常鲁棒的。
1701029152
1701029153
[1]“修正的状态转换”的程序中有一错误之处,因而并不能完全按预定计划运行。然而在为其他的参赛程序提供有趣的挑战方面,它确实是一个有代表性的策略。
1701029154
1701029155
[2]假想竞赛得分的计算方式如下。使给定代表选区为原大的5倍,设T′=T+4cs,其中T′为新的竞赛得分,T为原来的竞赛得分,c为起放大作用的代表的回归方程的系数,s为给定规则与代表相遇的得分。应当注意的是,一个代表的“选区”的含义就是如此规定的,且一个典型的规则是若干代表的选区的一部分。赋予残差额外权重的假想竞赛由T′=T+4r的模拟方式构成,其中r为给定规则得分的回归方程的残差。
1701029156
1701029157
1701029158
1701029159
1701029161
合作的进化(修订版) 附录B 理论命题的证明
1701029162
1701029163
附录B对理论命题作一个回顾,并且提供在正文中所没有的证明和所有集体稳定策略的特征的理论结果。
1701029164
1701029165
“囚徒困境”博弈是一个双人博弈,每人可选合作(C)或背叛(D)。如果双方都合作,两人都得到奖励R,如果双方都背叛,两人都得到惩罚P。如果一人合作,另一人背叛,那么第一个人得到“笨蛋”的报酬S,而另一人得到诱惑的报酬T。这些报酬的顺序是T>R>P>S,并满足R>(T+S)/2。在第一章图1.1中的博弈矩阵给出了相应的数值。在“重复囚徒困境”中,每一步只值前一步的w,这里0<w<1。因此在重复博弈中,两人总是相互合作的累积报酬是R+wR+w2R…=R/(1-w)。
1701029166
1701029167
一个策略是从现在为止的博弈历史到当前步合作的概率的函数。一个典型的策略是“一报还一报”,它在第一步一定合作,然后总是重复对方在上一步的做法。一般地,策略A与策略B相遇的值(或得分)用V(A|B)来表示。如果V(A|B)>V(B|B)那么就可以说策略A可以侵入由策略B组成的群体。如果不存在能侵入策略B的策略,那么策略B就是集体稳定的。
1701029168
1701029169
第一个命题给出了一个不好的消息,即如果未来是足够重要的,在“重复囚徒困境”中不存在最好的策略。
[
上一页 ]
[ :1.70102912e+09 ]
[
下一页 ]