打字猴:1.70102914e+09
1701029140
1701029141 因此,即使对方愿意接受一些背叛,一旦达到它的忍耐极限就很难让它相信某人能改过。虽然一些非善良规则在与“修正的状态转换”相遇时表现比“一报还一报”好,但是,这些规则与其他代表相遇时一般都表现很差。
1701029142
1701029143 这5个代表不仅能用来分析第二轮竞赛的结果,还能用来构造竞赛的假想变形。这是通过对各个类型的规则指定不同的相对权重来实现的。5个代表可以看作各自有一个大的选民区。加上残差的非代表选民区,这5个选民区就可以完全决定每个规则在竞赛中的成绩。这些代表的使用使得我们能研究如果这些选民区中的一个比它原来大了许多时会发生什么情况。特别地,我们考虑的假想竞赛是如果一个给定的选区是它原来的5倍时的情况。由于有6个选区,所以有6个假想竞赛。这些假想竞赛每个都与原来的竞赛有很大变化,因为它们各自使6个选区中的一个变为原来的5倍。并且每一个代表了不同种类的变化,因为它们都是基于放大规则环境的不同方面的影响。[2]
1701029144
1701029145 事实上,这些假想竞赛的得分与原来竞赛的得分有很好的相关性,如果残差是原来的5倍,这个竞赛的得分与原来竞赛的得分的相关系数是0.82。并且当5个代表中的任何1个选区变为原来的5倍,所得的竞赛得分与原来第二轮竞赛的得分的相关系数是从0.9到0.96。这意味着即使各种类型参赛程序的分布与原来的情况有很大的不同,总体的结果仍是相当稳定的。因此,第二轮竞赛的结果是相当鲁棒的。
1701029146
1701029147 如果注意力从竞赛的总体情况移到胜利者的一致性上,人们会问“一报还一报”在这6个假想竞赛中表现如何。答案是在6个假想竞赛的5个中它名列第一。这是一个非常强的结果,因为它表明“一报还一报”在变化很大的环境下也还是最好的规则。
1701029148
1701029149 “一报还一报”在假想竞赛中成功的一个例外是很有趣的,在“修正的状态转换”规则的选区变大5倍的情况下,“一报还一报”名列第二。第一名是一个在原来竞赛中只名列49的规则。这个规则是由新西兰奥克兰的罗伯特·莱兰(Robert Leyland)提交的。它的动机与“镇定者”相似。它以合作开始,然后就试探它能够占多大的便宜而不被惩罚。正如从表A.5中可以看到,莱兰的规则由于与第三个代表以及“镇定者”相遇时表现太差而名列49。但是它与“修正的状态转换”相遇时比“一报还一报”多得90分,因为这个规则从初期的合作中得到了很大的好处。如果“修正的状态转换”代表的选区增大5倍,莱兰的规则确实干得比“一报还一报”以及其他任何提交的规则好。
1701029150
1701029151 “一报还一报”赢得5个假想竞赛,并在第6个假想竞赛中名列第二的事实说明:“一报还一报”的胜利确实是非常鲁棒的。
1701029152
1701029153 [1]“修正的状态转换”的程序中有一错误之处,因而并不能完全按预定计划运行。然而在为其他的参赛程序提供有趣的挑战方面,它确实是一个有代表性的策略。
1701029154
1701029155 [2]假想竞赛得分的计算方式如下。使给定代表选区为原大的5倍,设T′=T+4cs,其中T′为新的竞赛得分,T为原来的竞赛得分,c为起放大作用的代表的回归方程的系数,s为给定规则与代表相遇的得分。应当注意的是,一个代表的“选区”的含义就是如此规定的,且一个典型的规则是若干代表的选区的一部分。赋予残差额外权重的假想竞赛由T′=T+4r的模拟方式构成,其中r为给定规则得分的回归方程的残差。
1701029156
1701029157
1701029158
1701029159
1701029160 合作的进化(修订版) [:1701027615]
1701029161 合作的进化(修订版) 附录B 理论命题的证明
1701029162
1701029163 附录B对理论命题作一个回顾,并且提供在正文中所没有的证明和所有集体稳定策略的特征的理论结果。
1701029164
1701029165 “囚徒困境”博弈是一个双人博弈,每人可选合作(C)或背叛(D)。如果双方都合作,两人都得到奖励R,如果双方都背叛,两人都得到惩罚P。如果一人合作,另一人背叛,那么第一个人得到“笨蛋”的报酬S,而另一人得到诱惑的报酬T。这些报酬的顺序是T>R>P>S,并满足R>(T+S)/2。在第一章图1.1中的博弈矩阵给出了相应的数值。在“重复囚徒困境”中,每一步只值前一步的w,这里0<w<1。因此在重复博弈中,两人总是相互合作的累积报酬是R+wR+w2R…=R/(1-w)。
1701029166
1701029167 一个策略是从现在为止的博弈历史到当前步合作的概率的函数。一个典型的策略是“一报还一报”,它在第一步一定合作,然后总是重复对方在上一步的做法。一般地,策略A与策略B相遇的值(或得分)用V(A|B)来表示。如果V(A|B)>V(B|B)那么就可以说策略A可以侵入由策略B组成的群体。如果不存在能侵入策略B的策略,那么策略B就是集体稳定的。
1701029168
1701029169 第一个命题给出了一个不好的消息,即如果未来是足够重要的,在“重复囚徒困境”中不存在最好的策略。
1701029170
1701029171 命题1:如果折扣参数w足够大,不存在独立于其他人所采用的策略的最好策略。
1701029172
1701029173 证明已在第一章给出。
1701029174
1701029175 第二个命题说:如果每一个人都采用“一报还一报”,且未来是足够重要的,那么,没有人能通过改变到其他策略而做得更好。
1701029176
1701029177 命题2:“一报还一报”是集体稳定的,当且仅当w至少比(T-R)/(T-P)和(T-R)/(R-S)中较大者更大。
1701029178
1701029179 证明:首先这个命题等价于这样一个说法:即如果“一报还一报”(TFT)既不能被“总是背叛”(ALL D)侵入,也不能被交替使用背叛和合作的策略侵入的话,“一报还一报”就是集体稳定的。
1701029180
1701029181 说“总是背叛”不能侵入“一报还一报”就是意味着V(ALL D|TFT)≤V(TFT|TFT)。当“总是背叛”遇到“一报还一报”,它在第一步得到T,而后都得到P,因此使V(ALL D|TFT)=T+wP(1-w)。因为“一报还一报”总是与它自己合作,所以V(TFT|TFT)=R|(1-w),因此,当T+wP/(1-w)≤R/(1-w),或T(1-w)+wP≤R,或T-R≤w(T-P),或w≥(T-R)/(T-P)时,“总是背叛”不能侵入“一报还一报”。相似地,“交替背叛和合作”不能侵入“一报还一报”即意味着(T+wS)/(1-w2)≤R/(1-w),或者(T-R)/(R-S)≤w。因此,w≥(T-R)/(T-P)和w≥(T-R)/(R-S)等价于说“一报还一报”不能被“总是背叛”和“交替背叛和合作”的策略侵入。这两个描述是等价的。
1701029182
1701029183 现在要证明第二个描述所包含的两个意义。第一个意义是通过简单观察来建立的,即如果“一报还一报”是集体稳定的策略,那么没有规则可以侵入它。因此这两个特殊的规则也不能。另一个要证明的意义是,如果“总是背叛”和“交替背叛和合作”的策略不能侵入“一报还一报”,那么没有策略能侵入“一报还一报”。“一报还一报”只有两种状态,取决于对方上一步的所为(在效果上第一步它假设对方刚合作过)。因此,如果策略A与“一报还一报”相遇,这个任意的策略A在选择C(合作)之后最好能做的就是选择D(背叛)或C。相似的是,策略A在选择D之后,能做得最好的就是选择C或D。因此,策略A遇见“一报还一报”能做得最好的有四个可能,即重复序列CC、CD、DC或DD。第一个和“一报还一报”与另一个“一报还一报”相遇时所做的一样,第二个不会比第一个和第三个做得好。这就意味着如果第三个和第四个不能侵入“一报还一报”,那么,没有策略能侵入它。这两个可能性分别等价于“交替背叛和合作”和“总是背叛”两个策略。因此,如果这两个都不能侵入“一报还一报”,则没有规则能侵入它,即“一报还一报”是一个集体稳定策略。证明完毕。
1701029184
1701029185 证明了什么情况下“一报还一报”是集体稳定策略,下一大步就是要给出所有集体稳定策略的特性。描述所有集体稳定策略的特性是基于这样一个想法,即如果公共的策略使得潜在入侵者比它仿效公共的策略情况更糟,那么这个侵入就能被防止。如果规则B能肯定不管规则A以后做什么,它都能使规则A的总得分足够低,那么,规则B就能防止规则A的侵入。这就引出了下面有用的定义:规则B在第n步对于A具有安全的地位,如果不管在第n步以后A做什么,假设B在第n步以后背叛,都有V(A|B)≤V(B|B)。让Vn(A|B)表示A在第n步前的折扣累积分数,那么说明B在第n步对A来说具有安全地位的另一种方式是:
1701029186
1701029187 Vn(A|B)+wn-1P/(1-w)≤V(B|B)
1701029188
1701029189 因为如果B背叛,那么A在第n步之后做得最好的所得就是每步得到P。
[ 上一页 ]  [ :1.70102914e+09 ]  [ 下一页 ]