打字猴:1.70102917e+09
1701029170
1701029171 命题1:如果折扣参数w足够大,不存在独立于其他人所采用的策略的最好策略。
1701029172
1701029173 证明已在第一章给出。
1701029174
1701029175 第二个命题说:如果每一个人都采用“一报还一报”,且未来是足够重要的,那么,没有人能通过改变到其他策略而做得更好。
1701029176
1701029177 命题2:“一报还一报”是集体稳定的,当且仅当w至少比(T-R)/(T-P)和(T-R)/(R-S)中较大者更大。
1701029178
1701029179 证明:首先这个命题等价于这样一个说法:即如果“一报还一报”(TFT)既不能被“总是背叛”(ALL D)侵入,也不能被交替使用背叛和合作的策略侵入的话,“一报还一报”就是集体稳定的。
1701029180
1701029181 说“总是背叛”不能侵入“一报还一报”就是意味着V(ALL D|TFT)≤V(TFT|TFT)。当“总是背叛”遇到“一报还一报”,它在第一步得到T,而后都得到P,因此使V(ALL D|TFT)=T+wP(1-w)。因为“一报还一报”总是与它自己合作,所以V(TFT|TFT)=R|(1-w),因此,当T+wP/(1-w)≤R/(1-w),或T(1-w)+wP≤R,或T-R≤w(T-P),或w≥(T-R)/(T-P)时,“总是背叛”不能侵入“一报还一报”。相似地,“交替背叛和合作”不能侵入“一报还一报”即意味着(T+wS)/(1-w2)≤R/(1-w),或者(T-R)/(R-S)≤w。因此,w≥(T-R)/(T-P)和w≥(T-R)/(R-S)等价于说“一报还一报”不能被“总是背叛”和“交替背叛和合作”的策略侵入。这两个描述是等价的。
1701029182
1701029183 现在要证明第二个描述所包含的两个意义。第一个意义是通过简单观察来建立的,即如果“一报还一报”是集体稳定的策略,那么没有规则可以侵入它。因此这两个特殊的规则也不能。另一个要证明的意义是,如果“总是背叛”和“交替背叛和合作”的策略不能侵入“一报还一报”,那么没有策略能侵入“一报还一报”。“一报还一报”只有两种状态,取决于对方上一步的所为(在效果上第一步它假设对方刚合作过)。因此,如果策略A与“一报还一报”相遇,这个任意的策略A在选择C(合作)之后最好能做的就是选择D(背叛)或C。相似的是,策略A在选择D之后,能做得最好的就是选择C或D。因此,策略A遇见“一报还一报”能做得最好的有四个可能,即重复序列CC、CD、DC或DD。第一个和“一报还一报”与另一个“一报还一报”相遇时所做的一样,第二个不会比第一个和第三个做得好。这就意味着如果第三个和第四个不能侵入“一报还一报”,那么,没有策略能侵入它。这两个可能性分别等价于“交替背叛和合作”和“总是背叛”两个策略。因此,如果这两个都不能侵入“一报还一报”,则没有规则能侵入它,即“一报还一报”是一个集体稳定策略。证明完毕。
1701029184
1701029185 证明了什么情况下“一报还一报”是集体稳定策略,下一大步就是要给出所有集体稳定策略的特性。描述所有集体稳定策略的特性是基于这样一个想法,即如果公共的策略使得潜在入侵者比它仿效公共的策略情况更糟,那么这个侵入就能被防止。如果规则B能肯定不管规则A以后做什么,它都能使规则A的总得分足够低,那么,规则B就能防止规则A的侵入。这就引出了下面有用的定义:规则B在第n步对于A具有安全的地位,如果不管在第n步以后A做什么,假设B在第n步以后背叛,都有V(A|B)≤V(B|B)。让Vn(A|B)表示A在第n步前的折扣累积分数,那么说明B在第n步对A来说具有安全地位的另一种方式是:
1701029186
1701029187 Vn(A|B)+wn-1P/(1-w)≤V(B|B)
1701029188
1701029189 因为如果B背叛,那么A在第n步之后做得最好的所得就是每步得到P。
1701029190
1701029191 接下来的定理体现了这样一个建议,即:如果你要采用一个集体稳定策略,在你能够担得起对方占便宜且保持你的安全地位时你应该只是合作。
1701029192
1701029193 特性化定理:B是集体稳定策略,当且仅当,在对方累积得分足够大的第n步时B采取背叛,即当Vn(A|B)>V(B|B)-wn-1[T+wP/(1-w)]。
1701029194
1701029195 参见阿克塞尔罗德的证明(Axelrod 1981)。
1701029196
1701029197 这个特性化定理以抽象的方式说明了,策略B若要是集体稳定的策略,在与对方相互作用的任意一点上作为相互作用的历史的函数,它必须如何做。[1]这是一个完整的特性,因为它是策略B是集体稳定的这一点的必要且充分的条件。
1701029198
1701029199 从这个定理还可以看到两个附加的关于集体稳定策略的结论。首先,只要对方还没有积累太大的得分,一个策略可以灵活地采用合作或背叛且还能保持集体稳定性。这种灵活性解释了为什么有许多典型的策略是集体稳定的。第二个结论是,一个善良的规则(从不首先背叛的规则)具有最大的灵活性,因为当它与相同的规则相遇时能得到最高可能的得分。换句话说,因为善良规则相互之间相处得如此好,使得它对潜在的入侵者比其他规则有更大的宽宏。
1701029200
1701029201 命题2表明,只有在未来是足够重要时,“一报还一报”才是集体稳定的,下一个命题用特性化定理来说明这个结论是很普遍的。事实上它对任何可能首先合作的策略都有效。
1701029202
1701029203 命题3:任何可能首先合作的策略B,只有在w足够大时,才能是集体稳定的。
1701029204
1701029205 证明:如果B在第一步合作,那么V(ALL D|B)≥T+wP/(1-w)。但是对任何的B,R/(1-w)≥V(B|B),因为R是B与另一个B相遇在囚徒困境的假设R>P和(S+T)/2的情况下所能做得最好的。因此在T+wP/(1-w)>R/(1-w)时,V(ALL D|B)>V(B|B)。这意味着当w<(T-R)/(T-P)时,“总是背叛”策略能侵入在第一步合作的B。如果B有一个正的机会在第一步合作,那么,只有w足够大,V(ALL D|B)才不会超过V1(B|B)。同样,如果B在第n步前不会首先合作,Vn(ALL D|B)=Vn(B|B),那么,只有w足够大,Vn+1(ALL D|B)才不会超过Vn+1(B|B)。
1701029206
1701029207 如前所述,特性化定理的结论是一个善良的规则有最大的灵活性。可是善良规则的灵活性如以下定理所示不是无限的。事实上,一个善良的规则必须是能被对方的第一次背叛所激怒,即在某步,这个规则有一个有限的机会用自己的背叛来报复。
1701029208
1701029209 命题4:一个善良策略要成为集体稳定的,它必须能被对方的第一个背叛所激怒。
1701029210
1701029211 证明:如果一个善良的策略不能被一个在第n步背叛的规则所激怒,那么它就不是集体稳定的,因为它能被只在第n步背叛的规则侵入。
1701029212
1701029213 不管w和报酬参数T、R、P和S的值如何,有一个策略总是集体稳定的,这个策略就是“总是背叛”。
1701029214
1701029215 命题5:“总是背叛”的策略总是集体稳定的。
1701029216
1701029217 证明:因为“总是背叛”的策略采用的是一直背叛,即在特性化定理条件要求的任何时候它都背叛,所以它是集体稳定的。
1701029218
1701029219 这就是说一个“小人”的世界能阻止采用其他策略的任何人的侵入,如果新来者每次只有一个的话。所以为了合作的进化能够进行,这个新来者必须是一个小群体。假设新来者A相对于已建立起群体的B是稀少的。积累在一起的A能为它们自己相互作用的环境提供一个有意义的部分,但它是B的环境可忽略的部分。因此,你可以说A的p小群体侵入B,如果PV(A|A)+(1-p)V(B|B)>V(B|B),这里p是采用A策略的人与采用相同策略的人相互作用所占的比例。解出p意味着,如果新来者之间有足够的相互作用,这种侵入是可能的。
[ 上一页 ]  [ :1.70102917e+09 ]  [ 下一页 ]