打字猴:1.70102916e+09

1701029160 合作的进化（修订版） [:1701027615]

1701029161 合作的进化（修订版）附录B 理论命题的证明

1701029162

1701029163 附录B对理论命题作一个回顾，并且提供在正文中所没有的证明和所有集体稳定策略的特征的理论结果。

1701029164

1701029165 “囚徒困境”博弈是一个双人博弈，每人可选合作（C）或背叛（D）。如果双方都合作，两人都得到奖励R，如果双方都背叛，两人都得到惩罚P。如果一人合作，另一人背叛，那么第一个人得到“笨蛋”的报酬S，而另一人得到诱惑的报酬T。这些报酬的顺序是T＞R＞P＞S，并满足R＞（T+S）/2。在第一章图1.1中的博弈矩阵给出了相应的数值。在“重复囚徒困境”中，每一步只值前一步的w，这里0＜w＜1。因此在重复博弈中，两人总是相互合作的累积报酬是R+wR+w2R…=R/（1-w）。

1701029166

1701029167 一个策略是从现在为止的博弈历史到当前步合作的概率的函数。一个典型的策略是“一报还一报”，它在第一步一定合作，然后总是重复对方在上一步的做法。一般地，策略A与策略B相遇的值（或得分）用V（A|B）来表示。如果V（A|B）＞V（B|B）那么就可以说策略A可以侵入由策略B组成的群体。如果不存在能侵入策略B的策略，那么策略B就是集体稳定的。

1701029168

1701029169 第一个命题给出了一个不好的消息，即如果未来是足够重要的，在“重复囚徒困境”中不存在最好的策略。

1701029170

1701029171 命题1：如果折扣参数w足够大，不存在独立于其他人所采用的策略的最好策略。

1701029172

1701029173 证明已在第一章给出。

1701029174

1701029175 第二个命题说：如果每一个人都采用“一报还一报”，且未来是足够重要的，那么，没有人能通过改变到其他策略而做得更好。

1701029176

1701029177 命题2：“一报还一报”是集体稳定的，当且仅当w至少比（T-R）/（T-P）和（T-R）/（R-S）中较大者更大。

1701029178

1701029179 证明：首先这个命题等价于这样一个说法：即如果“一报还一报”（TFT）既不能被“总是背叛”（ALL D）侵入，也不能被交替使用背叛和合作的策略侵入的话，“一报还一报”就是集体稳定的。

1701029180

1701029181 说“总是背叛”不能侵入“一报还一报”就是意味着V（ALL D|TFT）≤V（TFT|TFT）。当“总是背叛”遇到“一报还一报”，它在第一步得到T，而后都得到P，因此使V（ALL D|TFT）=T+wP（1-w）。因为“一报还一报”总是与它自己合作，所以V（TFT|TFT）=R|（1-w），因此，当T+wP/（1-w）≤R/（1-w），或T（1-w）+wP≤R，或T-R≤w（T-P），或w≥（T-R）/（T-P）时，“总是背叛”不能侵入“一报还一报”。相似地，“交替背叛和合作”不能侵入“一报还一报”即意味着（T+wS）/（1-w2）≤R/（1-w），或者（T-R）/（R-S）≤w。因此，w≥（T-R）/（T-P）和w≥（T-R）/（R-S）等价于说“一报还一报”不能被“总是背叛”和“交替背叛和合作”的策略侵入。这两个描述是等价的。

1701029182

1701029183 现在要证明第二个描述所包含的两个意义。第一个意义是通过简单观察来建立的，即如果“一报还一报”是集体稳定的策略，那么没有规则可以侵入它。因此这两个特殊的规则也不能。另一个要证明的意义是，如果“总是背叛”和“交替背叛和合作”的策略不能侵入“一报还一报”，那么没有策略能侵入“一报还一报”。“一报还一报”只有两种状态，取决于对方上一步的所为（在效果上第一步它假设对方刚合作过）。因此，如果策略A与“一报还一报”相遇，这个任意的策略A在选择C（合作）之后最好能做的就是选择D（背叛）或C。相似的是，策略A在选择D之后，能做得最好的就是选择C或D。因此，策略A遇见“一报还一报”能做得最好的有四个可能，即重复序列CC、CD、DC或DD。第一个和“一报还一报”与另一个“一报还一报”相遇时所做的一样，第二个不会比第一个和第三个做得好。这就意味着如果第三个和第四个不能侵入“一报还一报”，那么，没有策略能侵入它。这两个可能性分别等价于“交替背叛和合作”和“总是背叛”两个策略。因此，如果这两个都不能侵入“一报还一报”，则没有规则能侵入它，即“一报还一报”是一个集体稳定策略。证明完毕。

1701029184

1701029185 证明了什么情况下“一报还一报”是集体稳定策略，下一大步就是要给出所有集体稳定策略的特性。描述所有集体稳定策略的特性是基于这样一个想法，即如果公共的策略使得潜在入侵者比它仿效公共的策略情况更糟，那么这个侵入就能被防止。如果规则B能肯定不管规则A以后做什么，它都能使规则A的总得分足够低，那么，规则B就能防止规则A的侵入。这就引出了下面有用的定义：规则B在第n步对于A具有安全的地位，如果不管在第n步以后A做什么，假设B在第n步以后背叛，都有V（A|B）≤V（B|B）。让Vn（A|B）表示A在第n步前的折扣累积分数，那么说明B在第n步对A来说具有安全地位的另一种方式是：

1701029186

1701029187 Vn（A|B）+wn-1P/（1-w）≤V（B|B）

1701029188

1701029189 因为如果B背叛，那么A在第n步之后做得最好的所得就是每步得到P。

1701029190

1701029191 接下来的定理体现了这样一个建议，即：如果你要采用一个集体稳定策略，在你能够担得起对方占便宜且保持你的安全地位时你应该只是合作。

1701029192

1701029193 特性化定理：B是集体稳定策略，当且仅当，在对方累积得分足够大的第n步时B采取背叛，即当Vn（A|B）＞V（B|B）-wn-1［T+wP/（1-w）］。

1701029194

1701029195 参见阿克塞尔罗德的证明（Axelrod 1981）。

1701029196

1701029197 这个特性化定理以抽象的方式说明了，策略B若要是集体稳定的策略，在与对方相互作用的任意一点上作为相互作用的历史的函数，它必须如何做。[1]这是一个完整的特性，因为它是策略B是集体稳定的这一点的必要且充分的条件。

1701029198

1701029199 从这个定理还可以看到两个附加的关于集体稳定策略的结论。首先，只要对方还没有积累太大的得分，一个策略可以灵活地采用合作或背叛且还能保持集体稳定性。这种灵活性解释了为什么有许多典型的策略是集体稳定的。第二个结论是，一个善良的规则（从不首先背叛的规则）具有最大的灵活性，因为当它与相同的规则相遇时能得到最高可能的得分。换句话说，因为善良规则相互之间相处得如此好，使得它对潜在的入侵者比其他规则有更大的宽宏。

1701029200

1701029201 命题2表明，只有在未来是足够重要时，“一报还一报”才是集体稳定的，下一个命题用特性化定理来说明这个结论是很普遍的。事实上它对任何可能首先合作的策略都有效。

1701029202

1701029203 命题3：任何可能首先合作的策略B，只有在w足够大时，才能是集体稳定的。

1701029204

1701029206

1701029207 如前所述，特性化定理的结论是一个善良的规则有最大的灵活性。可是善良规则的灵活性如以下定理所示不是无限的。事实上，一个善良的规则必须是能被对方的第一次背叛所激怒，即在某步，这个规则有一个有限的机会用自己的背叛来报复。

1701029208

1701029209 命题4：一个善良策略要成为集体稳定的，它必须能被对方的第一个背叛所激怒。

[ 上一页 ] [ :1.70102916e+09 ] [ 下一页 ]