打字猴:1.7010282e+09

1701028200 现在假设有几个采用“一报还一报”策略的个体。“一报还一报”与“总是背叛”相遇，“一报还一报”在第一步被占便宜，然后它就不再与这个“小人”合作，因此，它在第一步得0分，在而后每步得1分，累计得9分[7]，这个分数比“小人”们相互之间得10分少一点。可是，如果“一报还一报”与另一个“一报还一报”相遇，它们从一开始就达成合作，并每步都得到3分，累计分为30分。这个得分比“小人”们自己相遇的得分10分大得多。

1701028201

1701028202 如果这些采用“一报还一报”的新来者是整个群体可以忽略的部分，那么，“小人”们将总是与其他“小人”相遇，只能得到10分。因此，如果“一报还一报”能与其他“一报还一报”有足够多次的相遇，他们就能得到比10分更多的得分。如果它们有足够多的机会与那些回报它们合作的个体相遇（得30分）而不是与那些不合作的个体相遇（得9分），它们就能做到这一点。这个机会要多大才行呢？如果一个“一报还一报”与其他“一报还一报”相遇的比例是p，那么它与“小人”相遇的比例就是1-p。它的平均得分是30p+9（1-p）。只要这个得分大于10分，采用“一报还一报”就比采用大部分都采用的“小人”策略好，其实只要“一报还一报”有5%的比例与其他“一报还一报”相遇就行。[8]因此，即使是一小群的“一报还一报”也能得到比它们所进入的群体的大部分“小人”更高的平均分。由于“一报还一报”之间相处得很好，所以它们并不需要太经常相遇，就能使它们的策略是首选策略。

1701028203

1701028204 由此可见，一个“小人”的世界很容易被一小群“一报还一报”侵入。举例子来说，假设在一个商学院里教师告诉一个班的学生要他们在自己的公司里首先采取合作行为，并回报其他公司的合作。如果学生们果真按此去做，并且如果他们没有分散太广（使得他们有足够的机会与他们的同班同学相遇），那么，学生们将发现他们所学到的东西得到了报偿。按刚刚讨论的数值例子，一个开始采用“一报还一报”的公司，只要有5%的比例与其他采用相同策略的公司相遇，它们就会乐于合作。

1701028205

1701028206 当期望的相互作用持续时间越长，或者说相互作用不会因时间的推移而明显减弱，所需的小群体就可以越小些。用w表示再次相遇的机会，假设游戏进行200步（相当于w=0.996 54），在这个情况下只要有1‰的机会与相同的策略相遇，“一报还一报”就可以侵入“总是背叛”的世界中。即使在只有两步的游戏中（w=0.5），只要“一报还一报”有超过1/5的机会与相同的策略相遇，它就能够成功地侵入，即合作就能出现。

1701028207

1701028208 这种以一个小群体侵入的概念可以被精确定义并应用于任何策略。假设原有一个策略被一个群体的每个人都采用。有一个采用新策略的小群体来到，他们既与其他采用新策略的新来者相遇又与原来的个体相遇。采用新策略的新来者彼此相遇的比例是p。假定这一小群体的新来者相对于原有群体是很小的，使得实际上原有策略的个体都是与其他原有策略的个体相遇。那么，新来者的得分是彼此之间相遇的得分和与原来策略相遇的得分的加权平均。权重为这两个情况的出现频率p和1-p。另一方面，由于新来者是很少的，所以原有策略的平均得分实际上等于原有策略与其他原有策略相遇的得分。因此，只要新来者相互之间相处得很好而且相遇的比例足够大，那么，就有理由认为，新来者能侵入原有策略。[9]

1701028209

1701028210 值得注意的是，上文的假设是，相遇的配对不是随机的。在随机配对的情况下，一个新来者可能难得与另一个新来者相遇，而且小群体的概念讨论的情况是：新来者对于原有群体的环境是微不足道的，但对新来者自己的环境来说却是重要的。

1701028211

1701028212 下一个结果将说明以最小的群体侵入“总是背叛”的最有效的策略是什么。它们是那些能把自己和“总是背叛”相区别的策略。一个策略是具有最大识别力的，如果它即使在对方一直不合作的情况下也会尝试合作，并且一旦它合作一步，它将决不会与“总是背叛”合作，而会同其他与自己相同的策略合作。

1701028213

1701028214 命题6：能以最小p值的一个小群体侵入“总是背叛”的策略是那些具有最大识别力的策略，如“一报还一报”。

1701028215

1701028216 很容易说明“一报还一报”是一个具有最大识别力的策略。它在第一步合作，但是一旦与“总是背叛”合作，它就将再也不与它合作。另一方面，它不间断地与其他“一报还一报”合作。因此“一报还一报”善于区别它的同类和“总是背叛”，这个特性使它能以一个很小的群体侵入“小人”的世界。

1701028217

1701028218 小群体概念在引出了在“小人”世界中建立合作机制的同时也提出了另一个问题：即一旦像“一报还一报”这样的策略建立起来后，相反的情况是否会发生。实际上，这是十分令人吃惊而又很有趣的不对称。为了说明情况，让我们回忆一下善良策略（如“一报还一报”）的定义，善良策略从不首先背叛。显然当两个善良策略相遇，它们每步都得R，这是一个个体与另一个采用相同策略的个体相遇所能得到的最高平均分数。这引出了如下的命题：

1701028219

1701028220 命题7：如果一个善良的策略不能被单个个体侵入，那么它也不能被这类个体的小群体侵入。

1701028221

1701028222 一个以小群体形式出现的策略其得分是以下两部分的加权平均：一是它与其他相同策略相遇的得分，一是它与占统治地位的策略相遇的得分。这两部分的得分都小于或等于占统治地位的善良策略的得分。所以如果原有的善良策略不能被单一个体侵入，那么就不能被这类个体的一个小群体侵入。

1701028223

1701028224 这个结论意味着善良策略没有“总是背叛”的那种结构性弱点。“总是背叛”能够阻止任何策略的侵入，只要这些采用其他策略的个体每次都是单独前来的。但是如果它们是以小群体（即使是一个很小的群体）的形式来到，“总是背叛”就能被侵入。对于善良的策略，情况就不同了。如果一个善良的策略能够阻止其他策略的单一个体的侵入，那么它就能阻止小群体的入侵，不论它有多大。因此，善良的策略能以“小人”策略所不能的方式来保护自己。

1701028225

1701028226 这些结果合起来描绘了一幅合作进化的图画。在参议院的例子中，命题5表明，如果没有小群体形式（或其他相似的机制），双方背信弃义的原有模式就不能被克服。小群体的形成很关键，它也许源于杰斐逊时代在新首都旅馆中住在一起的一群群代表们（Young 1966），或许州的代表或一个州的政党的代表们是更重要的小群体（Bogue and Marlaire 1975）。命题7表明基于回报的合作一旦建立，即使有一小群不遵守这个参议员习俗的新来者，它也能保持稳定。并且这种回报模式建立后，命题2和命题3表明，只要两年一次的改选率不至于太大，它就是集体稳定的。

1701028227

1701028228 因此，合作可以在甚至是绝对背叛的世界中出现。如果只由一些散乱的个体去努力，合作是不能建立的。因为他们没有机会彼此相遇。但是，只要具有识别能力的个体之间有即使是很小的比例彼此相遇，合作就可以从这个小群体中出现。此外，如果善良策略（它们从不首先背叛）最终被所有的人采用，那么这些个体就能彼此善待。由于彼此之间相处很好，一个善良策略的群体，就像能保护自己不受其他单个个体的侵入一样，能保护自己不受采用其他策略的小群体的侵入。但是一个善良的策略要是集体稳定的，就必须是可激怒的。因此双方合作可以通过一小群依赖于回报的个体在没有集权的自私的世界中出现。

1701028229

1701028230 为了说明上述结果的广泛应用，下面两章将探讨合作进化的实例。第一个实例说明，尽管战争时期双方之间残酷对抗，但是合作也能出现。第二个实例讨论的是生物系统，这个系统中的低级动物不能评价它们选择的后果。这些实例说明，在条件具备时，没有友谊和预见，合作也可以产生。

1701028231

1701028232 [1]熟悉博弈论概念的人会将这一集体稳定策略看作是纳什均衡中的一个策略。我对侵入和集体稳定性的定义与约翰·梅纳德·史密斯（Maynard Smith 1974）对侵入和生态稳定的定义略有不同。他对侵入的定义允许新来者与本地者相遇时得到和两个本地者相遇时同样的得分，如果一个本地者遇到新来者时比两个新来者相遇表现要好的话。我采用新的定义，简化了论证，而且突出了一个变异体和一群变异体带来的不同影响。任何一个生态稳定的策略也是集体稳定的。对于一个善良的策略（从不首先背叛的策略）这些定义是等价的。除了附录B中的特性化定理之外，用“进化稳定性”代替“集体稳定性”，书中的所有命题仍成立，这时特性化是必要的但不再是充分的。

1701028233

1701028234 [2]集体稳定还可诠释为对策者的承诺，而非整个群体的稳定。假设一个对策者承诺采用某一策略，那么，当且仅当这一策略是集体稳定的时候，如果另一个对策者不采用同一策略，他就不会做得更好。

1701028235

1701028236 [3]限制这一情形的方法被汉密尔顿（Hamilton 1967）用于各种比赛中，限制这些策略的方法则被运用于下列三种文献中：Maynard Smith and Price（1973）、Maynard Smith（1978）和Taylor（1976）。对于合作行为的潜在稳定性，其相应结果，参见Luce and Raiffa（1957，p.102）、Kurz（1977）和Hirshleifer（1978）。

1701028237

1701028238 [4]特别是，使“一报还一报”集体稳定的临界值是（T-R）/（T-P）和（T-R）/（R-S）中较大的一个。如第一章所述，当与“一报还一报”相遇时，“总是背叛”的得分为T+wP+w2P+w3P…=T+wP/（1-w）。当w≥（T-R）/（T-P）时，这一得分不比群体的平均分R（1-w）更高。同样，当与“一报还一报”相遇时，“背叛与合作交替”的得分将为T+wS+w2T+w3S…=（T+wS）（1+w2+w4…）=（T+wS）/（1-w2）。当w≥（T-R）/（R-S）时，这一得分不会比群体的平均得分R/（1-w）高。具体证明，参见附录B。

1701028239

1701028240 [5]另一种想法是，选举时遇到麻烦的立法者可以得到相好同僚的帮助，这些同僚希望增加该立法者再次当选的机会，因为他在过去的行为中已经证明是合作的、可信任的和有业绩的。

1701028241

1701028242 [6]在分析竞赛结果时，与可激怒性相关的一个概念被发现是有用的，这就是报复策略，即在对方无缘无故背叛之后立即背叛的策略。可激怒性的概念既不要求一定反应也不要求立即反应，但报复策略却对两者都有要求。

1701028243

1701028244 [7]与“总是背叛”相遇时，“一报还一报”的得分为S+wP+w2P+…=S+wP/（1-w）=9分。

1701028245

1701028246 [8]小群体的“一报还一报”比“小人”的群体做得更好，如果

1701028247

1701028248 30P+9（1-P）＞10

1701028249

[ 上一页 ] [ :1.7010282e+09 ] [ 下一页 ]