打字猴:1.702376938e+09

1702376938 许多人依然认为，重复囚徒困境中最为显著的策略当属“以牙还牙”，但从成功的角度衡量，“赢定输移”却更胜一筹。“赢定输移”甚至比“宽宏以牙还牙”更简单一些：只要做得好，就坚持目前的选择，否则就采取行为转换，并不需要理解并记住对手的行为。这一策略只关注自身的得失，以确保自己在博弈中占得先机。因此，人们就会很自然地认为，由于这一策略需要更少的认知技能，它就会更加普遍地存在。而事实上，与“以牙还牙”相比，“赢定输移”的确更适合用来分析米林斯基的棘鱼行为。

1702376939

1702376940 在囚徒困境的博弈中，我们是按照下面的逻辑进行思考的。如果你背叛，对方合作，那么你得到的收益就会很高。你非常开心，于是就重复了之前的行为，在下一轮中再次背叛。但是，如果你合作，对方背叛，那么你就被对方利用了。你很郁闷，于是转换到另一种行为方式上。你以前曾经合作过，但现在你决定要背叛。我们之前的实验显示，“以牙还牙”是合作演进的催化剂，而现在我们看到，“赢定输移”才是最终的发展结果。

1702376941

1702376942 这是否意味着我们已经彻底解决了囚徒困境这一难题呢？当然不是，我们还相距甚远。卡尔和我在1994年意识到，这一最为微妙的简单博弈中，还存在着我们不曾留意的另一面。所有的研究成果都建立在一个想当然的假设之上：当两位玩家在决定合作或是背叛的时候，他们会同时采取行动。我的意思是说，传统意义上的囚徒困境与孩子们常玩的“石头剪子布”有些相似——两位玩家会精准地在同一时刻作出选择。

1702376943

1702376944 卡尔和我认为，这样的限制多少有些牵强。我们可以思考一些例子，譬如吸血蝙蝠为饥饿的同伴贡献出富余的血液、黑猩猩互相梳理毛发等，在这些情况下，合作并不是同时发生的，伙伴之间要轮换着采取行动。于是，我们决定要实践一场囚徒困境的变体，我们称之为“交替型囚徒困境”，来看看这样的改变是否会产生影响，并导致不一样的效果。

1702376945

1702376946 我们所进行的交替型博弈，进一步确认了我们之前判断的正确性：进化的过程的确有朝向合作发展的趋势。我们也观察到了曾经出现在同步博弈中的合作主导型与背叛主导型社会的兴衰轮回。与过去一样，合作再次兴起，但一个重要的变化出现了。我们惊奇地发现，曾经在同步博弈中击败所有对手的“赢定输移”策略，如今却从胜者的宝座上退了下来。接替它掌握统治大权的，是“宽宏以牙还牙”策略。

1702376947

1702376948 朱·弗登伯格在多年之后向我指出，可以将交替型博弈与同步博弈当成是现实生活中有着不同限制的两种情形。如今，他也成为了我在哈佛的同事。在交替型博弈中，你先走，我后走。我在作出下一步决定之前，可以得到关于你的行动的所有相关信息，反之亦然。但是，在同步博弈中，双方谁也不知道在这一轮中对方会采取什么样的行动。而在我们的日常生活中，现实情况通常介于上述两者之间——我们总能得到一些关于对方意图的信息（他是否愿意采取配合态度等），但这样的信息并不一定是完整可靠的。

1702376949

1702376950 人们是如何应用这些策略的呢？曼弗雷德·米林斯基对此进行了研究。在瑞士波恩进行的一项针对大一生物学专业学生的实验中，合作行为主宰了同步和交替型囚徒困境。他发现，玩家坚持一种策略的倾向与博弈时间长短无关，总会有大约30%的玩家采用类似“宽宏以牙还牙”的策略，70%的玩家采用“赢定输移”。正如我们在模拟博弈中所看到的一样，后一种策略在同步博弈中更为成功，而类似“宽宏以牙还牙”策略的玩家则在交替型博弈中获得了更高的分数。在人类合作的生态世界里，两种策略都占有一定比重。

1702376951

1702376952 超级合作者 [:1702376303]

1702376953 背叛与合作的轮回

1702376954

1702376955 直到今天，重复囚徒困境依然吸引着众多科研工作者的好奇心。我们已经了解到，直接互惠是解决困境并促进合作的一种机制。整个过程中，两位玩家之间会产生重复接触，玩家可以是人，也可以是机构、公司或国家。一开始，“以牙还牙”策略似乎很容易获胜，在多数情况下还会导致玩家的获胜机会均等。但为了模仿失误带来的影响而加入一些随机性之后，我们发现，“以牙还牙”似乎太过严厉，有欠宽容，会引发血腥的复仇行为。

1702376956

1702376957 我们需要拥有一点点宽容的态度，才能和平相处。在“赢定输移”和“宽宏以牙还牙”策略中，我们找到了需要的东西，后者总能让我想起鲍勃·梅曾经给我的忠告：“你永远不会因为太过宽容而输掉游戏。”这样的观点令我感触颇深，因为他对输赢问题的思考和理解程度，比我认识的所有人都要更加深刻。而同时，争当第一对他来说又非常重要。他的妻子有一次曾开玩笑说，“他在家里和宠物狗玩耍的时候，也要赢过它才肯作罢。”

1702376958

1702376959 让我们来对比一下“以牙还牙”和“赢定输移”这两个成功策略。在上一轮博弈中，如果双方都采取合作态度，那么下一步也会继续合作。如此看来，两种策略都不会主动蓄意地背叛。只有出现错误、误解或心情不好的时候，才会引发第一次背叛。当这种情况出现时，如果对方也选择了背叛，那么我就被占了便宜，之后，两种策略都指导我要在下一步行动中选择背叛；另一方面，如果我选择背叛，而对方采取合作，那么我就会在“以牙还牙”策略的指导下转移到合作上来，或者在“赢定输移”策略的指导下继续背叛。

1702376960

1702376961 我们可以这样解释“以牙还牙”的思想过程：我现在有些后悔，希望能补偿上一轮作出的背叛行为。而“赢定输移”的思想过程则更加“人性化”：如果我在这一轮占到了他人的便宜，那么就会在接下来的几轮中继续这样做。这两种策略还存在另一点不同之处。如果两位玩家都背叛，那么“以牙还牙”只会背叛，而且不会尝试重新建立友好的关系；而“赢定输移”则会采取合作态度，并尝试恢复到更好的关系上来。

1702376962

1702376963 两种选择各有道理，但如果我们希望在所处关系中重新达成合作，那么“赢定输移”相比之下就显得更加现实可行。总体来看，“赢定输移”更能适应错误的发生，因为这一策略会主动寻找更好的结果，在双方均采取背叛行为之后，还能试图恢复合作的模式，虽然也会盘剥无条件合作者。相反，“以牙还牙”则不会盘剥无条件合作者，但在对方背叛之后，也不会试图恢复合作关系。

1702376964

1702376965 如果我们站在更高的角度，纵览囚徒困境多年以来的研究发展过程，就会发现，其中一项关键进展就是对概率性策略影响的研究。在这样的策略指导下，玩家会以某一种方式、在某一个时间采取行动，但不会在每种情况下都保持同样的反应。其中我们还加入了另一种真实元素，通过观察玩家相互交替采取行动的程度和理解对方行为的程度，我们可以认识到，现实生活中的情形介于同步型和交替型博弈两者之间。

1702376966

1702376967 这些更加真实的博弈也会产生轮回，其中的策略会从“永远背叛”发展到“以牙还牙”，再到“宽宏以牙还牙”，最后到无条件合作，然后又不可避免地回到最初的状态，经历背叛行为的死灰复燃。虽然“赢定输移”可以增加一个轮回中的合作时长，但我们发现，这样的策略最终也会土崩瓦解，为背叛者的复苏留出空间。

1702376968

1702376969 我们在竞赛中观察到的轮回，与强调稳定均衡关系的传统博弈论理论存在着很大的差别。用不着深入研究细节内容，我们就可以从古典进化与经济博弈论所使用的语言中略知一二，例如其中经常提到的理论就包括进化稳定策略和纳什均衡等。

1702376970

1702376971 我们已经从传统的“进化静力学”进入到“进化动力学”多姿多彩的世界。在过去，人们认为生命会逐步进化到一种稳定不变的状态；而如今，这样的想法则被一种更富动态的理论所颠覆。没有一种策略是真正稳定的，也没有一种策略能获得永生。一切周而复始，循环往复。幸运女神不会永远向一个人招手，合作的天堂终究会被充满背叛的地狱所取代。合作的成功不仅取决于合作行为能维持多久，还要看多长时间才能出现合作的再次繁荣。原来，合作与生命的进化，竟经历着如此美轮美奂而跌宕起伏的发展过程。

1702376972

1702376973 还有太多的未知等待我们去探索。迄今为止，我们仅研究了博弈中的一小部分，还有着许多尚待研究的变体。博弈论那巨大的蛮荒秘境在眼前一望无垠。虽然关于重复囚徒困境的研究文献有成千上万，但直接互惠模型和象棋一样，依然存在着各种各样的数学可能性，这跟井字游戏（tic-tac-toe）中封闭式的有限策略大不相同。关于如何解开困境这个谜题，我们的分析永远也不会完结。这一困境没有边界。

1702376974

1702376975 [1] 双生子，罗马神话中罗马市的奠基人。——编者注

1702376976

1702376977 [2] 克雷格·帕克现在在明尼苏达大学工作。

1702376978

1702376979 [3] 即前文提到的罗伯特·梅。在英文中，鲍勃（Bob）是罗伯特（Robert）的昵称。——编者注

1702376980

1702376981 [4] 回报矩阵中的Reward或Temptation。——译者注

1702376982

1702376983 [5] 回报矩阵中的Sucker或Punishment。——译者注

1702376984

1702376985

1702376986

1702376987

[ 上一页 ] [ :1.702376938e+09 ] [ 下一页 ]