1702376910
1702376911
“宽宏以牙还牙”的衰落趋势向我透露了一些十分重要的信息,只不过那个时候我没有太在意。我找到了一种可以让问题消失的办法,但我没有办法拯救“以牙还牙”。几天之后,我不得不承认,结果是真实无误的。于是我潜心研究,终于发现了能保持获胜记录的新策略。这种新策略包括以下指令,乍一看不禁感觉有些古怪:
1702376912
1702376913
如果我们在上一轮中都保持合作态度,那么我会再次进行合作。
1702376914
1702376915
如果我们都采取了背叛,那么我会(以某一概率)进行合作。
1702376916
1702376917
如果你合作,我背叛,那么我会再次背叛。
1702376918
1702376919
如果你背叛,我合作,那么我也会背叛。
1702376920
1702376921
总体来看,这一策略是说,只要我们采取同样的行为,那么我就会合作;只要我们采取了不同的行为,那么我就会背叛。换句话说,这一获胜策略会作出这样的事情:如果我做得好[4],我就会重复我上一步的行为;如果我做得不好[5],我就会改变之前的行为。经过这样一番分析,我逐渐产生了兴趣,心情也大为好转。
1702376922
1702376923
回到牛津之后,我在动物学系的走廊上碰巧遇到著名生物学家约翰·克雷布斯,并将这一获胜策略讲给他听。他立刻进行了指认:“这听起来很像是‘赢定输移’(Win Stay, Lose Shift)策略,是动物行为学家的研究课题。”鸽子、鼠类和猴类非常善于利用这一策略。人们也会用这样的策略来训练马匹。其研究历史已经长达一个世纪。对“合作”进行的简单而理想化的计算机模拟,竟然能进化出这样的策略,令克雷布斯感到十分吃惊。听完他的讲述,我也有同样的感受。
1702376924
1702376925
1702376926
1702376927
1702376928
现在,我必须要弄明白,为什么“赢定输移”策略比“以牙还牙”和“宽宏以牙还牙”策略更好。通过仔细研究计算机模拟中合作与背叛的轮回,我找到了答案。以前,我们可以依据无条件合作者的大批出现,来判定一个轮回的结束和另一个轮回的开始。只要在群体中加入随机突变,就总是会出现一位背叛者,来统治这群温顺的良民。于是,一场新的轮回就这样上演了。我发现,“赢定输移”的秘密就潜藏在这一阶段中——存在于合作达到巅峰,友善策略非常充裕的时候。原来,无条件合作者能够逐渐摧毁“以牙还牙”和“宽宏以牙还牙”,却无法击败“赢定输移”。
1702376929
1702376930
在具有现实随机性的博弈之中,“赢定输移”策略可以对无心或无条件的合作者加以盘剥。理由很简单:任何小错误都能揭示出这样的事实,合作者总是会继续在丑恶行为面前保持友善态度。而且,就像这一策略的名称一样,“赢定输移”会在不受到复仇行为惩罚的情况下,不断对其他玩家加以盘剥。或者用卡尔和我的说法就是,这一策略无法被心软的玩家所颠覆。而这一特征,正是其取得成功的关键原因。
1702376931
1702376932
“赢定输移”策略的成功还告诉我们一个更加深刻的道理:在直截了当的确定性博弈中,看似平淡无奇的玩家,一旦碰到现实随机性,就可能获得完胜。我们在翻阅现有研究成果的时候发现,已经有其他研究人员针对这一策略展开了工作,只是叫法不同而已。伟大的拉波波特曾对这一策略表示不解,称其为“傻瓜策略”。因为它看起来的确很蠢——在遇到背叛者的时候,这一策略会在合作与背叛行为之间轮换。他分析说,只有愚蠢的策略才会在遇到背叛者时每隔一步采取一次合作行为。
1702376933
1702376934
但事实上,这一策略与“傻瓜”之称相距甚远。我们的研究显示,现实随机性也是它取得成功的关键所在。当遇到背叛者时,这一策略会以某一给定概率,用无法预测的方式采取合作。这样就可以实现自我保护,免遭机会主义者的盘剥。同样的策略,被杜克大学和北卡罗来纳州梅瑞狄斯学院的大卫和薇薇安·克雷恩斯(David and Vivian Kraines)称为“巴普洛夫”策略。他们认为,这样的策略可以是有效的。而且,著名美国经济学家埃里克·马斯金(Eric Maskin)和朱·弗登伯格(Drew Fudenberg)的研究也表明,这样的策略可以在大约半数的囚徒困境中,实现一定程度的进化稳定性。但是,他们研究的对象都是确定性(非随机性)版本的“赢定输移”策略,而我们罗森伯格竞赛的赢家,却是在概率性环境中脱颖而出的。
1702376935
1702376936
在进化这场伟大的博弈中,卡尔和我发现,“赢定输移”是全胜的赢家。它虽然不是大举进攻背叛主导型社会的第一个合作策略,但只要建立了一定程度的合作基础,这一策略就能站稳脚跟。不过它也不会永远存在。就像“宽宏以牙还牙”一样,“赢定输移”最终还是会被削弱和取代。进化的过程中,永远存在着无尽的轮回。
1702376937
1702376938
许多人依然认为,重复囚徒困境中最为显著的策略当属“以牙还牙”,但从成功的角度衡量,“赢定输移”却更胜一筹。“赢定输移”甚至比“宽宏以牙还牙”更简单一些:只要做得好,就坚持目前的选择,否则就采取行为转换,并不需要理解并记住对手的行为。这一策略只关注自身的得失,以确保自己在博弈中占得先机。因此,人们就会很自然地认为,由于这一策略需要更少的认知技能,它就会更加普遍地存在。而事实上,与“以牙还牙”相比,“赢定输移”的确更适合用来分析米林斯基的棘鱼行为。
1702376939
1702376940
在囚徒困境的博弈中,我们是按照下面的逻辑进行思考的。如果你背叛,对方合作,那么你得到的收益就会很高。你非常开心,于是就重复了之前的行为,在下一轮中再次背叛。但是,如果你合作,对方背叛,那么你就被对方利用了。你很郁闷,于是转换到另一种行为方式上。你以前曾经合作过,但现在你决定要背叛。我们之前的实验显示,“以牙还牙”是合作演进的催化剂,而现在我们看到,“赢定输移”才是最终的发展结果。
1702376941
1702376942
这是否意味着我们已经彻底解决了囚徒困境这一难题呢?当然不是,我们还相距甚远。卡尔和我在1994年意识到,这一最为微妙的简单博弈中,还存在着我们不曾留意的另一面。所有的研究成果都建立在一个想当然的假设之上:当两位玩家在决定合作或是背叛的时候,他们会同时采取行动。我的意思是说,传统意义上的囚徒困境与孩子们常玩的“石头剪子布”有些相似——两位玩家会精准地在同一时刻作出选择。
1702376943
1702376944
卡尔和我认为,这样的限制多少有些牵强。我们可以思考一些例子,譬如吸血蝙蝠为饥饿的同伴贡献出富余的血液、黑猩猩互相梳理毛发等,在这些情况下,合作并不是同时发生的,伙伴之间要轮换着采取行动。于是,我们决定要实践一场囚徒困境的变体,我们称之为“交替型囚徒困境”,来看看这样的改变是否会产生影响,并导致不一样的效果。
1702376945
1702376946
我们所进行的交替型博弈,进一步确认了我们之前判断的正确性:进化的过程的确有朝向合作发展的趋势。我们也观察到了曾经出现在同步博弈中的合作主导型与背叛主导型社会的兴衰轮回。与过去一样,合作再次兴起,但一个重要的变化出现了。我们惊奇地发现,曾经在同步博弈中击败所有对手的“赢定输移”策略,如今却从胜者的宝座上退了下来。接替它掌握统治大权的,是“宽宏以牙还牙”策略。
1702376947
1702376948
朱·弗登伯格在多年之后向我指出,可以将交替型博弈与同步博弈当成是现实生活中有着不同限制的两种情形。如今,他也成为了我在哈佛的同事。在交替型博弈中,你先走,我后走。我在作出下一步决定之前,可以得到关于你的行动的所有相关信息,反之亦然。但是,在同步博弈中,双方谁也不知道在这一轮中对方会采取什么样的行动。而在我们的日常生活中,现实情况通常介于上述两者之间——我们总能得到一些关于对方意图的信息(他是否愿意采取配合态度等),但这样的信息并不一定是完整可靠的。
1702376949
1702376950
人们是如何应用这些策略的呢?曼弗雷德·米林斯基对此进行了研究。在瑞士波恩进行的一项针对大一生物学专业学生的实验中,合作行为主宰了同步和交替型囚徒困境。他发现,玩家坚持一种策略的倾向与博弈时间长短无关,总会有大约30%的玩家采用类似“宽宏以牙还牙”的策略,70%的玩家采用“赢定输移”。正如我们在模拟博弈中所看到的一样,后一种策略在同步博弈中更为成功,而类似“宽宏以牙还牙”策略的玩家则在交替型博弈中获得了更高的分数。在人类合作的生态世界里,两种策略都占有一定比重。
1702376951
1702376953
背叛与合作的轮回
1702376954
1702376955
直到今天,重复囚徒困境依然吸引着众多科研工作者的好奇心。我们已经了解到,直接互惠是解决困境并促进合作的一种机制。整个过程中,两位玩家之间会产生重复接触,玩家可以是人,也可以是机构、公司或国家。一开始,“以牙还牙”策略似乎很容易获胜,在多数情况下还会导致玩家的获胜机会均等。但为了模仿失误带来的影响而加入一些随机性之后,我们发现,“以牙还牙”似乎太过严厉,有欠宽容,会引发血腥的复仇行为。
1702376956
1702376957
我们需要拥有一点点宽容的态度,才能和平相处。在“赢定输移”和“宽宏以牙还牙”策略中,我们找到了需要的东西,后者总能让我想起鲍勃·梅曾经给我的忠告:“你永远不会因为太过宽容而输掉游戏。”这样的观点令我感触颇深,因为他对输赢问题的思考和理解程度,比我认识的所有人都要更加深刻。而同时,争当第一对他来说又非常重要。他的妻子有一次曾开玩笑说,“他在家里和宠物狗玩耍的时候,也要赢过它才肯作罢。”
1702376958
1702376959
让我们来对比一下“以牙还牙”和“赢定输移”这两个成功策略。在上一轮博弈中,如果双方都采取合作态度,那么下一步也会继续合作。如此看来,两种策略都不会主动蓄意地背叛。只有出现错误、误解或心情不好的时候,才会引发第一次背叛。当这种情况出现时,如果对方也选择了背叛,那么我就被占了便宜,之后,两种策略都指导我要在下一步行动中选择背叛;另一方面,如果我选择背叛,而对方采取合作,那么我就会在“以牙还牙”策略的指导下转移到合作上来,或者在“赢定输移”策略的指导下继续背叛。
[
上一页 ]
[ :1.70237691e+09 ]
[
下一页 ]