1701028010
1701028011
在第25步,“乔斯”又随机选择了另一个背叛。当然“一报还一报”在下一步也背叛。这样,另一回合的反射又开始了,它使得“乔斯”在奇数步时也背叛。这两个回合的反射使得双方在25步以后都是背叛。这一连串的双方背叛意味着在而后的游戏中每步它们只能得到1分。这个游戏的最后成绩是“一报还一报”得236分,“乔斯”得241分。我们注意到“乔斯”比“一报还一报”好一些,但它们都表现得很差。[3]
1701028012
1701028013
问题就出在“乔斯”在对方合作之后偶尔的背叛,再加上双方缺少宽容。从这里得到的启示是,如果双方以“乔斯”和“一报还一报”一样的方式进行报复的话,“乔斯”的贪婪就得不到好处。
1701028014
1701028015
这次竞赛的主要教训是认识到在双方竞争的环境下,避免反射效应是很重要的。一旦一方的背叛诱发一长串的报复和反报复,双方都要吃亏。要对选择作出精辟的分析必须深入三个层次来考虑这种反射效应。第一层次的分析是选择的直接效果。这是很容易的,因为背叛总是比合作赢得多。第二层次是考虑间接效果,即考虑对方是否处罚背叛。许多参赛者都考虑到了这个层次。但是第三层次的考虑要深刻得多,即为了反应对方的背叛,有人就会重复甚至扩大自己以前的挑衅性的选择。因此,一个单一的背叛从它的直接效果甚至第二层次的效果来说是成功的。但是真正的代价在于第三层次,即一个孤立的背叛变成了一连串无休止的报复。由于没有认识到这一点,许多程序到头来惩罚了自己。由于这种自我惩罚被对方延迟了几步,所以许多决策规则都没有考虑到这一点。
1701028016
1701028017
尽管事实上任何改善“一报还一报”的企图都没有奏效,但还是可以容易地找到在这次竞赛的条件下能比“一报还一报”表现得更好的几个规则。这些规则的存在可以给轻信“以牙还牙”肯定是最好的策略的人一个警告。至少有三个规则如果参赛的话将赢得竞赛。
1701028018
1701028019
为了向可能的参赛者说明如何提交程序,一个示范程序被提供给了大家,事实上,如果有人简单地把它剪下后寄来,它将赢得这次竞赛。可惜没有人这么做。这个简单的程序只有在对方前两步连续背叛后才背叛。它是“一报还一报”的更加宽容的版本,它从不惩罚孤立的背叛。这个“两报还一报”(TIT FOR TWO TATS)规则的出色表现揭示了参赛者的一个共同错误,即预期相对于“一报还一报”更少点宽容能得到更多的好处,然而,事实上是更多点宽容才能得到更多好处。这个惊人的发现表明,即使是战略专家也没有给宽容的重要性以足够的重视。
1701028020
1701028021
另一个可以赢得竞赛的规则也被提供给参赛者们。它是预赛的胜利者,有关它的情况被列在征募参赛者的报告中。这个被称为“向前看”(LOOK AHEAD)的规则,是受到下棋程序中人工智能技术的启发。有趣的是,这个吸收人工智能技术的规则事实上比任何一个由博弈论专家专门设计来参加“囚徒困境”竞赛的规则都要强。
1701028022
1701028023
第三个可以赢得竞赛的是个对“唐宁”稍加改动的规则。如果“唐宁”初始假设其他人是反应的而不是不反应的,它也会赢而且能赢得很多。那么这个使其他人成为胜利者的关键因素,自己就可以成为胜利者。“唐宁”关于其他人的初始假设是悲观的,如果持乐观态度,不仅假设更准确,而且能有更成功的表现。那时,“唐宁”就该名列第一而不是第十了。[4]
1701028024
1701028025
以上补充规则的分析结果支持了从分析参赛规则本身所得到的观点:即参赛者为了自己的利益太富于竞争性。首先,许多人在游戏中没有受到挑衅就早早地开始背叛,这个特点从长远来看是要付出大代价的。其次,任何参赛者所显示出来的宽容性比理想的要小得多(“唐宁”可能是例外)。第三,最与众不同的规则“唐宁”,由于对其他人的反应所作的初始假设太悲观而做了不少蠢事。
1701028026
1701028027
竞赛结果的分析表明,为了更好地应付双方竞争的环境有许多东西要学。即使是政治学、社会学、经济学、心理学和数学界的策略专家,也会犯诸如太计较自己的利益、不够宽容和对对方的反应太悲观等错误。一个特定策略的有效性不仅取决于它自己的特性,而且取决于它要相遇的其他策略的特性。因此,单一竞赛的结果是不能最后说明问题的,需要进行第二轮竞赛。
1701028028
1701028029
第二轮比赛的结果为洞察“囚徒困境”中有效选择的特性提供了强有力的根据,因为第二轮竞赛的参赛者,都得到了一份关于第一轮竞赛的详细分析报告,其中包括那些可以表现得很好的补充规则。因此他们不仅知道第一轮竞赛的结果,而且知道用于分析成功的思想和概念及所发现的易犯的策略性错误。另外,每个人都知道其他人也知道这些事。因此,第二轮比赛总该比第一轮有一个更高的起点,可以期望它的结果对于指导如何在“囚徒困境”中有效地选择是更有价值的。
1701028030
1701028031
第二轮的参赛人数大大超过第一轮,反应比预期的大得多,一共有来自6个国家的62个参赛者,他们大都是通过在小型计算机用户的杂志上的通告而征募来的。参加第一轮比赛的对策论专家们也被邀请再试一次。参赛者的范围从10岁的计算机爱好者到计算机科学、物理学、经济学、心理学、数学、社会学、政治学和进化生物学的教授,他们来自美国、加拿大、英国、挪威、瑞士和新西兰。
1701028032
1701028033
第二轮竞赛提供了一个机会,验证了从第一轮比赛分析中得出的结论和发现解释成功和失败的新概念。参赛者还从第一轮竞赛的经验中吸取了自己的教训,但不同的人得到的教训不同。第二轮竞赛中特别具有启发性的正是基于不同教训的参赛者相互作用的方式。
1701028034
1701028035
“一报还一报”是第一轮中提交的最简单的程序,但它赢得了竞赛。它也是第二轮中最简单的程序,又赢得了第二轮的竞赛。虽然所有的参赛者都知道“一报还一报”赢得第一轮竞赛,但没有人能设计出一个比它更好的程序。
1701028036
1701028037
第二轮的参赛者都知道这个规则,因为他们都得到了有关第一轮竞赛的报告,报告说明了“一报还一报”是至今为止最成功的规则,阐述了它如何能诱导出很高程度的合作以及它如何是不可欺负的和它如何赢得第一轮比赛。报告还解释了它成功的某些原因,特别是它决不首先背叛(“善良性”)和它在对方背叛之后的合作倾向(只进行一次惩罚的“宽容性”)。
1701028038
1701028039
尽管比赛规则清楚地说明允许任何人提交任何程序,即使是其他人写的程序,但是只有一个人提交“一报还一报”,他就是在第一轮中提交“一报还一报”的阿纳托尔·拉帕波特。
1701028040
1701028041
第二轮比赛是在与第一轮比赛相同的方式下进行的,只是游戏最后一步的影响被消除了。正如在比赛规则中说明的,每一步结束游戏的概率为0.003 46[5],这相当于设定w=0.996 54。由于没人能知道最后一步会什么时候到来,因此在第二轮中最后一步的影响就被完全避免了。
1701028042
1701028043
另外,没有任何参赛者的个人特征和他提交的规则的竞赛成绩之间存在着显著的相关性。教授们并没有比其他人做得更好,美国人也没有比其他国家的人做得好,用Fortran写程序的也没有比用Basic的好,尽管Fortran通常能在更多类型的计算机上使用。参赛者的名单按照他们的成绩顺序列在附录A中,并附上了有关他们和他们的参赛程序的信息。
1701028044
1701028045
总的来说,尽管“一报还一报”是胜利了,但短的程序并没有比长的程序表现得更好。同样,在另一方面,长的(通常是更复杂的)程序也没有比短的程序做得更好。要确定什么决定了第二轮的胜利是件不容易的事。因为63个规则(包括随机程序)在循环赛中有3 969个配对方式。这个特大的竞赛得分矩阵列在附录A中,并附有参赛者和他们程序的信息。在第二轮竞赛中一共有上百万次的对局。
1701028046
1701028047
和在第一轮一样,善良得到了回报。首先背叛通常要付出很大代价。超过一半的参赛程序是善良的。显然大部分的参赛者吸收了第一轮中首先背叛没有好处的教训。
1701028048
1701028049
在第二轮中,一个规则的表现和它是否善良之间同样有很大的相关性。在前15名的规则中,只有一个不是善良的(它名列第八)。在最后15名规则中只有一个是善良的程序。一个规则是否善良和它的竞赛得分的相关性是有意义的,其值为0.58。
1701028050
1701028051
区分善良规则好坏的一个特征是看它们如何迅速地和可靠地对来自对方的挑战作出反应。一个规则可以被称为“报复性的”,如果它在对方的“无缘无故”的背叛之后立即以背叛报复。“无缘无故”的定义是不太明确的。但是,问题在于,除非一个策略能迅速对来自对方的挑战作出反应,否则,对方将简单地从这样一个好说话的策略身上获得越来越多的好处。
1701028052
1701028053
在第二轮比赛中,有好几个规则故意使用若干次背叛试试看它们能否讨到便宜。因此,在很大程度上,决定善良规则的最后名次的是它们能否很好地应付这些挑战。这些挑战者中有两个是特别重要的,我把它们称为“检验者”(TESTER)和“镇定者”(TRANQUILIZER)。
1701028054
1701028055
“检验者”是由戴维·格拉德斯坦(David Gladstein)提交的,在竞赛中名列46名。它被设计成专门欺负软骨头。但是一旦对方表示出不可欺负性,它就罢手。这个规则的不寻常之处是为了检验对方的反应,它在第一步就背叛,如果对方背叛,它就赶快抱歉,回之以合作。然后在其余的步中采用“一报还一报”。如果对方不反应它的第一步背叛,它就在第二步和第三步合作,但是在而后的步中它就每隔一步背叛一次。“检验者”与那几个在第一轮竞赛中可能取胜的补充规则对局时占了不少便宜。例如,“两报还一报”只有在对方前两步连续背叛时才背叛。但“检验者”从不连续背叛两次。因此“两报还一报”总是宽宏大量地与“检验者”合作,而被占了不少便宜。虽然“检验者”自己在竞赛中总的表现并不佳,但是它让那些“好说话”的规则吃了大亏。
1701028056
1701028057
“检验者”给一些在第一轮竞赛中表现颇佳的规则带来了麻烦,其中包括莱斯利·唐宁(Leslie Downing)的结果最大化原则的三个变形规则。在第一轮中看来很有希望的“唐宁”的基础上,有两个分别提交的“改进的唐宁”程序,它们来自斯坦利· F.奎尔(Stanley F. Quayle)和莱斯利·唐宁自己。还有一个稍加变化的版本来自一个年轻的竞争者,11岁的史蒂夫·纽曼(Steve Newman)。可是,这三个都被“检验者”占了便宜,因为它们都计算出对于一个在自己合作之后有超过一半时间合作的程序,最好是继续与它保持合作。实际上如果它们像“一报还一报”及那些名列前茅的程序那样在第二步就立即用背叛反击“检验者”的话,它们的处境就会好得多。这可以使得“检验者”赶快抱歉,而后的情况就好多了。
1701028058
1701028059
“镇定者”采用更加“聪明”的方式来占人家的便宜。因此更难对付。“镇定者”首先争取与对方建立双方合作的关系,然后才偶尔试探看看是否有便宜可占。它是由克雷格·费瑟斯(Craig Feathers)提交的,在竞赛中名列27。这个规则通常是合作的。但是如果对方经常背叛的话,它就背叛。因此只要对方合作,它就会在开头十几步或二十几步中合作,然后再夹入一两次背叛。等到双方的合作已经建立,它指望能哄骗对方原谅它的偶尔背叛。如果对方继续合作,这种背叛就更加经常出现。然而只要“镇定者”平均得分保持在每步2.25分以上,它就不会连续背叛两次,而且背叛不会超过总数的1/4。它尽量避免自己做得太过分了。
[
上一页 ]
[ :1.70102801e+09 ]
[
下一页 ]