1701027970
对结果的分析表明,既不是这些参赛者的学科,也不是程序的长短使得一个规则相对来说是成功的。那么,原因是什么呢?
1701027971
1701027972
在回答这个问题之前,先解释一下竞赛的计分,在200次对局的游戏中,优秀成绩的基准线是600分,它相当于双方总是合作时对策者的得分。差劣成绩的基准线是200分,它相当于双方从来不合作时对策者的得分。虽然从0到1 000分之间的得分是可能的,但大多数的得分在200和600分之间。胜利者——“一报还一报”——每次游戏的平均得分是504分。
1701027973
1701027974
出乎意料的是,有一个特性可以把得分相对高的程序和得分相对低的程序区别开来,它就是善良性,即从不首先背叛。[为了方便地分析这个竞赛,一个善良的规则的定义被放宽到包括那些在最后几步(如199步)之前不背叛的规则。]
1701027975
1701027976
名列前8名的参赛者(或规则)都是善良的,其他则都不是。在善良的规则和其他规则的得分之间有个很大的差距。善良的规则的竞赛平均得分在472分到504分之间,而不善良的规则平均得分是401分。因此,不首先背叛或至少在游戏快要结束之前不背叛,是区分这次计算机“囚徒困境”竞赛中成功的规则和不成功的规则的唯一特性。
1701027977
1701027978
每一个善良的规则与其他7个善良的规则及它们自己相遇时,得分大约是600分,这是因为当两个善良规则相遇时,直到游戏结束之前它们都是相互合作的,实际上游戏终了战术的些微不同对得分没有太大的影响。
1701027979
1701027980
由于所有的善良规则相互之间相遇都得到大约600分,所以区分它们之间的相对名次的是它们与不善良规则相遇时的得分。这是很显然的。不显然的是,这8个名列前茅的规则的相对名次很大程度上只取决于其他7个程序中的2个。这2个规则对谁能得第一是关键因素,因为它们虽然自己表现得不怎么样,但却能决定前几个竞争者的名次。
1701027981
1701027982
影响排名的最重要的规则是以“结果最大化”原则为基础的。这个原则原来是用来解释在“囚徒困境”实验中被试验者的行为的(Downing 1975)。这个被称为“唐宁”(DOWNING)的规则颇具实力,是一个特别有趣的规则。作为一个相当复杂的决策规则的范例,“唐宁”很值得研究。和大多数其他的规则不同,它不只是“一报还一报”的变形,而是试图了解对方并在这个了解的基础上作出能得到长期的最好得分的选择。具体想法是:如果对方似乎不对“唐宁”的行为作出反应的话,“唐宁”将试着背叛;如果对方反应的话,“唐宁”就合作。为了判断对方的反应,“唐宁”估计对方在它合作之后合作的概率和在它背叛之后合作的概率。每走一步,它便对这两个条件概率作出新的估计,然后在假设它已经正确估计对方的情况下,作出自己长期支付最大化的选择。如果这两个条件概率具有相似的值,那么“唐宁”将决定背叛,因为对方似乎不管“唐宁”合作与否都做同样的事。相反,如果对方倾向于在“唐宁”合作之后合作而不是“唐宁”背叛之后合作,对方就是有反应的,那么,“唐宁”就将计算出对于有反应的对手最好是合作。在一定的条件下,“唐宁”甚至确定最好的策略是交替地合作、背叛。
1701027983
1701027984
在游戏一开始,“唐宁”不知道对方的这两个条件概率值。于是它假设它们都是0.5,在游戏进行之中,有实际的信息出现时它就不用这个估计了。
1701027985
1701027986
这是一个相当复杂的决策规则,但是它在实践中却有一个缺陷。由于初始假设对方是不反应的,“唐宁”在头两步肯定是背叛的。这头两次背叛遭致许多其他规则的惩罚,因此事情就糟在这个坏的开头上。然而,正是因为这样,“唐宁”才能成为决定前几名竞争者的名次的关键规则。第一名的“一报还一报”和第二名的“泰德曼和奇露茨”(TIDEMAN AND CHIERUZZI)的反应使得“唐宁”认为,与它们合作比背叛更有好处,而其他所有的善良规则与“唐宁”相遇就走下坡路。
1701027987
1701027988
善良的规则在竞赛中之所以表现好在很大程度上是由于它们相互之间相处得很好,而且由于具有一定的数量使得它们能够大幅度相互提高它们的平均得分。只要对方不背叛,每个善良的规则一定是持续合作直到最后一步。如果有个背叛将会怎样呢?不同的规则的反应是很不一样的。而且它们的反应对于确定它们的最后成功是很重要的。一个重要的概念是决策规则的宽容性。一个规则的宽容性可以非正规地描述成它在对方背叛之后的合作倾向。[2]
1701027989
1701027990
所有善良规则中,得分最低的就是最少宽容性的规则,它是“弗里德曼”(FRIEDMAN),一个采用永久报复的完全不宽容的规则。它决不首先背叛,但是一旦对方背叛(即使是一次),“弗里德曼”就从此一直背叛下去。相反地,冠军“一报还一报”只不宽容一步,而后便完全原谅那个背叛。在一次惩罚之后,它就让过去的过去了。
1701027991
1701027992
不善良的规则在竞赛中表现不佳的主要原因之一就是,竞赛中的大部分规则都不是很宽容的。这里举一个具体的例子。“乔斯”(JOSS)是一个狡诈的规则,它试图偶尔进行背叛而不受惩罚。它是“一报还一报”的变形。像“一报还一报”一样,它总是在对方背叛之后立即背叛。但是它十次中会有一次是在对方合作之后背叛,而不是在对方合作之后总是合作。因此,它试图偷偷地偶尔占对方的便宜。
1701027993
1701027994
这个规则只是“一报还一报”的稍稍变形。但是事实上它的整体绩效却差多了。弄清楚这里的原因是很有趣的。表2.1列出了“乔斯”和“一报还一报”对局的每步记录。开始时双方合作,但是在第6步“乔斯”随机选择了一步背叛。下一步“乔斯”又合作。但是“一报还一报”用背叛来反应“乔斯”的上一步背叛,然后“乔斯”用背叛来反应“一报还一报”的背叛。因此,“乔斯”在第6步的一个背叛引起了“乔斯”和“一报还一报”之间背叛的反射,即造成了“乔斯”在而后一系列的偶数步时背叛和“一报还一报”在奇数步时背叛。
1701027995
1701027996
表2.1 “一报还一报”与“乔斯”的对局显示图
1701027997
1701027998
1701027999
1701028000
1701028001
“一报还一报”得236分,“乔斯”得241分。
1701028002
1701028003
1——双方合作;
1701028004
1701028005
2——只有“一报还一报”合作;
1701028006
1701028007
3——只有“乔斯”合作;
1701028008
1701028009
4——双方均不合作。
1701028010
1701028011
在第25步,“乔斯”又随机选择了另一个背叛。当然“一报还一报”在下一步也背叛。这样,另一回合的反射又开始了,它使得“乔斯”在奇数步时也背叛。这两个回合的反射使得双方在25步以后都是背叛。这一连串的双方背叛意味着在而后的游戏中每步它们只能得到1分。这个游戏的最后成绩是“一报还一报”得236分,“乔斯”得241分。我们注意到“乔斯”比“一报还一报”好一些,但它们都表现得很差。[3]
1701028012
1701028013
问题就出在“乔斯”在对方合作之后偶尔的背叛,再加上双方缺少宽容。从这里得到的启示是,如果双方以“乔斯”和“一报还一报”一样的方式进行报复的话,“乔斯”的贪婪就得不到好处。
1701028014
1701028015
这次竞赛的主要教训是认识到在双方竞争的环境下,避免反射效应是很重要的。一旦一方的背叛诱发一长串的报复和反报复,双方都要吃亏。要对选择作出精辟的分析必须深入三个层次来考虑这种反射效应。第一层次的分析是选择的直接效果。这是很容易的,因为背叛总是比合作赢得多。第二层次是考虑间接效果,即考虑对方是否处罚背叛。许多参赛者都考虑到了这个层次。但是第三层次的考虑要深刻得多,即为了反应对方的背叛,有人就会重复甚至扩大自己以前的挑衅性的选择。因此,一个单一的背叛从它的直接效果甚至第二层次的效果来说是成功的。但是真正的代价在于第三层次,即一个孤立的背叛变成了一连串无休止的报复。由于没有认识到这一点,许多程序到头来惩罚了自己。由于这种自我惩罚被对方延迟了几步,所以许多决策规则都没有考虑到这一点。
1701028016
1701028017
尽管事实上任何改善“一报还一报”的企图都没有奏效,但还是可以容易地找到在这次竞赛的条件下能比“一报还一报”表现得更好的几个规则。这些规则的存在可以给轻信“以牙还牙”肯定是最好的策略的人一个警告。至少有三个规则如果参赛的话将赢得竞赛。
1701028018
1701028019
为了向可能的参赛者说明如何提交程序,一个示范程序被提供给了大家,事实上,如果有人简单地把它剪下后寄来,它将赢得这次竞赛。可惜没有人这么做。这个简单的程序只有在对方前两步连续背叛后才背叛。它是“一报还一报”的更加宽容的版本,它从不惩罚孤立的背叛。这个“两报还一报”(TIT FOR TWO TATS)规则的出色表现揭示了参赛者的一个共同错误,即预期相对于“一报还一报”更少点宽容能得到更多的好处,然而,事实上是更多点宽容才能得到更多好处。这个惊人的发现表明,即使是战略专家也没有给宽容的重要性以足够的重视。
[
上一页 ]
[ :1.70102797e+09 ]
[
下一页 ]