打字猴:1.701027981e+09

1701027981

1701027982 影响排名的最重要的规则是以“结果最大化”原则为基础的。这个原则原来是用来解释在“囚徒困境”实验中被试验者的行为的（Downing 1975）。这个被称为“唐宁”（DOWNING）的规则颇具实力，是一个特别有趣的规则。作为一个相当复杂的决策规则的范例，“唐宁”很值得研究。和大多数其他的规则不同，它不只是“一报还一报”的变形，而是试图了解对方并在这个了解的基础上作出能得到长期的最好得分的选择。具体想法是：如果对方似乎不对“唐宁”的行为作出反应的话，“唐宁”将试着背叛；如果对方反应的话，“唐宁”就合作。为了判断对方的反应，“唐宁”估计对方在它合作之后合作的概率和在它背叛之后合作的概率。每走一步，它便对这两个条件概率作出新的估计，然后在假设它已经正确估计对方的情况下，作出自己长期支付最大化的选择。如果这两个条件概率具有相似的值，那么“唐宁”将决定背叛，因为对方似乎不管“唐宁”合作与否都做同样的事。相反，如果对方倾向于在“唐宁”合作之后合作而不是“唐宁”背叛之后合作，对方就是有反应的，那么，“唐宁”就将计算出对于有反应的对手最好是合作。在一定的条件下，“唐宁”甚至确定最好的策略是交替地合作、背叛。

1701027983

1701027984 在游戏一开始，“唐宁”不知道对方的这两个条件概率值。于是它假设它们都是0.5，在游戏进行之中，有实际的信息出现时它就不用这个估计了。

1701027985

1701027986 这是一个相当复杂的决策规则，但是它在实践中却有一个缺陷。由于初始假设对方是不反应的，“唐宁”在头两步肯定是背叛的。这头两次背叛遭致许多其他规则的惩罚，因此事情就糟在这个坏的开头上。然而，正是因为这样，“唐宁”才能成为决定前几名竞争者的名次的关键规则。第一名的“一报还一报”和第二名的“泰德曼和奇露茨”（TIDEMAN AND CHIERUZZI）的反应使得“唐宁”认为，与它们合作比背叛更有好处，而其他所有的善良规则与“唐宁”相遇就走下坡路。

1701027987

1701027988 善良的规则在竞赛中之所以表现好在很大程度上是由于它们相互之间相处得很好，而且由于具有一定的数量使得它们能够大幅度相互提高它们的平均得分。只要对方不背叛，每个善良的规则一定是持续合作直到最后一步。如果有个背叛将会怎样呢？不同的规则的反应是很不一样的。而且它们的反应对于确定它们的最后成功是很重要的。一个重要的概念是决策规则的宽容性。一个规则的宽容性可以非正规地描述成它在对方背叛之后的合作倾向。[2]

1701027989

1701027990 所有善良规则中，得分最低的就是最少宽容性的规则，它是“弗里德曼”（FRIEDMAN），一个采用永久报复的完全不宽容的规则。它决不首先背叛，但是一旦对方背叛（即使是一次），“弗里德曼”就从此一直背叛下去。相反地，冠军“一报还一报”只不宽容一步，而后便完全原谅那个背叛。在一次惩罚之后，它就让过去的过去了。

1701027991

1701027992 不善良的规则在竞赛中表现不佳的主要原因之一就是，竞赛中的大部分规则都不是很宽容的。这里举一个具体的例子。“乔斯”（JOSS）是一个狡诈的规则，它试图偶尔进行背叛而不受惩罚。它是“一报还一报”的变形。像“一报还一报”一样，它总是在对方背叛之后立即背叛。但是它十次中会有一次是在对方合作之后背叛，而不是在对方合作之后总是合作。因此，它试图偷偷地偶尔占对方的便宜。

1701027993

1701027994 这个规则只是“一报还一报”的稍稍变形。但是事实上它的整体绩效却差多了。弄清楚这里的原因是很有趣的。表2.1列出了“乔斯”和“一报还一报”对局的每步记录。开始时双方合作，但是在第6步“乔斯”随机选择了一步背叛。下一步“乔斯”又合作。但是“一报还一报”用背叛来反应“乔斯”的上一步背叛，然后“乔斯”用背叛来反应“一报还一报”的背叛。因此，“乔斯”在第6步的一个背叛引起了“乔斯”和“一报还一报”之间背叛的反射，即造成了“乔斯”在而后一系列的偶数步时背叛和“一报还一报”在奇数步时背叛。

1701027995

1701027996 表2.1　“一报还一报”与“乔斯”的对局显示图

1701027997

1701027998

1701027999

1701028000

1701028001 “一报还一报”得236分，“乔斯”得241分。

1701028002

1701028003 1——双方合作；

1701028004

1701028005 2——只有“一报还一报”合作；

1701028006

1701028007 3——只有“乔斯”合作；

1701028008

1701028009 4——双方均不合作。

1701028010

1701028011 在第25步，“乔斯”又随机选择了另一个背叛。当然“一报还一报”在下一步也背叛。这样，另一回合的反射又开始了，它使得“乔斯”在奇数步时也背叛。这两个回合的反射使得双方在25步以后都是背叛。这一连串的双方背叛意味着在而后的游戏中每步它们只能得到1分。这个游戏的最后成绩是“一报还一报”得236分，“乔斯”得241分。我们注意到“乔斯”比“一报还一报”好一些，但它们都表现得很差。[3]

1701028012

1701028013 问题就出在“乔斯”在对方合作之后偶尔的背叛，再加上双方缺少宽容。从这里得到的启示是，如果双方以“乔斯”和“一报还一报”一样的方式进行报复的话，“乔斯”的贪婪就得不到好处。

1701028014

1701028015 这次竞赛的主要教训是认识到在双方竞争的环境下，避免反射效应是很重要的。一旦一方的背叛诱发一长串的报复和反报复，双方都要吃亏。要对选择作出精辟的分析必须深入三个层次来考虑这种反射效应。第一层次的分析是选择的直接效果。这是很容易的，因为背叛总是比合作赢得多。第二层次是考虑间接效果，即考虑对方是否处罚背叛。许多参赛者都考虑到了这个层次。但是第三层次的考虑要深刻得多，即为了反应对方的背叛，有人就会重复甚至扩大自己以前的挑衅性的选择。因此，一个单一的背叛从它的直接效果甚至第二层次的效果来说是成功的。但是真正的代价在于第三层次，即一个孤立的背叛变成了一连串无休止的报复。由于没有认识到这一点，许多程序到头来惩罚了自己。由于这种自我惩罚被对方延迟了几步，所以许多决策规则都没有考虑到这一点。

1701028016

1701028017 尽管事实上任何改善“一报还一报”的企图都没有奏效，但还是可以容易地找到在这次竞赛的条件下能比“一报还一报”表现得更好的几个规则。这些规则的存在可以给轻信“以牙还牙”肯定是最好的策略的人一个警告。至少有三个规则如果参赛的话将赢得竞赛。

1701028018

1701028019 为了向可能的参赛者说明如何提交程序，一个示范程序被提供给了大家，事实上，如果有人简单地把它剪下后寄来，它将赢得这次竞赛。可惜没有人这么做。这个简单的程序只有在对方前两步连续背叛后才背叛。它是“一报还一报”的更加宽容的版本，它从不惩罚孤立的背叛。这个“两报还一报”（TIT FOR TWO TATS）规则的出色表现揭示了参赛者的一个共同错误，即预期相对于“一报还一报”更少点宽容能得到更多的好处，然而，事实上是更多点宽容才能得到更多好处。这个惊人的发现表明，即使是战略专家也没有给宽容的重要性以足够的重视。

1701028020

1701028021 另一个可以赢得竞赛的规则也被提供给参赛者们。它是预赛的胜利者，有关它的情况被列在征募参赛者的报告中。这个被称为“向前看”（LOOK AHEAD）的规则，是受到下棋程序中人工智能技术的启发。有趣的是，这个吸收人工智能技术的规则事实上比任何一个由博弈论专家专门设计来参加“囚徒困境”竞赛的规则都要强。

1701028022

1701028023 第三个可以赢得竞赛的是个对“唐宁”稍加改动的规则。如果“唐宁”初始假设其他人是反应的而不是不反应的，它也会赢而且能赢得很多。那么这个使其他人成为胜利者的关键因素，自己就可以成为胜利者。“唐宁”关于其他人的初始假设是悲观的，如果持乐观态度，不仅假设更准确，而且能有更成功的表现。那时，“唐宁”就该名列第一而不是第十了。[4]

1701028024

1701028025 以上补充规则的分析结果支持了从分析参赛规则本身所得到的观点：即参赛者为了自己的利益太富于竞争性。首先，许多人在游戏中没有受到挑衅就早早地开始背叛，这个特点从长远来看是要付出大代价的。其次，任何参赛者所显示出来的宽容性比理想的要小得多（“唐宁”可能是例外）。第三，最与众不同的规则“唐宁”，由于对其他人的反应所作的初始假设太悲观而做了不少蠢事。

1701028026

1701028027 竞赛结果的分析表明，为了更好地应付双方竞争的环境有许多东西要学。即使是政治学、社会学、经济学、心理学和数学界的策略专家，也会犯诸如太计较自己的利益、不够宽容和对对方的反应太悲观等错误。一个特定策略的有效性不仅取决于它自己的特性，而且取决于它要相遇的其他策略的特性。因此，单一竞赛的结果是不能最后说明问题的，需要进行第二轮竞赛。

1701028028

1701028029 第二轮比赛的结果为洞察“囚徒困境”中有效选择的特性提供了强有力的根据，因为第二轮竞赛的参赛者，都得到了一份关于第一轮竞赛的详细分析报告，其中包括那些可以表现得很好的补充规则。因此他们不仅知道第一轮竞赛的结果，而且知道用于分析成功的思想和概念及所发现的易犯的策略性错误。另外，每个人都知道其他人也知道这些事。因此，第二轮比赛总该比第一轮有一个更高的起点，可以期望它的结果对于指导如何在“囚徒困境”中有效地选择是更有价值的。

1701028030

[ 上一页 ] [ :1.701027981e+09 ] [ 下一页 ]