打字猴:1.701027935e+09
1701027935 合作的进化(修订版) [:1701027603]
1701027936 第二章 “一报还一报”在计算机竞赛中的胜利
1701027937
1701027938 由于“囚徒困境”如此普遍地出现在从个人关系到国际关系的事务中,因此知道在这种情形下采取什么行动最好是很有用的。可是,第一章的命题说明没有最好的策略可用。什么是最好的策略部分取决于另一对策者会怎么做。而且,另一对策者会怎么做又很大程度地取决于这个对策者对你行为的预期。
1701027939
1701027940 为了摆脱这种困惑,可以通过收集那些有关“囚徒困境”的资料来获得有用的建议。幸运的是,在这个方面已经有了很多的研究。
1701027941
1701027942 通过使用实验对象,心理学家们已经发现,在“重复囚徒困境”中,所得到的合作和获得合作的特定模式取决于游戏的环境、各个对策者的品质特征及对策者之间的关系等各式各样的因素。由于在这个游戏中的行为反映了人们如此多的重要因素,“囚徒困境”已经变为一个标准的方式,用来探讨社会心理学中的各种问题,从中非的西方化的影响(Bethlehem 1975)、职业妇女的侵犯性是否存在(Baefsky and Berger 1974)到抽象和具体的思维风格的不同结果(Nydegger 1974)。在过去的15年中,《心理学摘要》引用了好几百篇有关“囚徒困境”的文章。“重复囚徒困境”已成为社会心理学的标准实验手段。
1701027943
1701027944 与作为实验基础同样重要的是,用“囚徒困境”作为主要社会过程模型的概念基础。理查森的军备竞赛模型就是以“囚徒困境”的相互作用为基础的,不同的只是用竞争国家的军备预算每年玩一次游戏(Richardson 1960;Zinnes 1976,pp.330—340)。卖方市场的竞争也可以用“囚徒困境”来模拟(Samuelson 1973,pp.503—505)。普遍存在的由集体行动产生集体利益的问题也可以作为多人的“囚徒困境”来分析(G. Hardin 1982)。就连投票交易也被模拟成“囚徒困境”(Riker and Brams 1973)。事实上,许多重要的政治、社会和经济过程的最好的模型都是以“囚徒困境”为基础的。
1701027945
1701027946 还有第三类关于“囚徒困境”的文献,它既不是实验室里也不是实际生活中的经验问题,而是用抽象的博弈论来分析一些基本策略问题的特性,如理性的意义(Luce and Raiffa 1957)、影响他人的选择(Schelling 1973)和没有强迫的合作(Taylor 1976)。
1701027947
1701027948 不幸的是,这三类文献都没有揭示如何更好地玩这个游戏。实验研究也没有什么帮助,因为所有实验都是基于对第一次见到这个游戏的人的选择的分析。他们对策略的微妙之处的认识是很有限的。虽然实验对象可能对每天都会发生的“囚徒困境”有许多经验,但是他们在正规的实验中使用这些经验的能力是有限的。有些“囚徒困境”的应用文献研究了富有经验的经济、政治方面的名流在实际情况下的选择。但是结果并没有多大帮助,因为大多数高水平的相互作用的进程相对来说是缓慢的,而且要改变环境是困难的。用这种方式分析和认同的选择总共不到十几个。最后,对策略相互作用的抽象分析通常包括对“重复囚徒困境”的一些变体的研究。它们通过引入一些对策上的变化,诸如允许相互依赖的选择(Howard 1966;Rapoport,1967),或者给背叛加罚(Tideman and Tullock 1976;Clarke 1980)来消除困境本身。
1701027949
1701027950 为了学到更多关于在“重复囚徒困境”中如何有效地选择,需要一个新的方法,这个方法必须从对非零和博弈所固有的策略可能性有深刻理解的人那里得到帮助。在非零和博弈中参与者的利益一部分是一致的,一部分是冲突的。应该考虑有关非零和博弈的两个重要事实:首先,第一章的命题说明,一个策略是有效的不仅取决于一个特定策略的特征,而且取决于它所要遭遇的其他策略的特性。其次,根据第一点,一个有效的策略必须在任何时候都能考虑到相互作用的历史。
1701027951
1701027952 研究在“重复囚徒困境”中有效选择的计算机竞赛满足了这些要求。在计算机竞赛中,每个参加者写一个体现在每一步中选择合作或不合作的规则的程序,这个程序在作选择时可以利用对局的历史。如果参加者主要是从那些熟悉“囚徒困境”的人中征募的,那么参加者的程序必将与其他有见识的人的程序相遇。这样就能保证竞赛的水平。
1701027953
1701027954 为了看看到底会发生什么,我邀请了博弈论专家提送程序参加上述的计算机竞赛。竞赛是循环进行的,即每一个参赛程序都与其他程序相遇。按照事先宣布的竞赛规则,每一个参赛程序还要与它自己以及一个“随机”程序相遇。这个随机程序,以相等的概率随机地选择合作或背叛。每轮游戏有200次对局。[1]每次对局的支付矩阵与在第一章中描述的一样。对双方合作奖励每人3分,对双方背叛只给1分。如果一个人背叛而另一人合作,背叛者得5分,合作者得零分。
1701027955
1701027956 没有参赛者因为超过规定时间而被取消资格。事实上为了得到每对参赛者得分的更稳定的估计,整个循环赛重复了5次,一共是12万次对局,24万个不同的选择。
1701027957
1701027958 提交的14个程序,来自5个学科:心理学、经济学、政治学、数学和社会学。附录A中列出了这些送交程序的人及其所属学科,并给出了他们的程序的名次和得分。
1701027959
1701027960 竞赛的一个显著特点是它允许不同学科的人以相同的形式和语言进行相互作用。绝大部分程序是来自那些已经在博弈论或在“囚徒困境”方面发表过论文的人。
1701027961
1701027962 由多伦多大学阿纳托尔·拉帕波特教授提交的“一报还一报”策略赢得了竞赛。它是所有提交程序中最简单的,结果却是最好的!
1701027963
1701027964 “一报还一报”开始选择合作,然后就按对方上一步的选择去做。这个决策规则是有关“囚徒困境”的最著名的也是被讨论最多的策略。它容易理解也容易被编成程序。它因为能引发人们的合作而著名(Oskamp 1971;W. Wilson 1971)。作为一个参赛者,它具有不易被剥削且能和与自己相同的策略相处很好的特性。在与所有参赛者都知道的“随机”程序相遇时,它就显出太宽容的不足来。
1701027965
1701027966 另外,众所周知,“一报还一报”是一个很有力的竞争者,在一次预赛中“一报还一报”名列第二,在另一次预赛中它名列第一。设计计算机竞赛程序的绝大部分人都知道这些结果,关于预赛的情况都通知了他们。所以毫不奇怪,他们中的许多人都使用了“一报还一报”的原则并且试图改进它。令人惊奇的是这些提交的复杂程序没有一个能够表现得像原本的“一报还一报”一样好。
1701027967
1701027968 这与计算机象棋比赛相反,计算机象棋比赛显然需要一定的复杂性。例如:在第二届世界计算机国际象棋锦标赛上,最简单的程序名列最后(Jennings 1978),它是由瑞士苏黎士高级工学院的约翰·乔斯(Johann Joss)提交的。这次他也提交了一个程序参加计算机“囚徒困境”竞赛。他的程序对“一报还一报”作了一些小改动。但是,他的改动和其他人一样,只降低了这个策略的成绩。
1701027969
1701027970 对结果的分析表明,既不是这些参赛者的学科,也不是程序的长短使得一个规则相对来说是成功的。那么,原因是什么呢?
1701027971
1701027972 在回答这个问题之前,先解释一下竞赛的计分,在200次对局的游戏中,优秀成绩的基准线是600分,它相当于双方总是合作时对策者的得分。差劣成绩的基准线是200分,它相当于双方从来不合作时对策者的得分。虽然从0到1 000分之间的得分是可能的,但大多数的得分在200和600分之间。胜利者——“一报还一报”——每次游戏的平均得分是504分。
1701027973
1701027974 出乎意料的是,有一个特性可以把得分相对高的程序和得分相对低的程序区别开来,它就是善良性,即从不首先背叛。[为了方便地分析这个竞赛,一个善良的规则的定义被放宽到包括那些在最后几步(如199步)之前不背叛的规则。]
1701027975
1701027976 名列前8名的参赛者(或规则)都是善良的,其他则都不是。在善良的规则和其他规则的得分之间有个很大的差距。善良的规则的竞赛平均得分在472分到504分之间,而不善良的规则平均得分是401分。因此,不首先背叛或至少在游戏快要结束之前不背叛,是区分这次计算机“囚徒困境”竞赛中成功的规则和不成功的规则的唯一特性。
1701027977
1701027978 每一个善良的规则与其他7个善良的规则及它们自己相遇时,得分大约是600分,这是因为当两个善良规则相遇时,直到游戏结束之前它们都是相互合作的,实际上游戏终了战术的些微不同对得分没有太大的影响。
1701027979
1701027980 由于所有的善良规则相互之间相遇都得到大约600分,所以区分它们之间的相对名次的是它们与不善良规则相遇时的得分。这是很显然的。不显然的是,这8个名列前茅的规则的相对名次很大程度上只取决于其他7个程序中的2个。这2个规则对谁能得第一是关键因素,因为它们虽然自己表现得不怎么样,但却能决定前几个竞争者的名次。
1701027981
1701027982 影响排名的最重要的规则是以“结果最大化”原则为基础的。这个原则原来是用来解释在“囚徒困境”实验中被试验者的行为的(Downing 1975)。这个被称为“唐宁”(DOWNING)的规则颇具实力,是一个特别有趣的规则。作为一个相当复杂的决策规则的范例,“唐宁”很值得研究。和大多数其他的规则不同,它不只是“一报还一报”的变形,而是试图了解对方并在这个了解的基础上作出能得到长期的最好得分的选择。具体想法是:如果对方似乎不对“唐宁”的行为作出反应的话,“唐宁”将试着背叛;如果对方反应的话,“唐宁”就合作。为了判断对方的反应,“唐宁”估计对方在它合作之后合作的概率和在它背叛之后合作的概率。每走一步,它便对这两个条件概率作出新的估计,然后在假设它已经正确估计对方的情况下,作出自己长期支付最大化的选择。如果这两个条件概率具有相似的值,那么“唐宁”将决定背叛,因为对方似乎不管“唐宁”合作与否都做同样的事。相反,如果对方倾向于在“唐宁”合作之后合作而不是“唐宁”背叛之后合作,对方就是有反应的,那么,“唐宁”就将计算出对于有反应的对手最好是合作。在一定的条件下,“唐宁”甚至确定最好的策略是交替地合作、背叛。
1701027983
1701027984 在游戏一开始,“唐宁”不知道对方的这两个条件概率值。于是它假设它们都是0.5,在游戏进行之中,有实际的信息出现时它就不用这个估计了。
[ 上一页 ]  [ :1.701027935e+09 ]  [ 下一页 ]