打字猴:1.7010289e+09
1701028900 合作的进化(修订版) [:1701027613]
1701028901 合作的进化(修订版) 第九章 回报的鲁棒性
1701028902
1701028903 进化的方法基于一个简单的原则:成功的东西更有可能在将来经常出现。但机制有各种各样,经典的达尔文进化中的机制是基于不同的生存和复制的自然选择。议会中的机制可能是那些有效地为选民提供法案和服务的议员们会增加再次当选的机会。商业界的机制可能是一个获利的公司可以避免破产。但是进化的机制不必是生与死的问题,对于有智能的对策者,一个成功的策略能更经常地在将来出现,是因为其他人转变过来采用这个策略。这种转变或多或少可以是对成功者的盲目模仿,或者是基于有意识的学习过程。
1701028904
1701028905 进化过程不仅要求成功的东西有或多或少的增长,为了使进化更深入它还要求多样性,即尝试新的东西。在遗传生物学中,这种多样性是由每一代基因的变异和改组来提供的。在社会过程中,多样性是由反复试错学习引入的,这种学习过程不一定反映高智能。一个新的行为模式可能作为旧行为的一个随机的变形而被接受,或者一个新的策略可以在以前的经验和怎样才能在将来做得最好的理性的基础上形成。
1701028906
1701028907 研究进化过程的不同方面,需要用不同的方法。有一些问题是关于进化过程的目的的。为了研究这些问题,集体(或进化)稳定的概念被用来说明进化过程将何时停下来,即确定哪些策略被大家采用时不被侵入。这种方法的优点在于能够很好地说明什么类型的策略能保护自己,在什么条件下能实现这种保护。例如,它说明了在未来影响足够大时,“一报还一报”是集体稳定的,而“总是背叛”策略在任何条件下都是集体稳定的。
1701028908
1701028909 集体稳定的方法的优势在于它能考虑所有可能的新策略,不管是原有策略的一点点变形,还是完全新的策略。稳定性方法的局限性在于它只说明什么策略在建立之后能够持续下去,却不能说明什么策略能首先建立。由于有许多不同的策略一旦建立一个群体就是集体稳定的,因此,知道哪个策略能首先建立是重要的,这需要不同的方法。
1701028910
1701028911 为了了解什么策略能首先建立,重点必须放在群体策略的多样性上。为了获得这种多样性,我们使用了竞赛的方法。这个竞赛方法本身鼓励提交复杂的策略,在第一轮竞赛中从对策专家那里得到了一些复杂的策略。通过让第二轮参赛者都知道第一轮竞赛的结果而使这些策略得到进一步改进。因此,新想法作为旧想法的改进或者作为那些可能做得很好的完全新的概念而加入竞赛。接着分析在这个多样化的环境中什么能做得最好,从而使我们了解了什么样的策略可以繁荣起来。
1701028912
1701028913 由于建立整个过程可能要花很多时间,另一个技术被用来研究当策略的社会环境变化时,它们的前景的变化。这个技术就是生态分析。它计算如果每一代策略出现的频率的增长与它们在前一代的成功成正比时会发生什么。它之所以是一个生态的方法,是由于它不引入新的策略,而只确定在竞赛中出现的各种策略在经过几百代以后的结果。它能够分析在一开始成功的策略是否在表现差的策略被淘汰后还能保持成功。在每一代中,成功策略的增长可以被看作是这个策略的使用者的较好的存活和复制,或者由于有较大的机会被其他人模仿。
1701028914
1701028915 与生态分析相关的是领地分析,它研究如果第二轮中的63个策略被散布在领地结构中且每一个位置都有4个邻居时所发生的情况。在领地系统中,成功的确定是局部的,每个有成功的邻居的位置将采用它的最成功的邻居的策略。像在生态模拟中一样,更成功的增长是由于较好的存活和复制,或者是由于有较大的机会被其他人模仿。
1701028916
1701028917 为了使用这些进化分析的方法,需要一个方式来确定任何一个给定的策略是如何与任何其他给定的策略对局的。在简单的情况下,可以用代数方法来进行计算,就像研究“一报还一报”遇见“总是背叛”时要如何做一样。在更复杂的情况下,可以用相互作用仿真并累计所得到的收益值来实现这个计算,就像进行“囚徒困境”的计算机竞赛一样。时间折扣和相互作用结束的不确定性,通过游戏长度的变化在竞赛中体现。随机特性的影响通过对相同的两个策略多次相互作用的结果的平均来克服。
1701028918
1701028919 这些进化的分析工具可以用于任何社会背景。在本书中,它们被用于一种特殊的社会情形,这种社会情形反映了最基本的合作困境。当每个人都能帮助其他人时,合作的潜力就会增加。但是当这种帮助是有代价的时候,困境就出现了。当从对方的合作中得到的好处大于自己合作的代价时,从合作中得到双方的好处的机会就能起作用。在这种情况下,双方将更愿意选择合作而不选择背叛。但是要达到你所喜欢的结果并不容易。这里有两个原因:第一,你必须得到对方的帮助,然而从短期效果来看,不帮助你对对方更有利。第二,你想得到别人的帮助,却不愿付出帮助别人的代价。[1]
1701028920
1701028921 合作理论的主要结论是令人鼓舞的,它们说明即使是在一个其他人不愿合作的世界里,合作仍然可以通过一小群准备回报合作的个体来产生。分析还表明合作能发展的两个关键前提是合作要基于回报和未来的影响要足够重要以使得回报稳定。但是,基于回报的合作一旦在群体中建立,它就能保护自己不受非合作策略的侵入。
1701028922
1701028923 看到合作能够开始,能够在一个多样化的环境中发展,并且一旦建立起来就能保护自己不受侵入是令人鼓舞的。但是有趣的是,建立这些结果只需对个体和社会环境作很少的假设。个体不必是理性的,即使在对策者不知道为什么或如何做时,进化过程也能让成功的策略发展起来。对策者不需要交换信息或承诺什么,他们不需要言语,他们的行为替他们说话。同时,这里不需要假设对策者之间相互信任,回报的使用足够使背叛得不到好处。这里利他主义也是不需要的,成功的策略甚至能够从自私者那里引出合作。最后,不需要中央权威,基于回报的合作能够自我控制。
1701028924
1701028925 合作的出现、发展和持续确实需要一点关于个体和社会背景的假设,它们要求个体能够识别出那些曾经相遇过的其他个体,并且要求记得它与这些个体相互作用的历史以便能作出反应。实际上,这些对识别和记忆的要求看起来并不那么高,即使是细菌也能在和另一个有机体接触时,通过采用只反应对方最近行为的策略(如“一报还一报”)来满足这些要求。因此,既然细菌都能玩这些游戏,人和国家当然也能。
1701028926
1701028927 为了合作能稳定,未来必须有足够大的影响,这意味着相同的两个个体再次相遇的重要性要大到足以使得背叛是一个得不到好处的策略。它要求对策双方有一个足够大的机会再次相遇,并且他们再次相遇的意义不能被打太多折扣。例如,使得第一次世界大战中堑壕战中的合作成为可能的是这样一个事实:无人区两边相同的小单位必须保持很长时间的接触,如果一方打破默契,另一方就可以报复。
1701028928
1701028929 最后,合作的进化要求成功的策略能繁荣,并且要求有多种多样的策略可以使用。这些机制可以是经典达尔文主义的适者生存和变异,也可以是有意识的过程,如模仿成功的行为模式和聪明的新策略的设计。
1701028930
1701028931 为了合作能首先开始,还需要一个条件。因为在一个无条件背叛的世界里,单个提供合作的个体是不能成功的,除非周围的人愿意回报。在另一方面,合作可以从具有识别力的小群体中产生,只要这些个体有一个很小的相互作用的比例是在它们彼此之间进行的。因此,必须有一个采用具有如下两个特性的策略的个体组成的小群体:这些策略必须是首先合作,而且它们必须能区分对手是反应合作的还是不反应合作的。
1701028932
1701028933 合作进化的条件告诉了我们什么是必要的,但它们本身并没有告诉我们什么策略将是最成功的。为了回答这个问题,竞赛的方法提供了惊人的证据,说明了最简单的具有识别力的策略——“一报还一报”——的成功。通过在第一步合作,然后按对方上一步的方式去做,“一报还一报”与各种各样复杂的决策规则相处得很好。它不仅赢得了由对策专家提交的参赛程序进行的“囚徒困境”第一轮竞赛,而且赢得了包括了由参考了第一轮竞赛结果的人所设计的超过60个程序的第二轮竞赛。它还赢得了第二轮竞赛的6次变形赛中的5次(第6次变形赛中它名列第二)。给人印象最深的是,它的成功不只是与那些得分很差的策略相处得很好。假想的未来竞赛的生态分析说明了这一点,在几百轮的模拟竞赛中,“一报还一报”还是最成功的规则,这说明它与好的和坏的规则都能够相处得很好。
1701028934
1701028935 “一报还一报”的成功是由于它的善良性、可激怒性、宽容性和清晰性。它的善良性意味着它决不首先背叛,这个特性防止它陷入不必要的麻烦;它的可激怒性使对方一旦尝试背叛后就不敢坚持;它的宽容性有助于恢复双方合作;它的清晰性使得它的行为方式容易被辨识,一旦被识别,就容易看出与“一报还一报”相处的最好方式就是与它合作。
1701028936
1701028937 尽管“一报还一报”一直很成功,但它还不能称为“重复囚徒困境”的理想策略。首先,“一报还一报”以及其他善良策略要在未来影响足够大时才有效,但是即使这样,也没有能独立于其他人所采用的策略的理想策略。在一些极端的情况下,如在没有足够的其他人回报它的最初合作的情况下,即使是“一报还一报”也做得很差。“一报还一报”确实也有它的弱点。例如,对方一旦背叛,“一报还一报”总是以背叛回报,如果对方作同样的反应,结果将会是无止境的交替背叛。在这一点上“一报还一报”是不够宽容的。但是,“一报还一报”对待那些完全不反应的规则,如纯随机规则,又太宽容了。然而在众多设计来取胜的复杂策略所组成的多样性的环境中,“一报还一报”确实表现得很好。
1701028938
1701028939 如果一个善良的策略,如“一报还一报”,最终被所有人采用,那么采用这个善良策略的个体,在与其他人相处时就能够表现得宽宏大量。事实上,一个善良策略的群体,能够像保护自己不受单个个体侵入一样保护自己不受任何这类策略的小群体侵入。
1701028940
1701028941 这些结果绘出了一幅合作进化的图画。合作能从小群体开始,在善良、可激怒和某种程度的宽容的规则中逐步成长,并且一旦成为一个群体,采用这种有识别力的策略的个体就能保护自己不受侵入,总体的合作水平是在上升而不是下降。换句话说:合作的进化是不可逆转的。
1701028942
1701028943 如第一章所述,从美国国会的回报规范的形成中可以看到这种机制。在建国初期,国会议员们由于他们的奸诈和背叛而闻名。他们相当不讲道德而且经常相互欺骗。然而,过了几年,合作的行为模式出现了并且保持稳定。这些模式就是基于回报的规范。
1701028944
1701028945 有许多机构也发展了基于相似规范的稳定合作模式。例如,钻石市场是由于它的成员只要口头保证或一个握手就能成交价值几百万美元的交易而闻名的。这里的关键因素在于参与者都知道他们还要一次又一次地打交道。因此,任何想占便宜的企图都是没有好处的。
1701028946
1701028947 在罗恩·卢西亚诺(Ron Luciano)的回忆录中有一个很好的例子。卢西亚诺是一个棒球裁判,有时也会伤风头痛:
1701028948
1701028949 经过一段时间我懂得信任一些投球手并在我不舒服的时候为我做裁判。这不舒服的日子经常发生在狂欢夜之后,……在这些日子里,我没有什么可做的,只是吃两片阿司匹林,尽量少叫喊。如果我所信任的人正在打球。我就会告诉他:“嘿,今天我不舒服,你最好帮我当裁判。如果是一个好球,握起你的手套在适当的位置多停一秒钟,如果是一个坏球,就把它扔回去,请不要大声叫。”
[ 上一页 ]  [ :1.7010289e+09 ]  [ 下一页 ]