打字猴:1.70237681e+09
1702376810 脱离开囚徒困境的限定,很容易就能想明白采取简单策略的优势。如果你太过聪明,你的对手可能就会发现很难读懂你的意图;而如果你表现得太过迟钝、含糊或令人费解,你的对手就不会产生与你合作的动机。同样,如果一个程序(或一个人)可以清楚明确地采取行动并发出信号,让人感觉它(他)不会轻易变卦,那么与其合作就是一个很合理的选择。
1702376811
1702376812 令人惊讶的是,这个发现竟然一点儿都不新鲜。参加计算机囚徒困境比赛的选手已经了解到了这一强大的策略。实际上,20世纪70年代初发表的研究成果已经显示出“以牙还牙”策略的优异表现。这一策略让人回想起冷战时期核军备竞赛的情形。当时,每一方都承诺,只要对方不使用原子弹和氢弹,自己就不会使用。许多参赛选手都试图在这一简单策略的基础之上对自己的程序进行提升。“出乎人们的意料,在提交的所有复杂程序中,竟然没有一个能与‘以牙还牙’最初的简单版本相抗衡。”阿克塞尔罗德评论道。
1702376813
1702376814 为了找到成功的秘诀,阿克塞尔罗德分别详细研究了高分和低分策略,发现其中一项属性表现出了特别的重要性。“这就是友善的属性,也就是说,永远不做第一个背叛的人。”这一属性很有意思,因为不会在对别人采取报复手段之后还心存芥蒂。由此,两位对手之间就会永远存在恢复“信任”的机会:如果对手进行和解,那么双方都能获得合作带来的好处。
1702376815
1702376816 阿克塞尔罗德又组织了第二场比赛,这一次共有6个国家的63个程序参赛,参赛选手中包括一位年仅10岁的计算机小爱好者,还有一群专业方向各异的大学教授。其中一份参赛作品来自于英国生物学家约翰·梅纳德·史密斯(John Maynard Smith),我们之后会对他做详细介绍。梅纳德·史密斯的作品名叫“一牙还两牙”,这一策略是说,除非对手接连两次采取背叛行为,否则就一直保持合作态度。梅纳德·史密斯在他所在的研究领域中广受尊敬,而在这次比赛中却仅排在第24位。
1702376817
1702376818
1702376819
1702376820
1702376821 而拉波波特则秉承了英国足球队的座右铭:“永不改变一支获胜的团队。”他再一次提交了“以牙还牙”策略,并再一次获得了胜利。由此可见,遵从这条简单的策略,的确可以有所回报。正是这场比赛,激起了卡尔·西格蒙德研究囚徒困境的兴趣,而他又通过那次山间谈话给了我灵感。罗伯特·阿克塞尔罗德的著作《合作的进化》,如今已实至名归地被公认为这一领域内的经典名著。
1702376822
1702376823 阿克塞尔罗德的计算机比赛对现实世界是否存在一些启迪意义呢?答案是肯定的。曼弗雷德·米林斯基(Manfred Milinski)于1987年报告了这类竞赛在现实生活中的一个实例。如今,米林斯基已是位于德国普伦的马克斯—普朗克进化生物学协会(Max Planck Institute for Evolutionary Biology)的主任。当时,米林斯基对棘鱼的行为进行了研究。当梭子鱼等大型掠食性鱼类出现时,棘鱼群中会有几条鱼儿主动接近,探查一下闯入者究竟有多大的危险性。对于这些“侦察兵”来说,“掠食者探查活动”有着极高的风险。但侦察得来的信息,不仅对它们自身有利,而且也能为整个鱼群带来好处。如果闯入者不是掠食类动物,或者刚刚吃饱、没有饿着肚子,那么这些小鱼就不用逃开。这种对逃跑必要性的评估行为,看似有些愚蠢,但实则非常重要,因为在它们天然的栖息地中,常有许多梭子鱼和其他鱼类游来游去,所以一碰到大鱼就逃开并不是最佳的策略——很可能刚从一位掠食者眼前跑掉,就一不小心钻进了另一位掠食者的嘴里。
1702376824
1702376825 米林斯基发现,棘鱼在这种高风险的探查活动过程中利用了“以牙还牙”策略。如果附近出现了一条梭子鱼,两条棘鱼往往会一起冲刺,游向掠食者的大嘴,去一探究竟。每一次冲刺,都可以被看作是困境博弈中的一轮。对于参加博弈的两条鱼来说,进行合作对双方都有好处,可以降低被大鱼吃掉的风险。这是因为“掠食者效应”起了作用:梭子鱼在决定首先攻击哪只或哪群猎物的时候,会浪费掉宝贵的时间。这也是“布里丹之驴”悖论在现实中的体现。这一悖论是讲,一头驴不知在两堆干草中如何选择,最后饥饿而死。然而,每只小鱼却都有充分的动机在行进过程中稍微落后一点,将一部分风险转嫁到另一只棘鱼身上。
1702376826
1702376827 为了弄明白这些小鱼脑子里在想什么,米林斯基非常有创造力地在实验中用上了镜子。当把镜子置于合适的位置时,就能生成一种幻象,让一条棘鱼感觉有另一条棘鱼在陪伴它一同冲刺。而将镜子稍作倾斜,米林斯基就能让棘鱼感觉,它镜中的“同伴”是合作——与它共同前行,还是背叛——落在后面,就像是打头阵的军官慢慢退到队尾、避开危险的前线。遇到镜中的小鱼“背叛”自己时,领头的小鱼会采取减速或掉头的对策,中途放弃它的侦察任务。如果镜中的小鱼和“侦察兵”保持同样的速度,那么后者就会比独自执行任务时更接近掠食者。
1702376828
1702376829 超级合作者 [:1702376301]
1702376830 并非有意的背叛
1702376831
1702376832 到目前为止,一切都直截了当、易于理解。但“以牙还牙”策略存在一个问题,而这个问题在毫无缺陷的计算机程序互动过程中并不能直接体现出来——人类和其他动物会犯错误。有时脑子会“短路”,有时玩家会分心,有时还会出现情绪起伏,可能有一天事事不顺,心情跌到谷底。毕竟,人无完人。其中一类错误是由于“颤抖的手”:我想要合作,但却因为疏忽而未能做到。另一类错误是由于“糊涂的脑子”:我认定这个人心怀叵测,在上一轮博弈中背叛了我,而事实上却不是这么回事,可能我把这个人错当成别人了。颤抖的手和糊涂的脑子,共同导致了我所谓的有“噪声”的互动。
1702376833
1702376834 噪声在合作进化过程中所扮演的重要角色,是由牛津大学的罗伯特·梅在《自然》杂志上发表的一篇论文中首先指出的。梅曾经是一位优秀的物理学家,后来对理论生物学的发展也产生了深远的影响。鲍勃(这位澳大利亚人喜欢被称为“鲍勃”)最著名的成就,就是实现了以数学基础进行生态学分析的跨越。他在论文中讲到,进化生物学家应该对“失误”在重复囚徒困境中产生的影响进行研究。他认识到,从像阿克塞尔罗德竞赛这样天衣无缝的完美博弈中得出的结论,并不一定具有实际意义。
1702376835
1702376836 他提出的这一观点十分重要。因为即使是不常出现的错误,也可能产生破坏性的后果。如果博弈双方都采取同样的“以牙还牙”策略,就会引发永无止境的报复行为。这是因为“以牙还牙”策略只会对背叛者进行反击,因此一旦出现干扰信号或疏忽,就可能令“以牙还牙”的行为陷入恶性循环,在博弈双方之间制造出比罗密欧与朱丽叶家族、哈特菲尔德和麦克伊,或科西嘉岛仇杀更加惨重的血海深仇。很明显,结束所有这些残忍复仇恶性循环的办法,就是忘掉过去,既往不咎。举例来说,可以间歇性地采取报复行为,或者靠掷骰子的方法来决定是否进行报复。在鲍勃这一重要观点的启发之下,我对阿克塞尔罗德的开创性工作成果进行了延伸,将噪声的影响考虑进来,让这一理论更加贴近现实生活。
1702376837
1702376838 超级合作者 [:1702376302]
1702376839 偶尔宽容的魔力
1702376840
1702376841 在博士研究生求学期间,我和卡尔一起设计出了一种方法,将困惑、疏忽和失误考虑在内。用术语来说就是,我们利用概率性策略替代了传统的确定性策略,从而使得博弈的结果更加模糊和随机。我们决定对存在噪声的合作进化进行研究,并在阿克塞尔罗德开创性成就的基础上,进行了一场计算机概率性竞赛。我们的想法,是对因突变和自然选择而随机出现的各种策略加以利用。
1702376842
1702376843 所有的策略都可能受到偶然性的影响。这些策略会在对方采取合作之后,以某一概率进行合作;而在对方背叛之后,也会以某一概率进行合作。可以这样认为:我们将不同程度的“宽恕”加入到了策略组合的研究之中。有的策略是会在两次背叛行为中宽恕一次;有的策略是会在5次背叛行为中宽恕一次,以此类推;而有些策略则是毫不通融的——这些“旧约全书”式的策略会采取永不宽恕的态度,就像“冷漠策略”一样,在对方背叛一次之后永远不再合作。
1702376844
1702376845 为了研究合作的演进,我们将各种各样的策略与自然选择的过程调配在一起,如此一来,获胜的策略就能成倍增加,而失败的竞争对手则会被淘汰。得分最高的策略将获得子孙后代作为奖励——出现更多和它们一样的策略版本,而这些版本也要参加接下来的博弈。同样,那些表现欠佳的策略就会被消灭。为了进一步体现真实性,我们进行了编排,让繁殖的过程带有一些不完美的因素。有时,突变也可能产生新的策略。
1702376846
1702376847 卡尔和我坐下来,观察着我们创造出的这些策略在一代又一代的繁衍过程中不断兴衰、变化。我们热切盼望能看到一个策略最终成为胜利者。虽然没有一条进化轨迹会出现重复,但我们却观察到了总体上的规律性和连贯性。
1702376848
1702376849 竞赛总是从一种“原始的混沌状态”开始的。也就是说,初始之时仅有随机策略的存在。在这种混乱状态下,“永远背叛”策略总是会在早期占据领先位置:就像许多好莱坞电影中的情节一样,坏蛋一开始总是一幅自鸣得意的样子。到了100代左右的时候,“永远背叛”策略在我们的竞赛中占据了支配地位。生命的剧情似乎有着令人沮丧的序幕,而大自然则冷眼旁观,不予合作。但这一切之中,却存在着一线希望。面对这个冷酷的敌人,一小群被围困的“以牙还牙”策略玩家死死坚守在灭绝的边缘。还是像好莱坞式的英雄一样,属于他们的胜利终将会到来——当盘剥者将所有人盘剥一空之后,当全部的弱者都被清扫干净之时,博弈的进展方向突然出现了转折。卡尔和我满心欢喜地看着“永远背叛”策略的玩家逐渐被削弱并最终消失,为合作的成功兴起扫平了道路。
1702376850
1702376851
1702376852
1702376853
1702376854 当遭遇死硬派背叛者的抵抗之时,孤立的“以牙还牙”策略玩家的表现会比永远背叛的无赖要差一些,因为“以牙还牙”总是要在输掉第一轮之后才能尝到血的教训,转换到复仇状态。但当与其他“以牙还牙”策略玩家对战时,则会比“永远背叛”策略玩家和其他强硬派的表现好出很多。在由“永远背叛”和“以牙还牙”策略玩家组成的混合群体中,虽然后者占少数,但“友善”的态度会开始繁殖,并很快在博弈中居于支配地位。通常情况下,背叛者的表现十分糟糕,并最终销声匿迹,留下一群全部秉承“以牙还牙”策略的玩家。
1702376855
1702376856 但卡尔和我却满心期待着惊喜的出现。在我们的计算机竞赛中,“以牙还牙”策略玩家最终并没有获得胜利,而是输给了它们更加友善的表兄弟。这位表兄弟利用了“以牙还牙”的致命缺陷——对偶尔出现的失误不够宽容。在几代之后,进化过程就会垂青另一个策略,也就是我们所称的“宽宏以牙还牙”。此时,自然选择过程转向了最优的宽容程度:永远以合作的态度来回报对方的合作,而当遇到背叛时,在每三次背叛中采取一次合作(具体细节取决于所运用的回报价值)。你不能让对方知道你什么时候会表现出友善的态度,如果让对方知道了,就是犯了一个重大的错误(约翰·史密斯的“一牙还二牙”策略就会轻而易举地被交替性合作与背叛者所利用)。因此,为了不让对方知道,宽容与坚守行为是呈概率性的。这样一来,在对方作出背叛举动之后,我方是否采用既往不咎的态度,就要看运气,而并非必然。可以这样理解“宽宏以牙还牙”:永远不会忘记对方的好意,但会偶尔谅解对方的恶行。
1702376857
1702376858
1702376859
[ 上一页 ]  [ :1.70237681e+09 ]  [ 下一页 ]