打字猴:1.70024318e+09
1700243180
1700243181 足球就是一场零和博弈。至少它一般是这样。少数情况下它能变成一个非零和博弈(英式橄榄球、澳大利亚橄榄球、美式橄榄球、爱尔兰橄榄球则一直是非零和博弈),这在1977年的英格兰足球联赛中发生过。联赛中的队伍被分为四级。俱乐部在比赛中互相对抗,以积分决定它们的晋级或降级。甲级联赛声名远扬,俱乐部可以趁机从巨大观众群中捞得丰厚利润。在赛季结束时,甲级中排名最后的3个俱乐部降级,进入下一赛季的乙级联赛。降级是一个惨痛的命运,值得不惜一切去避免。
1700243182
1700243183 1977年5月8日是本赛季的最后一天。甲级联赛中3个保级名额中的2个已经被确定,第三个正等待揭晓,它将从桑德兰队、布里斯托队与考文垂队中诞生。如果桑德兰队输了这场比赛,布里斯托与考文垂只要打成平手,便可以共同留在甲级联赛。但如果桑德兰赢了,布里斯托与考文垂比赛中的输家就会被降级。这两场关键比赛理论上是同时进行的。但事实上,布里斯托对考文垂的比赛刚好推迟了5分钟开始。这种情况下,桑德兰队的结果在布里斯托对考文垂的比赛结束前便为两队所知晓了。这便埋下了这个复杂故事的伏笔。
1700243184
1700243185 布里斯托与考文垂间的大部分比赛时间,用当时一份新闻报道来说,是“迅猛激烈”的,激动人心。赛前双方各自定下的2个进球的目标,在比赛80分钟时已经达到。比赛结束前2分钟时,桑德兰输了的消息迅速传了过来。考文垂的经理迅速让场边的巨大电子信息屏放出了这条消息。所有22名队员显然都看到并且意识到无须多事了,一个平局足以让双方都能逃避保级的命运。而如果试图进球会使情况更糟,这意味着把球员从防守转向进攻,将承担战败而降级的风险。我们还是引用那份新闻报道吧。“在唐·吉利斯(Don Gillies)80分钟时的进球帮助球队和布里斯托战成平手时,双方的支持者1秒钟前还是分外眼红的仇人,1秒钟后却迅速加入一场共同的狂欢庆祝中。裁判查利斯(Ron Challis)无奈地看着球员们把球传来传去,于对手完全没有任何威胁。之前的零和博弈在外界新闻的影响下迅速变成一场非零和博弈。在我们早先的讨论情况下,就好比外部的“银行家”奇迹般地出现了,使得布里斯托和考文垂从平局结果中得到好处。
1700243186
1700243187 类似足球这种观赏运动通常是零和博弈,理由是观看双方的剧烈对抗比友好比赛更为激动人心。但现实生活——无论是人类生活或者是植物、动物的生活中——并非为观众所设计。事实上,现实生活中的大部分情况都是非零和博弈,社会扮演了“银行家”的角色,个人则可以从对方的成功中获益。我们可以看到,在自私的基因的基本原理的指导下,即使在自私的人类世界里,合作与互助同样促使社会兴旺发展。我们现在可以从阿克塞尔罗德的定义出发去理解,好人确实有好报。
1700243188
1700243189 但这只能在博弈重复进行下才能发生。博弈者必须清楚这并不是他们之间最后一场博弈。用阿克塞尔罗德艰涩的用语来说,“未来的阴影”还很长。但这需要有多长?它不可以无限长。理论上说,博弈的长度并不重要,重要的是博弈双方必须都不清楚博弈结束的时间。假设你我正在进行一场博弈,我们都知道博弈的重复次数为100回合,那么我们彼此清楚,第100回合将等同于一场简单的一次性“囚徒困境”。这种情况下,最理性的决策是我们双方各自在最后一轮打出“背叛”。自然,我们也彼此能预测对方也会“背叛”,这使得最后一轮的结果毫无悬念。既已如此,第99轮则相当于一次性博弈,而双方能做出的唯一理性决策则是“背叛”。第98轮同理。在两个完全理性并假设对方同样理性的博弈者处,如果他们知道比赛的回合数,他们只能彼此不停“背叛”。于是当博弈理论家谈论“重复囚徒困境”时,他们经常假设博弈的终点不可知,或者只有“银行家”知道。
1700243190
1700243191 即使博弈的重复次数不得而知,在现实生活中,我们经常可以采用统计方法来预测博弈的持续时间长度。这种预测则成了博弈策略中很重要的一部分。如果我注意到“银行家”开始坐立不安,不停地看他的手表,我可以猜到此游戏即将结束,那么我便可以尝试背叛。如果我发现你也注意到银行家的坐立不安,我也会开始担心你背叛的可能性。我也许会过于紧张,而提前让自己先背叛,即使我开始担心你也许会担心我……
1700243192
1700243193 在一次性与重复囚徒困境博弈中,数学家简单的直觉也许太过于简单。每一个选手都可以持续预测博弈进行的长度。他的估计越长,他的选择就会越接近数学家在重复博弈中的预测,更善良,更宽容,更不嫉妒。反之,他的选择就会更接近数学家在一次性博弈中的预测,更恶劣、更不宽容。
1700243194
1700243195 阿克塞尔罗德对“未来的阴影”的重要性的阐述来自第一次世界大战时形成的“自己活,也让别人活”的现象。他的研究资源来自历史学家与社会学家托尼·阿什沃思(Tony Ashworth)。“一战”时的圣诞节,英军与德军有时会友好相处,在无人区一起喝酒。这种现象早已为世人所知。但事实上,更为有趣的是,这种非正式非官方,甚至没有口头协定的友好协议,这种“自己活,也让别人活”的系统,早在1914年便在前线上下流行,持续了至少2年。一个英国高级将领在巡视战壕时,曾提及他看到德国士兵在英军前线来复枪射程内散步时的惊讶:“我们的士兵好像并没有注意。我私下决定当我们接手它时,应该阻止这种事情的发生,决不能允许这种事情出现。这些人似乎并不知道这是一场战争。显然双方都相信‘自己活,也让别人活’的想法。”
1700243196
1700243197 博弈论与囚徒困境在当时还未出现,但如今在事后,我们可以清楚地理解当时的情况。阿克塞尔罗德提供了一个精彩的分析。在当时的壕堑战中,每个野战排的“未来的阴影”都很长。这便表示,每支英军的挖掘队伍都可能需要与同一支德军队伍对峙好几个月。另外,普通士兵永远不知道他们是否,或何时会离开,因为大家都知道军队的决策专断随意,变化无常。在这里“未来的阴影”长而不定,促使了“针锋相对”式合作的开始。这种情况已经类似于一场囚徒困境的博弈了。
1700243198
1700243199 我们还记得,要成为一场真正的“囚徒困境”,回报必须有特定的次序规则。双方必须同时认为共同合作优于互相背叛。在对方合作时背叛则为更佳,在对方背叛时合作为最劣。彼此背叛则是将军们所喜的,他们想看到他们的士兵在机会到来之时将对方捏得粉身碎骨。
1700243200
1700243201 将军们并不愿意看到互助合作的场面,这对于赢得战争毫无帮助。但这对于双方的普通士兵而言却是求之不得的好事,他们并不愿意付出生命的代价。必须承认,他们也许认可将军的观点,希望己方能获得胜利,这便是形成囚徒困境的第二层回报,但获得战争胜利并不是每个普通士兵的选择。战争的最终结果并不太可能从物质上极大地惠于个人。虽然无论是出自爱国主义抑或是遵守纪律,你可能觉得从背叛循环中逃出去也是不错的。但与你穿越无人区后的某些敌军士兵互助合作,则很可能影响你本人的命运,而且这大大优于互相背叛。这便使整个情况形成一个真正的囚徒困境。类似“针锋相对”的行为注定要发生,也确实发生了。
1700243202
1700243203 在任何战壕前线上的局部稳定策略并不一定是“针锋相对”,后者是属于善良,虽报复但宽容的策略家族中的一员。这些策略即使在理论上也并不完全稳定,至少很难在兴起时被改变。比如,根据一份当时的记录,三次“针锋相对”在一个区域同时形成。
1700243204
1700243205 我们走出深夜的战壕……德国人也走了出来,所以出于礼貌,我们不该开枪。最恶劣的事情是枪榴弹……它们如果落入战壕,就会杀死大概9~10个人……但除非德国人特别吵,否则我们不应该使用这些武器。因为他们也可以采取报复,我们也许没有一个人可以回去。
1700243206
1700243207 “针锋相对”家族中这些策略有一个很重要的共同点:背叛的选手将得到惩罚。复仇的威胁必须始终在此。在“自己活,也让别人活”系统中,报复能力的展示通常引人注目。双方不断攻击敌军不远处的虚拟目标——一种如今也在西方电影中使用的技巧,比如射灭蜡烛火焰,而不是敌军本身,以展示其百发百中、极具威胁的攻击。在另一个问题上——为什么美国罔顾顶尖物理学家们的愿望,使用了两颗原子弹来毁灭两座城市,而不是用类似攻击蜡烛的策略——这一机制也能圆满地回答。
1700243208
1700243209 与“针锋相对”类似的策略都有一个重要的特征:它们都很宽容。这有助于减少长期报复恶性循环的产生。这位英国军官再次戏剧化地描述这种平息报复的重要性:
1700243210
1700243211 当我正在与某连的人喝茶时,我们听到许多喊叫声,于是出来查看。我们看见我们的人与德国人各自站在战壕前的矮墙上。突然炮声骤响,却无人受伤。双方很自然地卧倒,我们的人开始咒骂德国人。这时一个勇敢的德国人站起身来大喊:“我们很抱歉,我们希望没有人受伤。我们不是故意的,都是那个该死的普鲁士大炮!”
1700243212
1700243213 阿克塞尔罗德对这个道歉的评价是:“仅将责任推卸给机械,有效阻止了报复。它表达了道德上对于辜负信任的歉意,也表达了对有人可能受伤的关切。这确实是一个令人钦佩的勇敢的德国人。”
1700243214
1700243215 阿克塞尔罗德还也强调,在保持互相信任的稳定状况时,预见性与仪式感十分重要。一个愉快的例子是:一个德国士兵提到,英国大炮每天晚上会根据钟点有规律地在前线一些地方开火:
1700243216
1700243217 七点钟到了,英国人开炮了。他们十分准时,你都可以据此来校正手表……他们永远有着相同的目标,非常准确,从未在前后左右偏移过标志……甚至有一些好奇的同伴……会在七点前一点爬出去看英国人开炮。
1700243218
1700243219 根据英军的记录,德国大炮也在做同样的事情:
1700243220
1700243221 (德国人)选择的目标、射击的时间与回合都十分规律……琼斯上校知道每一炮发出的时间。他的计算十分准确。他甚至敢于做一些初生牛犊式的行为,冒险去到炮击的地点。因为他知道炮击将在他到达前停止。
1700243222
1700243223 阿克塞尔罗德对此的评注是:“这种仪式性的炮击与规律性的开火表达了双重信息。于上级军官,它们表达了抗争,而对于敌军,它们传递了和平。”
1700243224
1700243225 这种“自己活,也让别人活”的系统本可以通过口头沟通获得,由理性的策略家在圆桌上讨价还价得到。事实上它无法这么做。它通过人们回应对方行为的方式传递,在一系列的局部约定中形成。阿克塞尔罗德计算机中的策略完全没有意识。它们的善意或恶意、宽容或记仇、嫉妒或大气,仅由其行为定义。程序员也许有其他的想法,但这并不相关。一个策略是否善良,仅通过行为确认,而并非通过其动机(因为它没有)或作者的性格(当程序运行时这已经成为历史了)。一个计算机程序可以以其策略方式来施为,它并不需要知道自己的策略如何,或者任何其他事情。
1700243226
1700243227 我们当然知道策略家是否有意识并不相关。这本书已经提到许多无意识的策略家。阿克塞尔罗德的程序便是我们在这本书里用以思考动植物,甚至基因的优秀模型。我们现在可以问问,他那些关于宽容善良不嫉妒的成功例子与优化结论是否可以用于自然世界?答案是肯定的,自然界一向如此。唯一条件是自然优势需要设定未来的阴影很长的囚徒困境,而且是非零和博弈。这些条件在生物王国中一直成立。
1700243228
1700243229 没有人会认为细菌是一个有意识的策略家,但寄生菌们天衣无缝地与它们的寄主演绎着囚徒困境。我们没有理由不采用阿克塞尔罗德的理论——善良、宽容、不嫉妒等等,来研究它们的策略。阿克塞尔罗德和汉密尔顿指出,那些无害且有益的细菌可以在人们受伤时,变成有害甚至致命的败血症。医生会说人体的“自然抵抗能力”在受伤时会下降。但也许真实的原因正是囚徒困境的博弈。在人体内,细菌是否有所收获,同时也不停检验其回报呢?在人体和细菌的博弈中,“未来的阴影”通常很长,因为一个普通人可以在任何起始点活上很多年。然而,一个严重伤者则可能给其寄生菌带来较短的未来。“背叛的诱惑”突然比“互相合作的奖赏”更有诱惑力。当然,细菌在它们邪恶的小头脑里可没有计算这些东西!代代细菌的自然选择已经将它们培养成一个无意识的生物,首要任务是以生物化学来维系生命。
[ 上一页 ]  [ :1.70024318e+09 ]  [ 下一页 ]