1701033492
用博弈的思维看世界 第五章 囚犯困境及原因
1701033493
1701033494
高尚是高尚者的墓志铭,卑鄙是卑鄙者的通行证。
1701033495
1701033496
—北岛
1701033497
1701033498
人生的意义在于事与愿违。
1701033499
1701033500
—[美]库尔特•哥德尔
1701033501
1701033502
本章指引: 囚犯困境是博弈论中最为经典的模型之一。本章先通过对历史的回顾,描述囚犯困境这个概念的时代背景以及囚犯困境对参与者带来的不良后果,然后对囚犯困境进行标准化的描述与分析,最后揭示出囚犯困境背后的真正原因。
1701033503
1701033504
1776年,亚当•斯密在其《国民财富的性质和原因研究》一书中指出:“每个人改善自身境况的一致的、经常的、不断的努力是社会财富、国民财富和私人财富所赖以产生的重大因素。”为了说明这一点,他还特别指出:“我们每天所需的食品和饮料,不是出自屠户、酿酒家或烙面师的恩惠,而是出于他们自利的打算。”此外,他进一步指出:“每个个人通常既不打算促进公共的利益,也不知道自己是在什么程度上促进了那种利益——他受着一只看不见的手的指导,去尽力达到一个并非他本意想达到的目的。”这就是被后人广为流传的“看不见的手”,以此比喻协调社会资源配置的市场运行机制。基于对市场运行机制的深刻洞察,斯密提出了他自由放任的政策主张。然而,人们不禁要问,每个人的自利选择,一定能够达成对双方来说最好的结局吗?本章给出了一种类型的反例——囚犯困境。在一定的条件下,每个人的自利选择,却带来了对双方来说最差的结局。
1701033505
1701033507
一、囚犯困境的来源
1701033508
1701033509
20世纪30年代的世界经济大萧条,一方面使德国走上了民族社会主义(纳粹)的发展道路,另一方面,美国的罗斯福新政通过后来的就业法案赋予了政府干预市场经济的权力。纳粹德国的扩张是后来爆发第二次世界大战的主要原因。
1701033510
1701033511
第二次世界大战期间,美国的一批科学家和工程师纷纷参加军事工作,把运筹学运用于作战方面,获得了优异成绩,颇受朝野重视。战后,为了继续这项工作,1944年11月,当时的陆军航空队司令亨利•阿诺德上将提出了一项关于《战后和下次大战时美国研究与发展计划》的备忘录,要求重用这批人员,成立一个“独立的、介于官民之间进行客观分析的研究机构”,“以避免未来的国家灾祸,并赢得下次大战的胜利”。根据这项建议,1945年年底美国陆军航空队与道格拉斯飞机公司签订了一项1000万美元的“研究与发展”计划的合同,这就是有名的“兰德计划”。“兰德”(Rand)的名称是英文“research and development”(研究与发展)两词的缩写。1948年5月,阿诺德得到福特基金会100万美元的捐赠,使“兰德计划”得以脱离道格拉斯飞机公司,并正式成立了独立的兰德公司。
1701033512
1701033513
博弈论最初的那些大名鼎鼎的人物中许多都跟兰德有关,如冯•诺依曼、摩根斯坦、塔克、纳什、谢林等人。1949年6月,在兰德工作的弗劳特想从一个准备到其他地方工作的同事那里买下他的别克轿车。作为好朋友的双方,为如何给这辆旧车定价着实伤透了脑筋。后来,他们想到了一个主意,找到了一个彼此都认识的二手车经销商,让他按车的现状定一个购进价和销售价。这样给旧车定价就变成了如何分配本该属于二手车经销商的利润(购进价和销售价之间的差价)问题。在这个利益分配的博弈中,谁先开价往往占据有利地位,并且心狠的一方将获得更大的份额。受到这个例子的启发,弗劳特和他在兰德的同事德莱歇在1950年2月做了一个有关利益分配的博弈实验。他们找来了两个好朋友,一个是加州大学洛杉矶分校的阿尔钦(A.Alchain)和兰德的同事威廉斯(J.D.Wlliams),让他们玩表5.1中的游戏。
1701033514
1701033515
表5.1 阿尔钦与威廉斯的博弈实验[1]
1701033516
1701033517
1701033518
1701033519
1701033520
从该博弈的4种结果看,显然对双方来说,都选择合作是最好的结果。然而每个人从自身利益考虑,无论对方是否合作,选择背叛都是对自己更好的选择,即背叛是占优策略。实验中,共进行了100次博弈,其中阿尔钦有68次选择了合作,威廉斯有78次选择了合作。[2] 实验的结果在兰德引起了广泛的兴趣,但是并没有引起足够的重视,包括引起了冯•诺依曼的兴趣,但是他也没有太把这个实验当回事。威廉斯把这个博弈实验告诉了兰德的顾问—数学家塔克(A.W.Tucker)[3] ,这给塔克留下了深刻的印象。
1701033521
1701033522
1950年5月,斯坦福大学心理学系请塔克给大家作一个有关博弈论方面的报告。在作报告时,塔克想到了威廉斯告诉他的那个博弈实验,并把它乔装打扮了一番,以便更符合听众的知识背景。这就是后来广为流传的“囚犯困境”。塔克后来写信告诉威廉斯,在演讲中,他是这样说的:“两个被指共同犯罪的人被警察分别关押着。每个人都被告知:①如果一个人招供而另一个人不招供,前者将被授以奖金,后者将被处以罚金;②如果两个人都招供,两个人都要被处以罚金;③两个人都有充足的理由相信,如果两个人都不招供,两个人都将无罪释放。”
1701033523
1701033524
这个关于囚犯的杜撰例子,经过几十年的传播和修改后,现在基本上是以下面的例子呈献的:
1701033525
1701033526
两个小偷(也称为“囚犯”)一起去盗窃,结果很不幸,被警察逮了个正着。然后,警察在两个独立的不能互通信息的审讯室里分别对这两个小偷进行审讯。在这种情形下,两个小偷都可以作出自己的选择:选择坦白,供述以往的犯罪事实(即与警察合作,从而背叛他的同伙),或者选择抗拒,保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持抗拒的话,警察只能以本次的犯罪事实定罪,判少量的徒刑,两人都坐0.5年牢。警察为了激励他们招供,就对他们说:如果他们中的一个人坦白,即告发他的同伙,那么他就可以被当场释放。而他的同伙则被加重处罚,坐5年牢(坦白从宽、抗拒从严)。当然,如果这两个人都选择招供、互相背叛的话,就会按照以往的犯罪事实来定罪,即两人都坐3年牢,既不会被奖励,也不会被加重处罚。双方的损益矩阵表如表5.2。
1701033527
1701033528
表5.2 囚犯困境
1701033529
1701033530
1701033531
1701033532
1701033533
在“囚犯困境”中,囚犯们的最佳结果是双方都选择抗拒,但(抗拒,抗拒)不是占优策略均衡,(坦白,坦白)才是占优策略均衡,对每个囚犯来说,无论对方是否坦白,自己选择坦白都是占优策略,但这个均衡结果对囚犯们来说却是最坏的结局。
1701033534
1701033535
在此需要给读者解释一下的是,所谓的占优策略,是指无论其他参与者采取什么策略,某参与者采用该策略的结果都优于其他策略。占优策略均衡则是指:由博弈中的所有参与者的占优策略组合所构成的均衡就是占优策略均衡。
1701033536
1701033537
该均衡结局并不会因为囚犯们事先口头约定了被抓住后不坦白而改变。我们甚至不妨将条件放宽,允许囚犯A和B在审讯室里一起单独待上10分钟,然后再让他们决定是否坦白。很明显,双方交流的主旨就是建立攻守同盟,克服自利心理,甚至可能订立一个口头协议,要求双方都不去坦白。然后,双方再单独被提审。我们不妨设想囚犯A的心理,他一定会认为,如果囚犯B遵守约定的话,则自己坦白就可获得自由;如果囚犯B不遵守约定的话,若选择抗拒就会被判坐更长时间的牢,因此也应该选择坦白。也就是说,无论对方是否遵守约定,自己不遵守约定都是最好的选择。特别是囚犯A认为囚犯B也会有跟他同样的想法,也会选择坦白时,更不会有单独背叛对方的道德负担。[4] 事实上,双方并不能依靠简单的沟通或约定而摆脱困境。恋人们在恋爱中海誓山盟,最终还是会分手;企业之间相互沟通信誓旦旦,价格战仍然会爆发;美苏(俄)两国经常会晤,甚至签订核不扩散条约,但军费一年高过一年……这些现象都反映了上面所说明的问题。
1701033538
1701033539
进一步看,如果两个囚犯确实是第一次偷东西,他们会不会坦白说,他们以前还偷了很多东西?人们的第一反应是:不会!然而,我们要告诉你的是:会!多年前,中央电视台曾经播放过一个案例,3个小伙子被控轮奸一名未满14周岁的少女,经审讯,3个小伙子都坦白了各自的犯罪事实。判决后,省高院因案件存在一些疑点,发回重审,最后真相大白,这竟然是个假案、冤案。如果把囚犯的行动选择从坦白与否修改为说谎与否(谎报自己的犯罪事实),那么每个人都选择说谎,结果就成了占优策略均衡(见表5.3)。
1701033540
[
上一页 ]
[ :1.701033491e+09 ]
[
下一页 ]