打字猴:1.70103351e+09

1701033510

1701033511 第二次世界大战期间，美国的一批科学家和工程师纷纷参加军事工作，把运筹学运用于作战方面，获得了优异成绩，颇受朝野重视。战后，为了继续这项工作，1944年11月，当时的陆军航空队司令亨利•阿诺德上将提出了一项关于《战后和下次大战时美国研究与发展计划》的备忘录，要求重用这批人员，成立一个“独立的、介于官民之间进行客观分析的研究机构”，“以避免未来的国家灾祸，并赢得下次大战的胜利”。根据这项建议，1945年年底美国陆军航空队与道格拉斯飞机公司签订了一项1000万美元的“研究与发展”计划的合同，这就是有名的“兰德计划”。“兰德”（Rand）的名称是英文“research and development”（研究与发展）两词的缩写。1948年5月，阿诺德得到福特基金会100万美元的捐赠，使“兰德计划”得以脱离道格拉斯飞机公司，并正式成立了独立的兰德公司。

1701033512

1701033513 博弈论最初的那些大名鼎鼎的人物中许多都跟兰德有关，如冯•诺依曼、摩根斯坦、塔克、纳什、谢林等人。1949年6月，在兰德工作的弗劳特想从一个准备到其他地方工作的同事那里买下他的别克轿车。作为好朋友的双方，为如何给这辆旧车定价着实伤透了脑筋。后来，他们想到了一个主意，找到了一个彼此都认识的二手车经销商，让他按车的现状定一个购进价和销售价。这样给旧车定价就变成了如何分配本该属于二手车经销商的利润（购进价和销售价之间的差价）问题。在这个利益分配的博弈中，谁先开价往往占据有利地位，并且心狠的一方将获得更大的份额。受到这个例子的启发，弗劳特和他在兰德的同事德莱歇在1950年2月做了一个有关利益分配的博弈实验。他们找来了两个好朋友，一个是加州大学洛杉矶分校的阿尔钦（A.Alchain）和兰德的同事威廉斯（J.D.Wlliams），让他们玩表5.1中的游戏。

1701033514

1701033515 表5.1　阿尔钦与威廉斯的博弈实验[1]

1701033516

1701033517

1701033518

1701033519

1701033520 从该博弈的4种结果看，显然对双方来说，都选择合作是最好的结果。然而每个人从自身利益考虑，无论对方是否合作，选择背叛都是对自己更好的选择，即背叛是占优策略。实验中，共进行了100次博弈，其中阿尔钦有68次选择了合作，威廉斯有78次选择了合作。[2] 实验的结果在兰德引起了广泛的兴趣，但是并没有引起足够的重视，包括引起了冯•诺依曼的兴趣，但是他也没有太把这个实验当回事。威廉斯把这个博弈实验告诉了兰德的顾问—数学家塔克（A.W.Tucker）[3] ，这给塔克留下了深刻的印象。

1701033521

1701033522 1950年5月，斯坦福大学心理学系请塔克给大家作一个有关博弈论方面的报告。在作报告时，塔克想到了威廉斯告诉他的那个博弈实验，并把它乔装打扮了一番，以便更符合听众的知识背景。这就是后来广为流传的“囚犯困境”。塔克后来写信告诉威廉斯，在演讲中，他是这样说的：“两个被指共同犯罪的人被警察分别关押着。每个人都被告知：①如果一个人招供而另一个人不招供，前者将被授以奖金，后者将被处以罚金；②如果两个人都招供，两个人都要被处以罚金；③两个人都有充足的理由相信，如果两个人都不招供，两个人都将无罪释放。”

1701033523

1701033524 这个关于囚犯的杜撰例子，经过几十年的传播和修改后，现在基本上是以下面的例子呈献的：

1701033525

1701033526 两个小偷（也称为“囚犯”）一起去盗窃，结果很不幸，被警察逮了个正着。然后，警察在两个独立的不能互通信息的审讯室里分别对这两个小偷进行审讯。在这种情形下，两个小偷都可以作出自己的选择：选择坦白，供述以往的犯罪事实（即与警察合作，从而背叛他的同伙），或者选择抗拒，保持沉默（也就是与他的同伙合作，而不是与警察合作）。这两个囚犯都知道，如果他俩都能保持抗拒的话，警察只能以本次的犯罪事实定罪，判少量的徒刑，两人都坐0.5年牢。警察为了激励他们招供，就对他们说：如果他们中的一个人坦白，即告发他的同伙，那么他就可以被当场释放。而他的同伙则被加重处罚，坐5年牢（坦白从宽、抗拒从严）。当然，如果这两个人都选择招供、互相背叛的话，就会按照以往的犯罪事实来定罪，即两人都坐3年牢，既不会被奖励，也不会被加重处罚。双方的损益矩阵表如表5.2。

1701033527

1701033528 表5.2　囚犯困境

1701033529

1701033530

1701033531

1701033532

1701033533 在“囚犯困境”中，囚犯们的最佳结果是双方都选择抗拒，但（抗拒，抗拒）不是占优策略均衡，（坦白，坦白）才是占优策略均衡，对每个囚犯来说，无论对方是否坦白，自己选择坦白都是占优策略，但这个均衡结果对囚犯们来说却是最坏的结局。

1701033534

1701033535 在此需要给读者解释一下的是，所谓的占优策略，是指无论其他参与者采取什么策略，某参与者采用该策略的结果都优于其他策略。占优策略均衡则是指：由博弈中的所有参与者的占优策略组合所构成的均衡就是占优策略均衡。

1701033536

1701033537 该均衡结局并不会因为囚犯们事先口头约定了被抓住后不坦白而改变。我们甚至不妨将条件放宽，允许囚犯A和B在审讯室里一起单独待上10分钟，然后再让他们决定是否坦白。很明显，双方交流的主旨就是建立攻守同盟，克服自利心理，甚至可能订立一个口头协议，要求双方都不去坦白。然后，双方再单独被提审。我们不妨设想囚犯A的心理，他一定会认为，如果囚犯B遵守约定的话，则自己坦白就可获得自由；如果囚犯B不遵守约定的话，若选择抗拒就会被判坐更长时间的牢，因此也应该选择坦白。也就是说，无论对方是否遵守约定，自己不遵守约定都是最好的选择。特别是囚犯A认为囚犯B也会有跟他同样的想法，也会选择坦白时，更不会有单独背叛对方的道德负担。[4] 事实上，双方并不能依靠简单的沟通或约定而摆脱困境。恋人们在恋爱中海誓山盟，最终还是会分手；企业之间相互沟通信誓旦旦，价格战仍然会爆发；美苏（俄）两国经常会晤，甚至签订核不扩散条约，但军费一年高过一年……这些现象都反映了上面所说明的问题。

1701033538

1701033539 进一步看，如果两个囚犯确实是第一次偷东西，他们会不会坦白说，他们以前还偷了很多东西？人们的第一反应是：不会！然而，我们要告诉你的是：会！多年前，中央电视台曾经播放过一个案例，3个小伙子被控轮奸一名未满14周岁的少女，经审讯，3个小伙子都坦白了各自的犯罪事实。判决后，省高院因案件存在一些疑点，发回重审，最后真相大白，这竟然是个假案、冤案。如果把囚犯的行动选择从坦白与否修改为说谎与否（谎报自己的犯罪事实），那么每个人都选择说谎，结果就成了占优策略均衡（见表5.3）。

1701033540

1701033541 表5.3　说谎博弈

1701033542

1701033543

1701033544

1701033545

1701033546 这样的结局多少让人有些沮丧，因为人们发现，现实中看到的均衡结果竟然可能跟事实的真相无关。这一定会让你对书籍中描述的那些历史事实产生或多或少的怀疑，特别是当你意识到这些关于历史的教科书都是由各国统治者下令或组织编写的时候。

1701033547

1701033548 [1] 参见[美]威廉姆•庞德斯通著.囚徒的困境：冯•诺伊曼博弈论和原子弹之迷.吴鹤龄译.北京：北京理工大学出版社，2005：126.

1701033549

1701033550 [2] 据说，他们还把实验的结果给纳什看了，纳什对实验的结果提出了反对意见。

1701033551

1701033552 [3] 纳什是塔克在普林斯顿的一个学生。

1701033553

1701033554 [4] 这很容易让人想到“破窗理论”。日常的经验告诉我们，肮脏的地面会引诱人们乱扔垃圾，甚至对于干净的路面，在预期他人会乱扔垃圾的情况下，人们也会乱扔垃圾。一个深圳的朋友跟笔者说，那些在香港规规矩矩的大货车司机，一过深圳海关就像马上变了个人似的开始不守规矩。第一个向防暴警察扔石头的人，肯定预期其他的人也会很快一起跟着扔石头。

1701033555

1701033556

1701033557

1701033558

1701033559 用博弈的思维看世界 [:1701032777]

[ 上一页 ] [ :1.70103351e+09 ] [ 下一页 ]