打字猴:1.700243038e+09

1700243038

1700243039 我们一共有2×2=4张牌，于是也便有4种可能的结果。为向这个游戏的发源地——北美致敬，我们以美元来表示这4种输赢结果。

1700243040

1700243041 结果1：我们俩都选择了“合作”。“银行家”给我们每个人300美元。这个不菲的总数是对相互合作的奖赏。

1700243042

1700243043 结果2：我们俩都选择了“背叛”。“银行家”对每个人罚款10美元。这是对相互背叛的惩罚。

1700243044

1700243045 结果3：你选择“合作”，我选择“背叛”。“银行家”付给我500美元（这是背叛的诱惑），罚了你（傻瓜）100美元。

1700243046

1700243047 结果4：你选择“背叛”，我选择“合作”。“银行家”将背叛的诱惑付给了你，而罚了我这个傻瓜100美元。

1700243048

1700243049 结果3与4明显互为镜像。一个玩家得到好处，则有另一个玩家将付出代价。在结果1与2里，我们俩得到相同的结果，而结果1对我们俩都有好处。这里金钱的具体数目并不要紧，重要的是这个博弈里“囚徒困境”结果的排列顺序：背叛的诱惑>相互合作的奖赏>相互背叛的惩罚>失败的代价。（严格来说，这个博弈还有另一个条件：背叛的诱惑与失败的代价的平均值不可高于相互合作的奖赏。我们将在后边附加条件里提到这个原因。）这四种结果总结于表12—1里。

1700243050

1700243051 表12-1 我在囚徒困境博弈里各种结果的输赢状况

1700243052

1700243053

1700243054

1700243055

1700243056 那么，为什么这是一个“困境”？看看这张输赢状况的表格，想象一下我在与你博弈时脑海中盘旋着的想法。我知道你只有两张牌，“合作”或者“背叛”。让我们按次序来想想。如果你打出“背叛”（这表示我们将看向表格中的右边一列），我能打出最好的牌也只能是“背叛”。虽然我也将接受相互背叛的惩罚，但我知道，如果选择了“合作”，失败者的代价只会更高。而如果你选择了“合作”（看向左边一列），我最好的结果也只能是选择“背叛”。如果我们合作了，我们都能得到300美元；但如果我选择背叛，我将得到更多—500美元。这里的结论是：无论你选择哪张牌，我最好的选择是永远背叛。

1700243057

1700243058 我已经运用我无懈可击的逻辑算出，无论你如何选择，我都必须“背叛”。而你，也将算出同样的结果。于是当两个理性的对手相对时，他们将同时背叛，也将同时被罚款，获得一个较低的分数。虽然每个人都心知肚明，如果他们彼此选择“合作”，两人都将得到较高的相互合作的奖赏（我们的例子里是300美元）。这就是为什么这个博弈被称为困境，自相矛盾得令人恼火。这也就是为什么人们开始提出必须有一个法律来对付这个问题。

1700243059

1700243060 “囚徒”来自一个特殊的、想象中的例子，上述例子中的现金被监狱的刑罚取代。两个在监狱中的囚徒——姑且称他们为彼得森与莫里亚蒂，有共同犯罪的嫌疑。囚徒们各自被关押在单独的牢房里，并各自被劝诱背叛他的同伙，将所有犯罪证据栽赃对方。他们的判决结果将取决于两个囚徒的行为，而双方都不知道对方的选择。如果彼得森将所有罪过都推向莫里亚蒂，而莫里亚蒂始终保持沉默（与他从前的朋友、现在的叛徒合作），莫里亚蒂将接受重罚，而彼得森得以无罪释放，享受背叛的诱惑。如果两人互相背叛，便都将获罪，但可以因为供认不讳而得到轻判，这便是互相背叛的惩罚。如果两人互相与对方而不是当局合作，闭口不谈过往，所得证据将不足以把两人判以重罪，则两人也都将得到轻判，得到互相合作的奖赏。虽然将牢狱刑罚称为“奖赏”有点儿奇怪，但比起漫长的铁窗生涯，犯人们肯定会将此看作奖赏的。你可以发现，虽然这里的回报不是美元而是牢狱刑罚，博弈的主要特征依然保存着（看看四个结果可取性的排列顺序）。如果你将自己放在任何一个囚徒的位置上，假设两人都以理性的自我利益为动机，你将看到两人都只能背叛对方，而同样接受沉重的刑罚。

1700243061

1700243062 有没有逃离困境的方法呢？双方都知道，无论对方如何选择，他们能做出的最好的选择都是“背叛”。但他们也都知道，如果双方都选择合作，任何一方都可以得到更多的好处。如果……如果……如果能有一个办法让他们达成共识，能有一个办法让双方都坚信对方可以被信任，不至于奔向那个自私的奖赏，能有一个方法来维持双方共识……

1700243063

1700243064 在“囚徒困境”这个简单博弈里，没有任何方法可以达成信任。除非其中一方是一个虔诚的傻瓜，善良得根本不可能适应这个世界，这个博弈注定将以相互背叛、相互损伤告终。然而，这个博弈还有另一个版本：“重复博弈”的“囚徒困境”。这个“重复博弈”更为复杂，但复杂性里孕育着希望。

1700243065

1700243066 “重复博弈”只是简单将上述博弈与同一个对手无限次重复。你我再次在“银行家”面前左右相对，再次拥有手中的两张牌——“合作”与“背叛”，我们再次各自打出一张牌，由“银行家”根据上述规则给出奖赏与惩罚。但这一次对弈不再是博弈的终结，我们捡起手中的牌，准备着下一轮。下一轮的游戏给予我们机会来重新建立信任与怀疑，实施对抗或和解，给予报复或宽恕。在这无限长的博弈里，我们最重要的任务是：赢了“银行家”，而不是对方。

1700243067

1700243068 在10次博弈后，理论上我也许可以获得最多5 000美元，但只有在你完全愚不可及，或者大公无私地每次都打出“合作”的时候，我才有可能每次都得到最高奖赏“背叛的诱惑”。在更实际一点儿的情况里，我们各自都在10次对弈中打出“合作”，并各自从“银行家”里得到3 000美元。这样，我们并不需要特别大公无私，因为我们彼此都能从对方过往的行为中，知道对方可以信任。我们事实上也在监管着对方的行为。还有另一个也可能发生的结果，我们彼此不信任对方，在10次对弈中都打出了“背叛”，“银行家”则从每个人处得到了100美元。最可能发生的是，我们并不完全信任对方，打出了各种次序的“合作”与“背叛”，双方都得到了并不多的金钱。

1700243069

1700243070 在第10章中，那些互相从对方羽毛中捉出蜱虫的鸟，正是进行一场“囚徒困境”的重复博弈。这怎么进行呢？你应该还记得，对于鸟来说，从自己身上清除蜱虫非常重要，但它无法自己清除头部的蜱虫，只能依靠同伴来帮助它，而让它同样报答对方也是公平的。但这项工作耗费了许多时间精力，鸟类在这方面并不宽裕。如果某只鸟能以欺骗方式从这个小圈子中逃出来，让别人清除自己的蜱虫，而拒绝互惠互利，它则能得到所有实惠，而不需支付任何代价。如果你将这些回报结果排列一下次序，你将发现这正是真实的“囚徒困境”博弈。互相合作以清除彼此的蜱虫固然是好事，但还有着更好的诱惑促使你拒绝支付互惠的代价。互相背叛以拒绝清除蜱虫固然不是好事，但也没有比花精力帮别人除虫而自己无人理睬更不好。表12—2展示了这个回报结果。

1700243071

1700243072 表12-2 鸟类清除蜱虫的博弈：我从各种结果中得到的回报

1700243073

1700243074

1700243075

1700243076

1700243077 但这只是一个例子。如果你继续思考，你更会发现，从人类到动植物，生活中充满了“囚徒困境”的重复博弈。植物？是的。记得我们谈到策略时，我们没有提到有意识的策略（但我们之后可能会提及），但我们提及了“梅纳德·史密斯”的意识，这便是一种预定基因的策略。我们之后还会提到植物、动物甚至细菌，它们都在进行着“囚徒困境”的重复博弈。现在，先让我们详细探索一下，为何重复博弈如此重要。

1700243078

1700243079

1700243080 在简单博弈里，我们可以预见“背叛”是唯一的理性策略。但重复博弈并不相同，它提供了许多选择范围。简单博弈里只有两种策略，合作或是背叛。但重复博弈可以有很多我们想象得到的策略，并没有任何一个是绝对的最佳方案。比如“大部分时间合作，而在随机的时间里背叛”这个策略，便是成千上万的策略里中的一个。也可以基于过往历史来选择策略，我的“斤斤计较者”正是一个例子。这种鸟对脸部有很好的记忆力，尽管它基本采取合作策略，但它也会背叛那些曾经背叛过它的对手。还有一些其他策略可能更为宽容，或者有更短期的记忆。

1700243081

1700243082 显然，重复博弈里可用的策略之多取决于我们的创造力。但我们能够算出哪个是最佳方案吗？阿克塞尔罗德也这么问自己。他想出了一个很具娱乐性的方案：举行一场竞赛。他广发通知，让博弈论的专家们来提交策略。在这里，策略指的是事先确定的行动规则，所以竞争者可以用计算机语言编程加入博弈。阿克塞尔罗德总共收到了14个策略。为了得到更好的结果，他还加了第15个策略，取名为“随机”。这个策略只是简单地随机出“合作”或“背叛”牌，基本等于“无策略”。如果任何一个其他策略比“随机策略”的结果更坏，这一定是个非常差的策略。

1700243083

1700243084 阿克塞尔罗德将这15个策略翻译成一种常用的计算机语言，在一台大型计算机中设定这些策略互相博弈。每个策略轮流与其他策略（包括它自己）进行重复博弈。15个策略总共组成15×15=225个排列组合，在计算机上轮番进行。每一个组合需要进行200回合的博弈，所有输赢累积计算，以得出最终的赢家。

1700243085

1700243086 这里，我们不关心某一个策略是否优于另一个策略，我们只关心哪个策略在与15个对手博弈后，最终赢得最多的“钱”。在这里，“钱”指的是赢得的分数。相互合作的奖赏为3分，背叛的诱惑为5分，互相背叛的惩罚为1分（相当于我们早先例子中的轻判），失败的代价为0分（等同于之前例子中的重罚）。

1700243087

[ 上一页 ] [ :1.700243038e+09 ] [ 下一页 ]