打字猴:1.704594372e+09

1704594372 狡猾的情感：为何愤怒、嫉妒、偏见让我们的决策更理性 [:1704593832]

1704594373 狡猾的情感：为何愤怒、嫉妒、偏见让我们的决策更理性第五章重复互动中的囚徒困境

1704594374

1704594375 利刃出鞘是否能促进世界合作？

1704594376

1704594377 自发性、自动回应和反应迅速是情感反应最重要的特征。实际上，在很多情况下，反应敏捷正是情感反应优于深思熟虑之处。看到蛇在草丛中爬行就会本能地闪躲，这让我们免于潜在的危险，远比对形势做认知分析有效。

1704594378

1704594379 我们的社会性反应具有快速性和自动性的特点。事实证明，这两点至关重要。本章将说明情感行为如何在理性行为失效的情况下促成合作。吊诡的是，原因正在于其自动性。

1704594380

1704594381 我们将重新审视囚徒困境，但这次的重点是参与者在同一种博弈中多次对垒的情况。意即，参与者需要考虑长期的策略谋划。

1704594382

1704594383 前一章指出，在单次囚徒困境中，理性、自私的个体不会合作，因为不合作符合所谓的“优势策略”——无论另一名参与者作何选择，这一策略均可确保所得收益更高。接下来，请设想这种博弈连续进行两轮会出现什么情况。在这两轮博弈中，每名参与者每轮均须决定是合作（“分享”）还是不合作（“拿走”）。两轮博弈结束后，参与者所获得的收益总额即为两轮博弈的所得总和。

1704594384

1704594385 为了分析该重复博弈中的理性行为，我们首先着重分析一下第二轮博弈。在第二轮，原本的囚徒困境相当于只进行一轮——既然没有下一轮，这一轮的行为就不会受到惩罚或奖励。因此，其策略分析等同于单次囚徒困境的分析。对此，前文得出的结论是，唯一的理性行为就是两名参与者均不合作。

1704594386

1704594387 既然已经知道理性的参与者在第二轮中会作何选择，我们即可尝试预测参与者在第一轮博弈中会有何表现。参与者在第一轮的行为对第二轮博弈的所得毫无影响，因此第一轮实际上也相当于单次博弈。在第一轮，参与者也会双双选择不合作。

1704594388

1704594389 不难看出，只要两名参与者知道博弈究竟进行多少轮，同样的逻辑就适用于任意轮次的重复博弈，一轮、三轮还是十万轮均无差别。具体而言，若两名参与者知道双方进行的是最后一轮博弈，则无论此前的轮次是何状况，均不存在理性的原因会让他们选择合作。但也由此可见，在倒数第二轮中，他们也不会合作。以此类推。这种推理名为归纳论证，常用于博弈论分析。

1704594390

1704594391 须注意，这一论证的前提是，两名参与者在最后一轮选择不合作。但假如参与者不知道什么时候是最后一轮，即便真到了最后一轮也不知情，情况会如何？实际上，人类交往大多都是这种情况。例如，你同普通汽车修理工、公司同事乃至配偶之间的交往，你基本上从不知道未来还会与他们有多少次交集，这理所当然地引出了以下问题：假设参与者不知道重复博弈何时进行到最后一轮，对其理性行为应如何预测？

1704594392

1704594393 罗伯特·奥曼解答了这一至关重要的问题，这堪称他对博弈论做出的最重要贡献之一。奥曼利用数学模型，证明了在此种情形下，即便参与者是理性的，合作也可能达成均衡状态，这一模型及奥曼的验算有着奥妙之极的结构。原原本本地对其进行详细解释需对形式数学有较深的造诣，而这超出了本书的范围。因此，姑且让我尝试用较为浅显的语言予以解释。

1704594394

1704594395 试想你处于重复进行的囚徒困境中，每一轮过后，你都有99%的概率会再次和同一名对手重新进行同样的博弈，只有1%的概率再也不会见到此人。这一描述有些不切实际——很可能夸大了你在较长时期内与任何人产生交集的次数，但这却有助于描述多数互动的短视思维。因此，这一异议暂且搁置。

1704594396

1704594397 我们需要思考一下这种情况下的“策略”为何意。在单次博弈中，策略即指是否合作的决定。在重复博弈中，策略的概念则要复杂得多。实际上，这种策略指的是一长串决定，每次决定的内容就是根据此前轮次的博弈情况选择要采取的行动。以下是这种策略的一个例子：第700轮之前，无论对手怎么选，我都选择合作；从第700轮开始，一旦对手选择不合作，我就会在其后两轮也选不合作，以牙还牙。

1704594398

1704594399 如果你觉得这一策略看起来十分复杂，我的回答是，这实际上已经是非常简单的策略了——须注意，我在两句话之内便将其描述完毕。有些策略繁复之极，单是前几轮要写下来，整座国会图书馆的纸（包括卫生间的纸）都找来也不够用。然而，最复杂的策略往往也是最乏味的策略。实际上，本章要描述的两个策略简单明了，却很有意思：

1704594400

1704594401 冷酷触发策略。在第一轮，我会选择“分享”，且只要对方也选“分享”，我会一直这样选下去。然而，如果对方在某一轮选了“拿走”（即便对方只选过这一次拿走），这之后的每一轮，我都会一直选“拿走”。

1704594402

1704594403 针锋相对策略。每一轮，我的选择都和对手上一轮的选择相同。

1704594404

1704594405 两名理性参与者（唯一的目的就是谋求个人的物质利益）如均使用冷酷触发策略，会一直处于双方均选合作（即均选“分享”）的均衡态势。对此的解释相当简单，首先请注意，两名参与者都使用冷酷触发策略的话，他们在第一轮就会选合作。二者知道对方选了合作后，在这一策略的指导下，第二轮会再次双双选择合作，同理第三轮也会选合作，以此类推。每一轮，双方选择合作，每人的总奖金都会增加50%。

1704594406

1704594407 只要对方坚持使用冷酷触发策略，两人选择其他任何策略都无法增加所得。诚然，如果一名参与者在某一轮选择“拿走”，而另一名参与者仍然使用冷酷触发策略，则选择“拿走”的参与者本轮可得100美元，比他选择“分享”的所得多50美元。但这样一来，他会触发对方的“惩罚措施”：在其后每一轮中（此后还有许多轮），对方无论如何都会坚定不移地选“拿走”，他每轮都会少拿50美元，而不是多拿50美元。须注意，这种情况下稳定的合作态势之所以能够形成，是因为不合作行为一旦出现，即会立即招来对方的报复，让对方也选择不合作，从而对不合作行为形成有效的震慑。

1704594408

1704594409 *　*　*

1704594410

1704594411 在瑞典斯德哥尔摩市发表诺贝尔奖获奖感言时，罗伯特·奥曼谈到了一个博弈论观点，内容与前几章提出的观点大同小异。他甚至断言，这一观点阐述了几乎所有国际冲突的本质，包括巴以冲突。其观点是，为预防流血冲突，人类需利用强硬战略，建立威慑机制，如美国和苏联在冷战时期采取的战略。该观点认为，唯有强大的威慑力才能防止人们在种种诱因之下诉诸武力冲突。

1704594412

1704594413 奥曼参加诺贝尔奖颁奖典礼后不久，几名媒体评论员联系了我，请我对此观点做出回应。我认为，虽然奥曼提出的观点奥妙之极，我也找不出哪个人拿诺贝尔奖能比他更实至名归，但这一领域那些天衣无缝的数据计算结果与适用于国际冲突的具体结论之间鲜有直接联系。威慑本身就是一种缺乏稳定性的局势，以此作为维护和平、预防流血冲突的基础并不可靠——任何风吹草动都可能激活“冷酷触发”。虽然理论模型表明，在建立威慑的情况下，合作可构成均衡态势，但一旦均衡态势被打破，和平与合作所仰仗的庞大体系就会轰然倒塌，因为构成威慑力的威胁因素很可能会引发全球规模的灾难（美国和苏联在冷战期间经常相互挑衅威胁。试想一下，假如两国真的言出必行，会发生什么事？）。

1704594414

1704594415 仅有威慑力还不够，除了以威胁为基础的威慑政策之外，我们还需构建体系，对双方进行正面诱导，如共同的经济利益可成为国际关系中的另一大稳定因素。与之同理的是，调动个人的积极性，要用恩威并施的措施。

1704594416

1704594417 奥曼在诺贝尔奖获奖感言中提出的某些观点招来了某些人的异议，这些人的行为远比我过火。一群以色列左翼分子正式向诺贝尔委员会发出申请，以奥曼的政见和他从科学研究中得出的政治教训为由，要求撤销颁给他的诺贝尔奖。这让我火冒三丈（这可能是非理性的情感反应）。假如对科学的管制不能偏离严格的政治正确路线，行业翘楚获奖与否仅以政见为依据，人类发展会停留在黑暗时代[1]，止步不前。

1704594418

1704594419 针锋相对策略力度不及冷酷触发策略，但仍然能确保均衡状态的形成。针锋相对策略也会惩罚一方的不合作行为，但在此情况下，对不合作行为的惩罚仅限一轮，比冷酷触发策略的惩罚措施更加宽松。如果不合作者其后一轮重新选择合作，惩罚即告终止，双方会重新回到每轮都相互合作的态势。

1704594420

1704594421 事实证明，针锋相对策略会促成合作均衡态势的形成。两名参与者单方面选择不合作，都不会有好处。如果一方在几轮内选择不合作，然后重新选择合作，此后的博弈会重新回到合作路线上，但在此之前，其暂时不合作的行为造成的损失要大于所得。（得出这一结论须稍加计算，但各位愿意的话，可以自己试一试。一方仅有一轮选择不合作，会发生什么状况？他在这一轮的所得为多少？其后的损失又为多少？）

[ 上一页 ] [ :1.704594372e+09 ] [ 下一页 ]