打字猴:1.701037361e+09

1701037361 纳什均衡与博弈论：纳什博弈论及对自然法则的研究 [:1701036506]

1701037362 第五节　以牙还牙策略

1701037363

1701037364 关于名誉的闲话可能还不足以创造一个合作的社会。数学计算表明间接互惠会给大的社会带来一些利他行为，而这些行为可能会导致发生某些问题。诺瓦克和西格蒙德的间接互惠模型受到几位专家的批评。他们指出，这种模式只能在种群规模小的群体中起作用。2004年在波士顿召开的复杂性会议上，我再次遇见诺瓦克时，他的分析已经变得很详尽了。

1701037365

1701037366 在与他的谈话中，在分析合作进化论时，他重新阐述了囚徒困境中博弈的角色。该理论的背景是出自1980年一个著名的博弈论比赛，组织这场比赛的是密歇根大学的政治科学家艾克斯·罗德。他用囚徒困境博弈来测试博弈理论家自身的能力强弱。他邀请博弈论专家们参加这一比赛，并以计算机程序的形式提交一种策略来进行囚徒困境博弈，然后在循环赛中让这些程序互相斗争。每一个程序都会与其余程序进行互相斗争，最终以达尔文观点来决出最适应的策略。

1701037367

1701037368 在14个提交的策略中，赢者是用最简单的方法——一个模拟的方法称为以牙还牙，这个策略是由博弈理论家阿纳托尔·拉波波特想出的。在以牙还牙的策略中，游戏者在第一轮中采取合作方案。然后，在下一轮游戏中，该游戏者会选择上一轮游戏中对手所采取的方案。如果其他游戏者选择合作，那么以牙还牙的游戏者也会如此。然而不管什么时候，只要对手选择背叛，以牙还牙的游戏者在下一轮比赛中也会选择背叛。直到对手选择合作之前，他一直会采用背叛这种方式。

1701037369

1701037370 在任意给定游戏次数，并与固定对手对弈的比赛中，使用以牙还牙的策略也许会输。但是如果比赛次数无限多，并与不同的策略对抗时，平均来说，以牙还牙的策略是优于其他策略的。或者至少在艾克斯的比赛中是这样。

1701037371

1701037372 一旦采用以牙还牙的策略者取胜，那么看起来更好的策略似乎是可能发掘的。所以艾克斯又举办了一次比赛，这次有62个人参加，在第二轮的参赛者中，只有一个人使用以牙还牙的策略。他就是拉波波特，而且他又一次赢了。

1701037373

1701037374 你可以明白以牙还牙策略是如何在一个群体中增加合作机会的。作为以牙还牙的游戏者，信誉会促使你的对手与你合作，知道他们这样做后，你也会选择合作。如果他们不合作，你也不合作。

1701037375

1701037376 奈何，如此一来，事情变得更为复杂。仅仅因为以牙还牙的策略赢得艾克斯的比赛，这并不意味着它在现实世界中是最佳策略。首先，在肉搏战中和其他策略相比，它很少能赢；总体来说，它做得很好（因为采用以牙还牙策略击败对手，和其他策略相比，对手也要损失惨重）。

1701037377

1701037378 诺瓦克在会议上，探讨以牙还牙策略在广泛背景下的细微差别，乍看，以牙还牙的成功似乎否定了纳什均衡理论，暗示最佳策略就是一直背叛。进化博弈论的数学基础是分析无限多的群体数量，似乎证实了那种以牙还牙的策略。然而，诺瓦克指出，对于一个现实的有限的群体，在一定的情况下，你可以证明以牙还牙的策略能够成功侵犯所有具有背叛行为的种群。

1701037379

1701037380 但是如果游戏继续，你一直计算下一步会发生什么，这样会变得更复杂。以牙还牙采取的是不原谅策略——如果你的对手本来打算合作，但是由于意外他背叛了你，于是你开始背叛他，并终止合作。如果你能计算出博弈中将会发生什么，那么你会发现以牙还牙策略并不是很成功，而改进后的策略，即宽宏大量的以牙还牙策略则比改进前要好很多。所以宽宏大量的以牙还牙策略被用来管理种群中的事务。

1701037381

1701037382 “宽宏大量的以牙还牙策略以合作开始。无论你什么时候开始合作，我都会采取合作的方式。有时即使你背叛我，我也会和你合作”，诺瓦克补充道。“这允许我们为自己犯下的错误进行改正——如果是不小心犯下的错误，你有机会改正它。”

1701037383

1701037384 诺瓦克说，随着游戏的继续进行，情况变得更让人吃惊。宽宏大量的以牙还牙的方法开始被全部合作的方法代替！“因为如果每个人都采用宽宏大量的以牙还牙的策略，或者以牙还牙策略，那么没有人会故意的试图背叛；即每个人都是合作者。”啊，多么快乐的时光啊！

1701037385

1701037386 “一直合作”不是一个稳定的策略。一旦每个人都合作，那么一直背叛策略就会入侵，就像一头鹰出现在一群鸽子身边，那么鸽子会灭亡。所以你开始选择全部背叛，然后转向以牙还牙，接着是宽宏大量的以牙还牙，接着是合作，然后再全部背叛。“这，”诺瓦克说，“就是人类的战争与和平的理论”。

1701037387

1701037388 纳什均衡与博弈论：纳什博弈论及对自然法则的研究 [:1701036507]

1701037389 第六节　博弈与惩罚

1701037390

1701037391 尽管如此，人类还是会合作。如果间接互惠不是合作的原因，那么什么是呢？后来，一种流行的看法是由于害怕受到惩罚的威胁，所以合作才会兴起。并且博弈论证明了这种情况是如何产生的。

1701037392

1701037393 经济学家萨缪尔·鲍尔斯、赫伯特·金迪斯，以及人类学者罗伯特·博依德是这一观点的倡导者。他们称该观点为“强互惠”。一个强互惠者奖励合作者，同时惩罚背叛者。在这种情况下，一个比较复杂的游戏描述了相互作用。不像玩囚徒困境游戏——一系列的一对一对抗——强互惠博弈研究者在不同的公共利益下进行实验游戏。

1701037394

1701037395 第三章里曾描述过一系列的游戏。在这些游戏中，不同的个体会采取不同的策略——有些是自私者，有些是合作者，还有一些是互惠者。在一个典型的公共利益的游戏中，在开始时给游戏者一些“分”（以后可用真实钱收回）。在每一轮，游戏者可能捐献一些分给社会基金组织，自己留一部分。然后每个人收到一部分的社会基金。然而一个贪婪者为确保自己个人的收益最大化，什么都没捐，整个群体的结果可能更遭。利他主义者为增加整个群体的收益，会把他们自己的一些分给群体。而互惠者基于“他人捐献什么，相应地自己就捐献什么”，惩罚那些捐献很少却贪享整个群体福利的“吝啬鬼”（但是这样做的话，也惩罚了群体中的其他人，包括他们自己）。正如我们已经看到的，人类由三种类型的游戏者组成。进一步的研究表明，为什么人类种族已经演化到包含惩罚者。

1701037396

1701037397 在一个公共利益游戏的测试中，大部分人在一开始就捐献了大约一半的分。然而，在几轮后，捐献逐渐减少。在一个测试中，在第十轮中，将近有3/4的游戏者什么都没捐。显然地，研究者发现，人们对于那些一开始捐献很少的人很生气，为了报复，他们也减少了捐献数额，以此来惩罚每个人。也就是说，大部分游戏者变成互惠者了。

1701037398

1701037399 但是在另一个版本的游戏中，一名研究者公布每一个游戏者的捐献数额，并恳求其他参赛者给予评价。如果捐献少的人会被嘲笑，该吝啬者在后几轮会勉强地慷慨地捐献。如果没有人批评少捐赠者，那么他后面几轮的捐献会更少。显然，羞辱会促使行为发生改善。

1701037400

1701037401 其他的实验证明，非合作者具有被惩罚的危险。所以可能在过去的进化过程中，种群中会包括惩罚者，这样能更多地鼓励合作——而没有实施惩罚的群体被淘汰。惩罚的趋势可能因此在存活的人类种群中根深蒂固，即使惩罚者自己这样做的话也会遭受损失（“根深蒂固”可能不仅仅只在基因中遗传，一些专家认为文化将惩罚的态度延续给下一代）。

1701037402

1701037403 当然，在人类的进化历史中，惩罚的形式可能很不明显。鲍尔斯和金迪斯已经提出惩罚的措施可能主要是放逐，使惩罚者承受相对低的代价却仍然让非合作者承受沉重的代价。他们证明，博弈论的相互作用是如何自然地引导人类社会形成3种类型的人——非合作者（免费乘车者）、合作者和惩罚者（互惠者），正如其他电脑程序模拟所说明的一样。人类种族采取的是混合策略。

1701037404

1701037405 然而专家仍在争论这些问题。我见过一篇文章这样认为：事实上，利他主义通过利他主义者个体的所得利益单独进行发展演化，而并非一定演化自种群的利益。这一结论基于另外一个流行的博弈游戏的模拟结果，这个游戏便是著名的最后通牒游戏，今天，它在由诸如科林·卡麦勒等科学家探索的另一个博弈论的领域——“行为博弈论”得以广泛地运用。行为博弈论专家认为，要深刻理解人类社会行为的深层原因——理解自然法则——根本上是需要知道是什么促使个体在行动。换句话说，你需要知道人们是怎么想的。现在，开展这些研究的流行做法是将博弈论、经济学、心理学和神经系统学结合起来，并以一个新的具有争议的学科即神经经济学为人们所认识。

1701037406

1701037407

1701037408

1701037409

1701037410 纳什均衡与博弈论：纳什博弈论及对自然法则的研究 [:1701036508]

[ 上一页 ] [ :1.701037361e+09 ] [ 下一页 ]