打字猴:1.701037361e+09
1701037361 纳什均衡与博弈论:纳什博弈论及对自然法则的研究 [:1701036506]
1701037362 第五节 以牙还牙策略
1701037363
1701037364 关于名誉的闲话可能还不足以创造一个合作的社会。数学计算表明间接互惠会给大的社会带来一些利他行为,而这些行为可能会导致发生某些问题。诺瓦克和西格蒙德的间接互惠模型受到几位专家的批评。他们指出,这种模式只能在种群规模小的群体中起作用。2004年在波士顿召开的复杂性会议上,我再次遇见诺瓦克时,他的分析已经变得很详尽了。
1701037365
1701037366 在与他的谈话中,在分析合作进化论时,他重新阐述了囚徒困境中博弈的角色。该理论的背景是出自1980年一个著名的博弈论比赛,组织这场比赛的是密歇根大学的政治科学家艾克斯·罗德。他用囚徒困境博弈来测试博弈理论家自身的能力强弱。他邀请博弈论专家们参加这一比赛,并以计算机程序的形式提交一种策略来进行囚徒困境博弈,然后在循环赛中让这些程序互相斗争。每一个程序都会与其余程序进行互相斗争,最终以达尔文观点来决出最适应的策略。
1701037367
1701037368 在14个提交的策略中,赢者是用最简单的方法——一个模拟的方法称为以牙还牙,这个策略是由博弈理论家阿纳托尔·拉波波特想出的。在以牙还牙的策略中,游戏者在第一轮中采取合作方案。然后,在下一轮游戏中,该游戏者会选择上一轮游戏中对手所采取的方案。如果其他游戏者选择合作,那么以牙还牙的游戏者也会如此。然而不管什么时候,只要对手选择背叛,以牙还牙的游戏者在下一轮比赛中也会选择背叛。直到对手选择合作之前,他一直会采用背叛这种方式。
1701037369
1701037370 在任意给定游戏次数,并与固定对手对弈的比赛中,使用以牙还牙的策略也许会输。但是如果比赛次数无限多,并与不同的策略对抗时,平均来说,以牙还牙的策略是优于其他策略的。或者至少在艾克斯的比赛中是这样。
1701037371
1701037372 一旦采用以牙还牙的策略者取胜,那么看起来更好的策略似乎是可能发掘的。所以艾克斯又举办了一次比赛,这次有62个人参加,在第二轮的参赛者中,只有一个人使用以牙还牙的策略。他就是拉波波特,而且他又一次赢了。
1701037373
1701037374 你可以明白以牙还牙策略是如何在一个群体中增加合作机会的。作为以牙还牙的游戏者,信誉会促使你的对手与你合作,知道他们这样做后,你也会选择合作。如果他们不合作,你也不合作。
1701037375
1701037376 奈何,如此一来,事情变得更为复杂。仅仅因为以牙还牙的策略赢得艾克斯的比赛,这并不意味着它在现实世界中是最佳策略。首先,在肉搏战中和其他策略相比,它很少能赢;总体来说,它做得很好(因为采用以牙还牙策略击败对手,和其他策略相比,对手也要损失惨重)。
1701037377
1701037378 诺瓦克在会议上,探讨以牙还牙策略在广泛背景下的细微差别,乍看,以牙还牙的成功似乎否定了纳什均衡理论,暗示最佳策略就是一直背叛。进化博弈论的数学基础是分析无限多的群体数量,似乎证实了那种以牙还牙的策略。然而,诺瓦克指出,对于一个现实的有限的群体,在一定的情况下,你可以证明以牙还牙的策略能够成功侵犯所有具有背叛行为的种群。
1701037379
1701037380 但是如果游戏继续,你一直计算下一步会发生什么,这样会变得更复杂。以牙还牙采取的是不原谅策略——如果你的对手本来打算合作,但是由于意外他背叛了你,于是你开始背叛他,并终止合作。如果你能计算出博弈中将会发生什么,那么你会发现以牙还牙策略并不是很成功,而改进后的策略,即宽宏大量的以牙还牙策略则比改进前要好很多。所以宽宏大量的以牙还牙策略被用来管理种群中的事务。
1701037381
1701037382 “宽宏大量的以牙还牙策略以合作开始。无论你什么时候开始合作,我都会采取合作的方式。有时即使你背叛我,我也会和你合作”,诺瓦克补充道。“这允许我们为自己犯下的错误进行改正——如果是不小心犯下的错误,你有机会改正它。”
1701037383
1701037384 诺瓦克说,随着游戏的继续进行,情况变得更让人吃惊。宽宏大量的以牙还牙的方法开始被全部合作的方法代替!“因为如果每个人都采用宽宏大量的以牙还牙的策略,或者以牙还牙策略,那么没有人会故意的试图背叛;即每个人都是合作者。”啊,多么快乐的时光啊!
1701037385
1701037386 “一直合作”不是一个稳定的策略。一旦每个人都合作,那么一直背叛策略就会入侵,就像一头鹰出现在一群鸽子身边,那么鸽子会灭亡。所以你开始选择全部背叛,然后转向以牙还牙,接着是宽宏大量的以牙还牙,接着是合作,然后再全部背叛。“这,”诺瓦克说,“就是人类的战争与和平的理论”。
1701037387
1701037388 纳什均衡与博弈论:纳什博弈论及对自然法则的研究 [:1701036507]
1701037389 第六节 博弈与惩罚
1701037390
1701037391 尽管如此,人类还是会合作。如果间接互惠不是合作的原因,那么什么是呢?后来,一种流行的看法是由于害怕受到惩罚的威胁,所以合作才会兴起。并且博弈论证明了这种情况是如何产生的。
1701037392
1701037393 经济学家萨缪尔·鲍尔斯、赫伯特·金迪斯,以及人类学者罗伯特·博依德是这一观点的倡导者。他们称该观点为“强互惠”。一个强互惠者奖励合作者,同时惩罚背叛者。在这种情况下,一个比较复杂的游戏描述了相互作用。不像玩囚徒困境游戏——一系列的一对一对抗——强互惠博弈研究者在不同的公共利益下进行实验游戏。
1701037394
1701037395 第三章里曾描述过一系列的游戏。在这些游戏中,不同的个体会采取不同的策略——有些是自私者,有些是合作者,还有一些是互惠者。在一个典型的公共利益的游戏中,在开始时给游戏者一些“分”(以后可用真实钱收回)。在每一轮,游戏者可能捐献一些分给社会基金组织,自己留一部分。然后每个人收到一部分的社会基金。然而一个贪婪者为确保自己个人的收益最大化,什么都没捐,整个群体的结果可能更遭。利他主义者为增加整个群体的收益,会把他们自己的一些分给群体。而互惠者基于“他人捐献什么,相应地自己就捐献什么”,惩罚那些捐献很少却贪享整个群体福利的“吝啬鬼”(但是这样做的话,也惩罚了群体中的其他人,包括他们自己)。正如我们已经看到的,人类由三种类型的游戏者组成。进一步的研究表明,为什么人类种族已经演化到包含惩罚者。
1701037396
1701037397 在一个公共利益游戏的测试中,大部分人在一开始就捐献了大约一半的分。然而,在几轮后,捐献逐渐减少。在一个测试中,在第十轮中,将近有3/4的游戏者什么都没捐。显然地,研究者发现,人们对于那些一开始捐献很少的人很生气,为了报复,他们也减少了捐献数额,以此来惩罚每个人。也就是说,大部分游戏者变成互惠者了。
1701037398
1701037399 但是在另一个版本的游戏中,一名研究者公布每一个游戏者的捐献数额,并恳求其他参赛者给予评价。如果捐献少的人会被嘲笑,该吝啬者在后几轮会勉强地慷慨地捐献。如果没有人批评少捐赠者,那么他后面几轮的捐献会更少。显然,羞辱会促使行为发生改善。
1701037400
1701037401 其他的实验证明,非合作者具有被惩罚的危险。所以可能在过去的进化过程中,种群中会包括惩罚者,这样能更多地鼓励合作——而没有实施惩罚的群体被淘汰。惩罚的趋势可能因此在存活的人类种群中根深蒂固,即使惩罚者自己这样做的话也会遭受损失(“根深蒂固”可能不仅仅只在基因中遗传,一些专家认为文化将惩罚的态度延续给下一代)。
1701037402
1701037403 当然,在人类的进化历史中,惩罚的形式可能很不明显。鲍尔斯和金迪斯已经提出惩罚的措施可能主要是放逐,使惩罚者承受相对低的代价却仍然让非合作者承受沉重的代价。他们证明,博弈论的相互作用是如何自然地引导人类社会形成3种类型的人——非合作者(免费乘车者)、合作者和惩罚者(互惠者),正如其他电脑程序模拟所说明的一样。人类种族采取的是混合策略。
1701037404
1701037405 然而专家仍在争论这些问题。我见过一篇文章这样认为:事实上,利他主义通过利他主义者个体的所得利益单独进行发展演化,而并非一定演化自种群的利益。这一结论基于另外一个流行的博弈游戏的模拟结果,这个游戏便是著名的最后通牒游戏,今天,它在由诸如科林·卡麦勒等科学家探索的另一个博弈论的领域——“行为博弈论”得以广泛地运用。行为博弈论专家认为,要深刻理解人类社会行为的深层原因——理解自然法则——根本上是需要知道是什么促使个体在行动。换句话说,你需要知道人们是怎么想的。现在,开展这些研究的流行做法是将博弈论、经济学、心理学和神经系统学结合起来,并以一个新的具有争议的学科即神经经济学为人们所认识。
1701037406
1701037407
1701037408
1701037409
1701037410 纳什均衡与博弈论:纳什博弈论及对自然法则的研究 [:1701036508]
[ 上一页 ]  [ :1.701037361e+09 ]  [ 下一页 ]