打字猴:1.70103574e+09
1701035740
1701035741 (8)精神病患者(醉汉策略)。每次随机选择合作或背叛。醉汉策略的最大特点是这是一个不知好歹的人。那么,对方必然会选择曹操策略。试想,一个不知好歹的人,有谁愿意和他好呢?
1701035742
1701035743 在以上所列举的那么多策略中,到底什么样的策略是最值得我们效仿的呢?换句话说,当所有的策略彼此博弈后,哪种策略最后的得分是最高的呢?
1701035744
1701035745 2.爱克斯罗德的贡献
1701035746
1701035747 这个问题的答案应该归功于美国密西根大学一位叫做罗伯特•爱克斯罗德的人。爱克斯罗德是一个政治科学家,为了进行关于合作的研究,他组织了一场计算机竞赛。这个竞赛的思路非常简单:任何想参加这个竞赛的人都负责扮演“囚犯困境”案例中一个囚犯的角色,提供一个相应的策略。他们把自己的策略编入计算机程序,参与者一起开始玩“囚犯困境”的游戏。每个人在每一步都要在合作与背叛之间作出选择。
1701035748
1701035749 在爱克斯罗德的竞赛中,总博弈的次数是200次。比赛的分数是这么计算的:如果两个程序都合作则各得3分,如果都背叛则各得1分,如果一方背叛而另一方选择合作,则背叛方得5分而合作方得0分。
1701035750
1701035751 竞赛的第一个回合交上来的14个程序中包含了各种复杂的策略,爱克斯罗德自己则递交了一个醉汉策略的程序。本次竞赛的桂冠属于其中的一报还一报(tit-for-tat)策略。这是多伦多大学心理学家阿纳托•拉帕波特提交上来的策略。当然,因为只有为数不多程序参与了竞赛,一报还一报策略的胜利也许只是一种侥幸。
1701035752
1701035753 第一次竞赛结束后,艾克斯罗德组织了更大规模的第二次竞赛,共有63位参赛者,其中包括第一次比赛的所有参加者。赛前,艾克斯罗德特地给每位参赛者寄去了关于第一次比赛的分析报告,鼓励参赛者设计更加巧妙的策略。每次博弈的次数不是完全确定的,随机抽样决定,以便更符合现实的情况,期望中数为200次,事后统计的平均次数是151次。
1701035754
1701035755 第二次竞赛新增的策略中具有代表性的策略有:
1701035756
1701035757 (1)TF2T策略(tit for 2 tats)。较为宽宏大量的TFT,仅当对手连续背叛两次以上才选择背叛,其他与TFT相似。它的总得分排第24名。
1701035758
1701035759 (2)检验者策略(tester)。这是被设计成专门欺负软骨头的一个策略。第一步选择背叛,然后观察对方的态度。如果对方背叛,就改为按TFT行事;如果对方不背叛,则在第2、3步合作,但以后每隔一步就背叛一次。它的总得分排第46名。
1701035760
1701035761 (3)哈灵顿策略(harrington)。首先合作,当发现对方一直在合作,它就突然来个背叛。如果对方立刻报复它,它就恢复合作;如果对方仍然合作,它就继续背叛。它排第8名。
1701035762
1701035763 第二次竞赛的结果仍然是“一报还一报”策略再次荣获总分排名第一。通过对两次竞赛结果的分析,艾克斯罗德总结了“一报还一报”策略的4个重要特点:
1701035764
1701035765 (1)善良性。即不做首先的背叛者。在实验中,排在得分前8名的8个策略都是善良的规则;实验中所有善良策略的得分在472~504分,而不善良策略的最高分只有401分。道宁策略本来设计得比较巧妙,但第一步的背叛使之很容易陷入被别人报复的泥潭,最后得分却很低。
1701035766
1701035767 (2)可激怒性。即应该针对对手的背叛行为给予报复。可激怒性太弱的策略易受到非善良策略的剥削,像乔斯策略就可以占这些策略的便宜。但乔斯策略如果遇到TFT这样马上报复的、可激怒性强的策略,则得分迅速降低。
1701035768
1701035769 (3)宽容性。不因对方的一次背叛,就没完没了地报复。只要对方放弃背叛,就原谅对方,继续与其合作。一报还一报只记住对方上一次的选择,就此不断给对方改正的机会。缺乏宽容性的策略,会使双方合作的高收益无法实现。
1701035770
1701035771 (4)清晰性。过于复杂的策略不容易被辨识,从而容易让对方认为是醉汉策略,那么对方就很容易采取曹操策略,至少会让非善良策略占便宜。“一报还一报”的行为方式很容易被辨识:它不欺负人家,也拒绝老是被欺负(以一次为限)。一旦被识别,对方就容易看出与之相处的最好方式是选择合作。
1701035772
1701035773 一报还一报策略的胜出对人类和其他生物的合作行为的形成所具有的深刻含义是显而易见的。爱克斯罗德在《合作的进化》一书中指出,一报还一报策略能导致社会各个领域的合作,包括在最无指望的环境中的合作。他最喜欢举的例子就是第一次世界大战中自发产生的“自己活,也让他人活”的原则。当时前线战壕里的军队约束自己不开枪杀伤人,只要对方也这么做。使这个原则能够实行的原因是,双方军队都已陷入困境数月,这给了他们相互适应的机会。
1701035774
1701035775 一报还一报的相互作用使得自然界即使没有智能也能产生合作关系。这样的例子很多:真菌从地下的石头中汲取养分,为海藻提供了食物,而海藻反过来又为真菌提供了光合作用;金蚁合欢树为一种蚂蚁提供了食物,而这种蚂蚁反过来又保护了该树;无花果树的花是黄蜂的食物,而黄蜂反过来又为无花果树传授花粉,将树种撒向四处。
1701035776
1701035777
1701035778
1701035779
1701035780 用博弈的思维看世界 [:1701032827]
1701035781 用博弈的思维看世界 三、冷酷策略(Grim Strategies)
1701035782
1701035783 冷酷策略的核心理念是任何参与者的一次性背叛将触发永远的背叛,这一点意味着,在冷酷策略下,不给对手任何改正错误的机会,所以才被称为“冷酷”。无限次重复博弈的所有参与者慑于冷酷策略的严重后果,只能选择积极性地维持合作。所以,它其实是友善的。
1701035784
1701035785 如果你的对手采用的是冷酷策略,对你而言最好每次都选择合作,因为你一旦背叛,就会面临对手的永久报复。然而,在爱克斯罗德的竞赛中,冷酷策略的得分却是相当低的。这是因为人非圣贤孰能无过,在博弈中,就算一个心地善良的人,也难免会因出错而选择了背叛。这种出错可能是不小心的出错(随机干扰),也可能是被误认为出错(信息传递错误),也可能是占便宜心理的诱惑。那么,一旦出错,就永远都没有重新合作的任何可能性了。这是重复博弈中我们最不愿意看到的。在重复博弈中,最重要的目的不是惩罚对手,而是尽快地建立一种合作关系,最好是建立一种牢固的合作关系。即便有惩罚,也是基于上述目的的考量。
1701035786
1701035787 如果考虑到贴现因子的作用,那么一个采用冷酷策略的参与者并不能保证对手的永久合作。举例来说,我现在告诉你,我是一个冷酷策略的人,如果我们彼此合作,你每年得到的合作收益是3万元,而一旦你背叛我,你今年的收益是100万元,但从此后我不再选择和你合作,你以后每年的收益是0,请问你的选择是什么?是选择拿到100万元走人,还是放弃当下的100万元,去期待明年的3万元?
1701035788
1701035789 考考你
[ 上一页 ]  [ :1.70103574e+09 ]  [ 下一页 ]