打字猴:1.701035713e+09
1701035713 用博弈的思维看世界 [:1701032826]
1701035714 用博弈的思维看世界 二、重复博弈:以囚犯困境为例
1701035715
1701035716 第五章有关囚犯困境的分析表明,在一次性博弈中,双方最后的均衡结果是(坦白,坦白)(见表5.2),虽然(抗拒,抗拒)是一个对双方更好的结果。表18.1也是一个囚犯困境的博弈。双方合作是最好的结果,但是彼此背叛是均衡的结果。如果博弈不是一次性的,那么每个人就有了更多的策略选择。
1701035717
1701035718 表18.1 囚犯困境
1701035719
1701035720
1701035721
1701035722
1701035723 1.可选择的策略
1701035724
1701035725 在无限次的重复博弈中,每一个参与者都有无数种策略选择,以下的一些策略选择是在现实中容易出现的。
1701035726
1701035727 (1)好人策略。无论对方如何选择,每次都选择合作。不难想象,如果你是这种策略选择,相信对方每次都会选择背叛。或许,你会对此耿耿于怀,心想对方为什么就没有被感动的那一天?我想说的是,这不就是人们常说的“人善被人欺,马善被人骑”吗?
1701035728
1701035729 (2)曹操策略。无论对方如何选择,每次都选择背叛。为避免好人策略的悲惨结局,你也可以选择曹操策略。那就是所谓的曹操名言:“宁可我负天下人,不可天下人负我!”可以想象,曹操策略的结果是对方也一定会选择背叛。
1701035730
1701035731 (3)冷酷策略(grim strategy),又叫触发策略(trigger strategy)。首次选择合作,只要对方合作,就选择合作;一旦对方选择背叛,则永远选择背叛。冷酷策略是一种介于好人策略与曹操策略之间的一种策略。冷酷策略的最大特点是不给对方任何重归于好的机会。换句话说,冷酷策略是最记仇的,一次受伤害,终生牢记。这就是所谓的“一个馒头的血案”。
1701035732
1701035733 (4)心太软策略。首次选择合作,只要对方合作,就选择合作,一旦对方连续背叛两次才永远选择背叛。相对于冷酷策略,心太软策略的好处是至少给对方犯错误的机会。相伴随的坏处是总给对方背叛自己的机会。
1701035734
1701035735 (5)一报还一报(tit-for-tat)。首次选择合作,只要对方合作,下一次就选择合作;只要对方背叛,下一次就选择背叛,即后续的选择始终与对方上一次的行动一样。一报还一报是介于冷酷策略和心太软策略之间的策略。相对于冷酷策略,它不记仇,总是愿意给对方改正错误的机会;相对于心太软策略,它又很容易被激怒,不愿意让对方占太多的便宜。
1701035736
1701035737 (6)道宁策略(downing)。第一步选择背叛,然后每走一步,估计自己合作或背叛后对方合作的概率,如果对方似乎仍然倾向于合作,则选择背叛;反之,选择合作。
1701035738
1701035739 (7)乔斯策略(joss)。试图偶尔背叛而不受惩罚。若对方背叛则马上背叛,但十次有一次是对方合作之后却选择背叛。
1701035740
1701035741 (8)精神病患者(醉汉策略)。每次随机选择合作或背叛。醉汉策略的最大特点是这是一个不知好歹的人。那么,对方必然会选择曹操策略。试想,一个不知好歹的人,有谁愿意和他好呢?
1701035742
1701035743 在以上所列举的那么多策略中,到底什么样的策略是最值得我们效仿的呢?换句话说,当所有的策略彼此博弈后,哪种策略最后的得分是最高的呢?
1701035744
1701035745 2.爱克斯罗德的贡献
1701035746
1701035747 这个问题的答案应该归功于美国密西根大学一位叫做罗伯特•爱克斯罗德的人。爱克斯罗德是一个政治科学家,为了进行关于合作的研究,他组织了一场计算机竞赛。这个竞赛的思路非常简单:任何想参加这个竞赛的人都负责扮演“囚犯困境”案例中一个囚犯的角色,提供一个相应的策略。他们把自己的策略编入计算机程序,参与者一起开始玩“囚犯困境”的游戏。每个人在每一步都要在合作与背叛之间作出选择。
1701035748
1701035749 在爱克斯罗德的竞赛中,总博弈的次数是200次。比赛的分数是这么计算的:如果两个程序都合作则各得3分,如果都背叛则各得1分,如果一方背叛而另一方选择合作,则背叛方得5分而合作方得0分。
1701035750
1701035751 竞赛的第一个回合交上来的14个程序中包含了各种复杂的策略,爱克斯罗德自己则递交了一个醉汉策略的程序。本次竞赛的桂冠属于其中的一报还一报(tit-for-tat)策略。这是多伦多大学心理学家阿纳托•拉帕波特提交上来的策略。当然,因为只有为数不多程序参与了竞赛,一报还一报策略的胜利也许只是一种侥幸。
1701035752
1701035753 第一次竞赛结束后,艾克斯罗德组织了更大规模的第二次竞赛,共有63位参赛者,其中包括第一次比赛的所有参加者。赛前,艾克斯罗德特地给每位参赛者寄去了关于第一次比赛的分析报告,鼓励参赛者设计更加巧妙的策略。每次博弈的次数不是完全确定的,随机抽样决定,以便更符合现实的情况,期望中数为200次,事后统计的平均次数是151次。
1701035754
1701035755 第二次竞赛新增的策略中具有代表性的策略有:
1701035756
1701035757 (1)TF2T策略(tit for 2 tats)。较为宽宏大量的TFT,仅当对手连续背叛两次以上才选择背叛,其他与TFT相似。它的总得分排第24名。
1701035758
1701035759 (2)检验者策略(tester)。这是被设计成专门欺负软骨头的一个策略。第一步选择背叛,然后观察对方的态度。如果对方背叛,就改为按TFT行事;如果对方不背叛,则在第2、3步合作,但以后每隔一步就背叛一次。它的总得分排第46名。
1701035760
1701035761 (3)哈灵顿策略(harrington)。首先合作,当发现对方一直在合作,它就突然来个背叛。如果对方立刻报复它,它就恢复合作;如果对方仍然合作,它就继续背叛。它排第8名。
1701035762
[ 上一页 ]  [ :1.701035713e+09 ]  [ 下一页 ]