打字猴:1.701035713e+09

1701035713 用博弈的思维看世界 [:1701032826]

1701035714 用博弈的思维看世界二、重复博弈：以囚犯困境为例

1701035715

1701035716 第五章有关囚犯困境的分析表明，在一次性博弈中，双方最后的均衡结果是（坦白，坦白）（见表5.2），虽然（抗拒，抗拒）是一个对双方更好的结果。表18.1也是一个囚犯困境的博弈。双方合作是最好的结果，但是彼此背叛是均衡的结果。如果博弈不是一次性的，那么每个人就有了更多的策略选择。

1701035717

1701035718 表18.1　囚犯困境

1701035719

1701035720

1701035721

1701035722

1701035723 1.可选择的策略

1701035724

1701035725 在无限次的重复博弈中，每一个参与者都有无数种策略选择，以下的一些策略选择是在现实中容易出现的。

1701035726

1701035727 （1）好人策略。无论对方如何选择，每次都选择合作。不难想象，如果你是这种策略选择，相信对方每次都会选择背叛。或许，你会对此耿耿于怀，心想对方为什么就没有被感动的那一天？我想说的是，这不就是人们常说的“人善被人欺，马善被人骑”吗？

1701035728

1701035729 （2）曹操策略。无论对方如何选择，每次都选择背叛。为避免好人策略的悲惨结局，你也可以选择曹操策略。那就是所谓的曹操名言：“宁可我负天下人，不可天下人负我！”可以想象，曹操策略的结果是对方也一定会选择背叛。

1701035730

1701035731 （3）冷酷策略（grim strategy），又叫触发策略（trigger strategy）。首次选择合作，只要对方合作，就选择合作；一旦对方选择背叛，则永远选择背叛。冷酷策略是一种介于好人策略与曹操策略之间的一种策略。冷酷策略的最大特点是不给对方任何重归于好的机会。换句话说，冷酷策略是最记仇的，一次受伤害，终生牢记。这就是所谓的“一个馒头的血案”。

1701035732

1701035733 （4）心太软策略。首次选择合作，只要对方合作，就选择合作，一旦对方连续背叛两次才永远选择背叛。相对于冷酷策略，心太软策略的好处是至少给对方犯错误的机会。相伴随的坏处是总给对方背叛自己的机会。

1701035734

1701035735 （5）一报还一报（tit-for-tat）。首次选择合作，只要对方合作，下一次就选择合作；只要对方背叛，下一次就选择背叛，即后续的选择始终与对方上一次的行动一样。一报还一报是介于冷酷策略和心太软策略之间的策略。相对于冷酷策略，它不记仇，总是愿意给对方改正错误的机会；相对于心太软策略，它又很容易被激怒，不愿意让对方占太多的便宜。

1701035736

1701035737 （6）道宁策略（downing）。第一步选择背叛，然后每走一步，估计自己合作或背叛后对方合作的概率，如果对方似乎仍然倾向于合作，则选择背叛；反之，选择合作。

1701035738

1701035739 （7）乔斯策略（joss）。试图偶尔背叛而不受惩罚。若对方背叛则马上背叛，但十次有一次是对方合作之后却选择背叛。

1701035740

1701035741 （8）精神病患者（醉汉策略）。每次随机选择合作或背叛。醉汉策略的最大特点是这是一个不知好歹的人。那么，对方必然会选择曹操策略。试想，一个不知好歹的人，有谁愿意和他好呢？

1701035742

1701035743 在以上所列举的那么多策略中，到底什么样的策略是最值得我们效仿的呢？换句话说，当所有的策略彼此博弈后，哪种策略最后的得分是最高的呢？

1701035744

1701035745 2.爱克斯罗德的贡献

1701035746

1701035747 这个问题的答案应该归功于美国密西根大学一位叫做罗伯特•爱克斯罗德的人。爱克斯罗德是一个政治科学家，为了进行关于合作的研究，他组织了一场计算机竞赛。这个竞赛的思路非常简单：任何想参加这个竞赛的人都负责扮演“囚犯困境”案例中一个囚犯的角色，提供一个相应的策略。他们把自己的策略编入计算机程序，参与者一起开始玩“囚犯困境”的游戏。每个人在每一步都要在合作与背叛之间作出选择。

1701035748

1701035749 在爱克斯罗德的竞赛中，总博弈的次数是200次。比赛的分数是这么计算的：如果两个程序都合作则各得3分，如果都背叛则各得1分，如果一方背叛而另一方选择合作，则背叛方得5分而合作方得0分。

1701035750

1701035751 竞赛的第一个回合交上来的14个程序中包含了各种复杂的策略，爱克斯罗德自己则递交了一个醉汉策略的程序。本次竞赛的桂冠属于其中的一报还一报（tit-for-tat）策略。这是多伦多大学心理学家阿纳托•拉帕波特提交上来的策略。当然，因为只有为数不多程序参与了竞赛，一报还一报策略的胜利也许只是一种侥幸。

1701035752

1701035753 第一次竞赛结束后，艾克斯罗德组织了更大规模的第二次竞赛，共有63位参赛者，其中包括第一次比赛的所有参加者。赛前，艾克斯罗德特地给每位参赛者寄去了关于第一次比赛的分析报告，鼓励参赛者设计更加巧妙的策略。每次博弈的次数不是完全确定的，随机抽样决定，以便更符合现实的情况，期望中数为200次，事后统计的平均次数是151次。

1701035754

1701035755 第二次竞赛新增的策略中具有代表性的策略有：

1701035756

1701035757 （1）TF2T策略（tit for 2 tats）。较为宽宏大量的TFT，仅当对手连续背叛两次以上才选择背叛，其他与TFT相似。它的总得分排第24名。

1701035758

1701035759 （2）检验者策略（tester）。这是被设计成专门欺负软骨头的一个策略。第一步选择背叛，然后观察对方的态度。如果对方背叛，就改为按TFT行事；如果对方不背叛，则在第2、3步合作，但以后每隔一步就背叛一次。它的总得分排第46名。

1701035760

1701035761 （3）哈灵顿策略（harrington）。首先合作，当发现对方一直在合作，它就突然来个背叛。如果对方立刻报复它，它就恢复合作；如果对方仍然合作，它就继续背叛。它排第8名。

1701035762

[ 上一页 ] [ :1.701035713e+09 ] [ 下一页 ]