打字猴:1.701027846e+09

1701027846

1701027847 由于这些原因，下一步对局的收益总是被看作比当前一步的收益少。处理这个问题的一个自然的办法就是在累积收益值时把下一步对局的收益看作当前一步收益的一部分（Shubik 1970）。下一步相对于当前一步的权重（或称为重要性）可以记作w。它表示每一步的收益相对于前一步收益的折扣程度。因此，它是一个折扣系数。

1701027848

1701027849 折扣系数可以用来确定整个序列的收益值。看一个简单的例子。假设每一步的重要性只有前一步的一半，即w=1/2，那么，一个双方背叛得1分的序列，在第一步的收益值是1，第二步是1/2，第三步是1/4。这个序列的累积值将是1+1/2+1/4…，它的和是2。一般情况下，每步得1分那么就有1+w+w2+w3…，当w大于零小于1时，这个无限序列的和具有简单的形式1/（1-w）。如果每一步只值前一步的90%，那么这个1分的序列就值10分，因为1/（1-w）=1/（1-0.9）=1/0.1=10。相似地，如果w还是0.9，那么双方合作时每步得3分的序列将是30分。

1701027850

1701027851 现在考虑一个双方对局的例子。一个对策者采用的策略是每一步都背叛，即“总是背叛”（always defecting，简称ALL D），另一个对策者采用的策略是“一报还一报”，即在第一步合作，然后就采用对方上一步的选择。“一报还一报”意味着在对方每一次背叛之后就背叛一次。当对方采用“一报还一报”时，采用“总是背叛”的对策者，将在第一局得到收益T，在而后的对局中都得P。他的值（或称为得分）就等于第一步是T，第二步是wP，第三步是w2P，如此类推。[4]

1701027852

1701027853 “总是背叛”和“一报还一报”都是一种策略。一般说来，一个策略（或决策规则）说明在任何可能出现的局势下如何去做。这个局势本身取决于游戏的历史。因此，一个策略在某个相互作用的格局下可能合作，在另一个格局下则可能背叛。另外，一个策略可以使用概率。例如，一个规则在每一步都完全随机地以相同的概率选择合作和背叛。一个策略还可以巧妙地使用至今为止的对策结果来确定下一步该如何做。例如，一个策略在每一步用复杂的方式（如马尔可夫过程）来模拟对方的行为，然后用统计推理的方法（如贝叶斯分析）来决定那些从长远来说似乎是最好的选择。或者，某个策略可以是其他一些策略的复杂的组合。

1701027854

1701027855 你可能忍不住要问：“什么是最好的策略？”换句话说，什么策略能使对策者得到可能的最高分？这个问题问得很好。但是就像以后要说明的一样，独立于对方所用策略之外的最好的决策规则是不存在的。从这个意义上说，“囚徒困境”完全不同于一般游戏，如国际象棋。一个象棋大师可以有把握地假定对手将走让他最头疼的一步。这种假定是这类游戏的基础，因为在这里，游戏者的利益是完全对抗的。然而“囚徒困境”所表示的情形却完全不同，对策者的利益并不是完全冲突的。双方可以通过合作而得到“对合作的奖励”R，也可以通过背叛而得到“对背叛的惩罚”P。如果你假定对方总是走你最担忧的一步，那么，你可能会认为其他人总是不合作，这就会使你也不合作，最后招来无休止的惩罚。所以与下棋不同，在“囚徒困境”中假定对方一心要赢你是不可靠的。

1701027856

1701027857 事实上，在“囚徒困境”中表现最好的策略直接取决于对方采用的策略，特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步相对于当前一步的权重足够大，即未来是重要的。换句话说，折扣系数w必须大到使未来在全部收益计算中显得很大。总的来说，如果你认为今后将难以与对方相遇，如果你不太关心自己未来的利益，那么，你现在最好是背叛，而不用担心未来的后果。

1701027858

1701027859 这样，我们得到了第一个正式的命题，但却是一个令人伤心的命题，即：如果未来是重要的，就不存在最优策略。

1701027860

1701027861 命题1：如果折扣系数w足够大，则不存在独立于对方所采用的策略的最优策略。

1701027862

1701027863 证明这个命题是不困难的。设想对方采用“总是背叛”策略，也就是他决不会合作，那么，不难理解你最好也是总是背叛。另外，假定对方采用一个被称为“永久报复”的策略，这个策略首先是采取合作直到你背叛，然后就一直以背叛来报复你。在这种情况下，你的最优策略是决不背叛。因为第一步背叛得到的好处最终将被长期的惩罚所抵消，它将使你得到长期的“惩罚”P而不是“奖励”R。当折扣系数w足够大时，这个论断是正确的。[5]因此你是否合作，即使在第一步，也取决于对方采用什么样的策略。所以，当w足够大时，不存在最优策略。

1701027864

1701027865 在立法机构，如美国参议院的例子中，这个命题说明，如果存在一个很大的机会使得一个议员将与另一个议员再次打交道，那么就不存在独立于其他议员所采用的策略的最优策略。你最好与那些在将来会回报合作的人合作，但不要与那些将来的行为不太受现在影响的人合作（例如参见Hinckley 1972）。达到稳定的相互合作的可能性取决于双方继续打交道的机会的大小，即w的大小。在国会的例子中，由于两年一次的议员更换率从头50年的40%下降到近几年的20%左右，两个议员继续打交道的机会增加很快（Young 1966，pp.87—90；Polsby 1968；Jones 1977，p.154；Patterson 1978，pp.143—144）。

1701027866

1701027867 然而，说继续打交道的机会对于合作发展是必要的并不等于说它是充分的。不存在单一的最优策略的论证留下了这样一个问题，在两个个体有足够大的概率继续打交道的情况下，会出现什么样的行为模式。

1701027868

1701027869 在继续研究可能出现的行为之前，我们最好仔细观察“囚徒困境”的框架里包含了哪些现实的特征。幸运的是，这个框架很简单，它避免了许多可能限制分析者的约束性假设。

1701027870

1701027871 1．对策者的收益不必是可比较的。例如：对一个记者的奖赏有可能是得到另一个内部消息，而对一个合作的官员的奖赏则可能是一次使他的政策建议得到好评的机会。

1701027872

1701027873 2．这些收益不必是对称的。当然从对策者双方的角度来看，收益自然应该绝对相等，但这并不是必要的。例如：你不必假设双方合作的奖励或者其他三个收益参数对每个对策者都同样重要。像前面所提到的，你不必假设它们是可以比较的。必须假设的是，对每个对策者来说，四种收益是按“囚徒困境”的定义要求排序的。

1701027874

1701027875 3．对策者的收益值只是相对的，不是绝对的。[6]

1701027876

1701027877 4．决定是否合作不必顾及他人的看法。时常会有人想阻拦而不是培育对策者之间的合作。商业上的勾结对参与者有好处，但对他人则可能不利。事实上，绝大部分的贿赂就是一个当事人高兴而其他人厌恶的合作的例子。因此，偶尔这个理论也会反过来被用于如何防止而不是促进合作。

1701027878

1701027879 5．不必假设对策者是理性的。不必假设他们总是企图争取最大利益。他们的策略有可能只是简单地反映标准的操作程序、经验、直觉、习惯或模仿他人（Simon 1955；Cyert and March 1963）。

1701027880

1701027881 6．对策者的行为不必都是有意识的选择。一个人有时会回报一个恩惠，有时不会，他可能不会认真思考他采用的是什么策略。因此不必假设所有的选择都是深思熟虑的。[7]

1701027882

1701027883 这个框架之大，不仅包含了人，而且大到国家和小到细菌均包含在内。国家的一些行为显然可以解释为“囚徒困境”中的选择，如：关税的升降。没有必要假设这些行为是理性的或是追求单一目标的结果。相反，它们完全可能是错综复杂的官僚政治的结果（Allison 1971）。

1701027884

1701027885 同样，在另一个极端，一个有机体不需要脑袋来玩游戏。例如，细菌对它们选择的化学环境是高度敏感的。因此它们能够对其他有机体的行为作出不同的反应。这些行为的条件策略是可以遗传的。而且，一个细菌的行为会影响周围有机体的适应性，就像其他有机体的行为会影响某个细菌的适应性一样。关于这方面的内容，我们将在第五章讨论。

1701027886

1701027887 现在先让我们把主要的兴趣放在人和组织上。为了通用性的缘故，我们最好记住没有必要假设人们是多么地深思熟虑和富有洞察力。也不要像社会生物学家一样，假设人类的主要行为是由基因引导的。这里所使用的方法是策略性的而不是遗传性的。

1701027888

1701027889 当然，把合作问题抽象为“囚徒困境”要忽略许多实际问题本身的重要特点。例如，这种完全的抽象没有考虑语言交流的可能、第三者的直接影响、一个选择的实现问题以及对方上一次选择的不确定性。在第八章中，一些类似的复杂因素将被加入基本模型中，显然还有许多因素值得考虑和研究。任何一个聪明人都肯定不会在作出重要选择时忽略这些复杂的因素。然而，不考虑这些复杂因素而作出的分析能够帮助我们弄清人们相互作用的一些微妙特征。否则这些特征在人们作出选择时容易被错综复杂的实际情况所淹没。正是现实的复杂性使得抽象的分析变得更有价值。

1701027890

1701027891 下一章通过研究什么是囚徒困境中的好策略来探讨合作的产生。使用的是一个新颖的方法：计算机竞赛。对策论专家被邀请提送他们所喜爱的策略。每个策略与其他所有策略逐个对局，看看哪个策略的表现从总体来说是最好的。令人惊讶的是：胜利者是所有提交策略中最简单的一个策略，它就是“一报还一报”。这个策略首先在第一步合作，然后就模仿对方上一步的选择。第二轮计算机竞赛有更多的参赛程序，它们是由一些业余爱好者和专家们提送的，他们都知道第一轮计算机竞赛的结果。然而，第二轮又是“一报还一报”取胜！对竞赛数据的分析揭示了一个成功的决策规则所应有的四个特性：只要对方合作你就合作以避免不必要的冲突；面对他人的无理背叛你是可激怒的；在给挑衅以反击之后你是宽容的；行为要简单清晰，使对方能适应你的行为模式。

1701027892

1701027893 这些竞赛的结果表明，在适当的条件下，合作确实能够在没有集权的自私自利者的世界中产生。在第三章中，我们将采用理论方法来探索这些结果究竟能适用多大范围。一系列命题的证明不仅说明了合作产生的条件，而且提供了合作演化的进程。这里先作一个简单的论述。合作的进化要求个体有足够大的机会再次相遇，使得他们能形成在未来打交道的利害关系，如果是这样的话，合作的进化可以分三个阶段。

1701027894

1701027895 1．起始阶段：合作可以在一个无条件背叛的世界里产生。零散个体之间几乎没有机会交往，合作也就不会产生。然而，以相互回报合作为宗旨的小群体之间，一旦有交往的可能，合作便会出现。

[ 上一页 ] [ :1.701027846e+09 ] [ 下一页 ]