打字猴:1.701027823e+09

1701027823 到现在为止，你似乎知道该怎样做。但是，相同的逻辑对另一个人也同样适用。因此，另一个人也将背叛而不管你如何做。这样，你们将是双方背叛，只能得到1分，这比你们双方合作所能得到的“奖励”3分差很多。个体的理性导致双方得到的比可能得到的少，这就是“困境”。

1701027824

1701027825 “囚徒困境”是对一些非常普遍而有趣的情形的简单抽象。在这些情形中，从个人的角度考虑，背叛是最好的选择，但双方背叛会导致不甚理想的结果。“囚徒困境”的定义要求四个可能的结果之间保持一定的关系。第一个关系是四个结果的排序，对策者能够得到的最好的结果是T，即对方合作你背叛时所得到的“诱惑”。最差的是得到S，即当对方背叛时你合作。另外两个结果可以假设R比P好，即得到对合作的“奖励”比得到对背叛的“惩罚”要好。这样得到从最好到最差四个结果的排序是T、R、P和S。“囚徒困境”定义中包含的第二个概念是，对策者不能通过轮流背叛对方来摆脱“困境”。这个假设意味着，交替地背叛对方和被对方背叛的收益没有双方合作好。即假定“对双方合作的奖励”大于“对背叛的诱惑”和“给笨蛋的报酬”的平均值（即R＞（T+S）/2），这个假设和四个结果的排序定义了“囚徒困境”。

1701027826

1701027827 如果两位自私者玩一次这个游戏，他们的选择会是背叛。这样，每一方所得将少于双方合作所能得到的。设想这个游戏要进行多次，而且双方知道具体次数，那么双方仍然没有合作的动机。为什么呢？首先，最后一次大家显然是不合作。在倒数第二次时，双方还是没有合作的动机。因为他们都预知对方在最后一次会背叛。如此推理下去，对两位自私者任何已知次数的游戏，从第一步开始就是双方背叛（Luce and Raiffa 1957，pp.94—102）。然而，这个推理并不适用于游戏要进行无限多次的情况。在大多数实际情况下，对策者不能肯定什么时候是他们的最后一次对局。就像稍后要说明的一样，当游戏次数无限时，合作有出现的可能。于是，问题变成了去发现合作出现的充分和必要的条件了。

1701027828

1701027829 在本书中，我将考察每次只有两个对策者打交道的情况。尽管一个对策者可以与其他许多人打交道，但可以假设他每次只能与其中的一个打交道。[3]同时，我们还可以假设对策者能够识别对方并且能记住与其打交道的历史。这种识别和记忆能力使得对策者在作决策时能够参考以往打交道的历史。

1701027830

1701027831 曾经有人提出过各种各样的解决“囚徒困境”的办法。每个办法都包含一些附加的改变策略的相互作用的措施，这些措施同时也使问题的性质发生了根本的变化。在许多情况下，这些补救措施是行不通的，所以原来的问题并没有解决。因此我们必须从问题的最基本形式来考虑。

1701027832

1701027833 1．对策者没有什么手段可以用来实施威胁或作出许诺（Schelling 1960）。由于对策者不会许诺他们自己采取某种特定的策略，因此每个人都得考虑对方可能采用的所有策略。此外，每一个对策者都可以使用所有可能的策略。

1701027834

1701027835 2．没有什么办法能够确定对方在某个特定的对局中将如何选择，这就消除了使用“元对策”分析的可能（Howard 1971）。“元对策”允许诸如“选择与对方相同的策略”的选择，同时也消除了通过观察对方与第三者对局而形成某种信誉的可能。因此对策者唯一可利用的信息是他们相互作用的历史。

1701027836

1701027837 3．不能消灭对方，也不能放弃对局，因此对策者在每次对局时只能选择合作或背叛。

1701027838

1701027839 4．不能改变对方的收益值。这个收益值已经包含了每个对策者关于对方利益的考虑（Taylor 1976，pp.69—73）。

1701027840

1701027841 在这些条件下，没有行动支持的表态是没有意义的。对策者之间的交流只能通过他们的一系列行为来进行。这就是“囚徒困境”的最基本形式。

1701027842

1701027843 合作可能出现是因为对策者将再次相遇。这种（再次相遇的）可能性意味着今天作出的选择不仅决定当前对局的结果，而且还影响对策者以后的选择。因此未来会在当前投下它的影子并影响当前的对策局势。

1701027844

1701027845 有两个原因使得现在比未来更为重要。首先，对策者倾向于认为未来所得的价值随着时间的推移而减少。其次，对策者总会有些机会不再相遇。这种持续的关系会由于其中一个对策者迁移、改变职业、去世或破产而结束。

1701027846

1701027847 由于这些原因，下一步对局的收益总是被看作比当前一步的收益少。处理这个问题的一个自然的办法就是在累积收益值时把下一步对局的收益看作当前一步收益的一部分（Shubik 1970）。下一步相对于当前一步的权重（或称为重要性）可以记作w。它表示每一步的收益相对于前一步收益的折扣程度。因此，它是一个折扣系数。

1701027848

1701027849 折扣系数可以用来确定整个序列的收益值。看一个简单的例子。假设每一步的重要性只有前一步的一半，即w=1/2，那么，一个双方背叛得1分的序列，在第一步的收益值是1，第二步是1/2，第三步是1/4。这个序列的累积值将是1+1/2+1/4…，它的和是2。一般情况下，每步得1分那么就有1+w+w2+w3…，当w大于零小于1时，这个无限序列的和具有简单的形式1/（1-w）。如果每一步只值前一步的90%，那么这个1分的序列就值10分，因为1/（1-w）=1/（1-0.9）=1/0.1=10。相似地，如果w还是0.9，那么双方合作时每步得3分的序列将是30分。

1701027850

1701027851 现在考虑一个双方对局的例子。一个对策者采用的策略是每一步都背叛，即“总是背叛”（always defecting，简称ALL D），另一个对策者采用的策略是“一报还一报”，即在第一步合作，然后就采用对方上一步的选择。“一报还一报”意味着在对方每一次背叛之后就背叛一次。当对方采用“一报还一报”时，采用“总是背叛”的对策者，将在第一局得到收益T，在而后的对局中都得P。他的值（或称为得分）就等于第一步是T，第二步是wP，第三步是w2P，如此类推。[4]

1701027852

1701027853 “总是背叛”和“一报还一报”都是一种策略。一般说来，一个策略（或决策规则）说明在任何可能出现的局势下如何去做。这个局势本身取决于游戏的历史。因此，一个策略在某个相互作用的格局下可能合作，在另一个格局下则可能背叛。另外，一个策略可以使用概率。例如，一个规则在每一步都完全随机地以相同的概率选择合作和背叛。一个策略还可以巧妙地使用至今为止的对策结果来确定下一步该如何做。例如，一个策略在每一步用复杂的方式（如马尔可夫过程）来模拟对方的行为，然后用统计推理的方法（如贝叶斯分析）来决定那些从长远来说似乎是最好的选择。或者，某个策略可以是其他一些策略的复杂的组合。

1701027854

1701027855 你可能忍不住要问：“什么是最好的策略？”换句话说，什么策略能使对策者得到可能的最高分？这个问题问得很好。但是就像以后要说明的一样，独立于对方所用策略之外的最好的决策规则是不存在的。从这个意义上说，“囚徒困境”完全不同于一般游戏，如国际象棋。一个象棋大师可以有把握地假定对手将走让他最头疼的一步。这种假定是这类游戏的基础，因为在这里，游戏者的利益是完全对抗的。然而“囚徒困境”所表示的情形却完全不同，对策者的利益并不是完全冲突的。双方可以通过合作而得到“对合作的奖励”R，也可以通过背叛而得到“对背叛的惩罚”P。如果你假定对方总是走你最担忧的一步，那么，你可能会认为其他人总是不合作，这就会使你也不合作，最后招来无休止的惩罚。所以与下棋不同，在“囚徒困境”中假定对方一心要赢你是不可靠的。

1701027856

1701027857 事实上，在“囚徒困境”中表现最好的策略直接取决于对方采用的策略，特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步相对于当前一步的权重足够大，即未来是重要的。换句话说，折扣系数w必须大到使未来在全部收益计算中显得很大。总的来说，如果你认为今后将难以与对方相遇，如果你不太关心自己未来的利益，那么，你现在最好是背叛，而不用担心未来的后果。

1701027858

1701027859 这样，我们得到了第一个正式的命题，但却是一个令人伤心的命题，即：如果未来是重要的，就不存在最优策略。

1701027860

1701027861 命题1：如果折扣系数w足够大，则不存在独立于对方所采用的策略的最优策略。

1701027862

1701027863 证明这个命题是不困难的。设想对方采用“总是背叛”策略，也就是他决不会合作，那么，不难理解你最好也是总是背叛。另外，假定对方采用一个被称为“永久报复”的策略，这个策略首先是采取合作直到你背叛，然后就一直以背叛来报复你。在这种情况下，你的最优策略是决不背叛。因为第一步背叛得到的好处最终将被长期的惩罚所抵消，它将使你得到长期的“惩罚”P而不是“奖励”R。当折扣系数w足够大时，这个论断是正确的。[5]因此你是否合作，即使在第一步，也取决于对方采用什么样的策略。所以，当w足够大时，不存在最优策略。

1701027864

1701027865 在立法机构，如美国参议院的例子中，这个命题说明，如果存在一个很大的机会使得一个议员将与另一个议员再次打交道，那么就不存在独立于其他议员所采用的策略的最优策略。你最好与那些在将来会回报合作的人合作，但不要与那些将来的行为不太受现在影响的人合作（例如参见Hinckley 1972）。达到稳定的相互合作的可能性取决于双方继续打交道的机会的大小，即w的大小。在国会的例子中，由于两年一次的议员更换率从头50年的40%下降到近几年的20%左右，两个议员继续打交道的机会增加很快（Young 1966，pp.87—90；Polsby 1968；Jones 1977，p.154；Patterson 1978，pp.143—144）。

1701027866

1701027867 然而，说继续打交道的机会对于合作发展是必要的并不等于说它是充分的。不存在单一的最优策略的论证留下了这样一个问题，在两个个体有足够大的概率继续打交道的情况下，会出现什么样的行为模式。

1701027868

1701027869 在继续研究可能出现的行为之前，我们最好仔细观察“囚徒困境”的框架里包含了哪些现实的特征。幸运的是，这个框架很简单，它避免了许多可能限制分析者的约束性假设。

1701027870

1701027871 1．对策者的收益不必是可比较的。例如：对一个记者的奖赏有可能是得到另一个内部消息，而对一个合作的官员的奖赏则可能是一次使他的政策建议得到好评的机会。

1701027872

[ 上一页 ] [ :1.701027823e+09 ] [ 下一页 ]