打字猴:1.704422406e+09

1704422406 Dawkins曾用来阐释DSS的思想的例子是那么的切中要害以至于我在此无法不借来使用。Baldwin和Meese（1979）研究了在一个斯金纳箱（skinner box）中两只猪的行为，试验是这样设计的：当按下箱子一端的控制开关时，食物便会在箱子的另一端分发。他们发现在那些试验中，两只猪逐渐形成了一种固定的行为模式，占优势地位的那只大猪总是踩下控制开关后再奔向食物的分发口，而居于从属地位的那只小猪则一直等在食物的分发口。这样稳定的行为模式的形成主要基于以下理由：假设在每一次按下控制开关后都能分发足够的食物，以保证在大猪到达的时候仍有剩余，这样大猪由于按了开关而受到了奖励，但更显然的是，小猪则由于在事物分发口处等待而受到了奖励。如果将两只猪的行为调换过来，那么这将是不稳定的。小猪不会由于按控制开关而受到奖励，因为大猪会挡住小猪让它吃不到食物。更令人感到矛盾的是，即使所分发的食物使得小猪比大猪吃得更多，所观察到的上述行为仍然是稳定的。

1704422407

1704422408 我们很容易构建一个虚拟的例子，在这个例子中相似的行为是由遗传决定而不是从学习中获得。Harley（1981）对学习和演化之间的相似性问题做过更为深入的研究，本章的剩余部分就基于他的研究工作。因为在学习和演化之间不但存在某种形式的类似（analogy），而且还存在一种因果联系，所以问题变得较为复杂。学习也是不断演化的，于是我们可以问：怎样的学习规则将是演化稳定的。Harley的核心结论就是，对于一个相当一般性的模型，那些演化的学习规则正是能够在一个世代的时间内将一个种群引致ESS频率的那些规则。

1704422409

1704422410 我们假设一个动物在其一生的时间内参与了许多种类的博弈，并且每一种博弈都进行很多次，就像人类一样，一个人会参与下棋、打网球以及玩单人纸牌游戏，每一种博弈都会进行很多次。这样一个动物参与了“饲料博弈”、“交配博弈”、“啄食顺序博弈”等等。因为在只玩一次的博弈中很可能不存在学习效应，我们只关注那些经常碰到的博弈类型。这些博弈有很多个种类，如下所述：

1704422411

1704422412 （1）频率独立型博弈。那就是“与自然的博弈”，在这种博弈中，采取一个策略所得的回报独立于这个策略被采取的频率。

1704422413

1704422414 （2）频率依赖型博弈。

1704422415

1704422416 （a）个人博弈，即这些博弈的回报都不依赖于种群中其他成员所采取的行动，但的确依赖于参与博弈的个体采取不同行为的频率。

1704422417

1704422418 （b）种群博弈，即这些博弈的回报的确依赖于种群中其他成员所采取的行动。

1704422419

1704422420 虽然这些不同种类的博弈背后的逻辑千变万化，但我们没有理由去假设一个动物能够知道它所参与的是哪种类型的博弈。于是，一个动物只知道自己是在争夺食物、争偶交配，还是在竞争主导地位，但是不知道所参与博弈的支付矩阵是否是频率依赖的。用拟人化的语言讲，一个争夺食物的动物将根据以前争夺食物的经验来调整自身的行为，而不是根据以前争夺配偶交配的经验，但是在这两种情形下，它都会使用相同的规则进行调整，即相同的“学习规则（learning rule）”。

1704422421

1704422422 种群博弈可以采取多种多样的形式。在Harley的模型中，他假设个体随机地进行配对，参与一对一的竞争，并根据它们所获得的回报及其学习规则来调整它们的策略，然后再随机地配对与新的对手展开竞争，这个过程将一直持续下去，直到个体所选策略的概率分布达致一个稳定的状态为止。正如在演化的情形中一样，如果一个个体是“全面树敌”的，则动态变化情况是相似的。一个例子就是Brockmann等人（1979，见第51页）所研究的掘土蜂自己“挖掘洞穴”与“入侵其他掘土蜂洞穴”的博弈，虽然令人感到惊奇的是，看上去在这个博弈中个体并没有进行学习。

1704422423

1704422424 我怀疑Harley的模型应用在全面树敌的博弈中比起应用在成对的竞争中来得更为合适，这个猜想基于以下一些理由：在一个成对的竞争中，正如Baldwin和Meese的大猪和小猪间的博弈，个体常常将与同一个对手进行多次博弈。如果对个体差异的识别是可能的，那么一个动物可以把与不同的对手竞争看成不同的博弈，并且形成针对不同对手的有差异的策略。因此，现在我们可以把种群博弈看成全面树敌的，或者是面对了一列随机的对手。以后（第45页），当我们发现了适合于这样的种群博弈的学习规则时，我将讨论都采取学习规则的两个动物在参与它们两者间的一系列竞争中所会发生的情况。

1704422425

1704422426 首先，我们必须清晰地区分两个概念：“演化稳定学习规则（ES learning rule）”和“演化稳定策略的学习规则（rule for ESS’s）”。

1704422427

1704422428 一个“演化稳定学习规则”，或简称“ES学习规则”，是这样一个规则：采取这样规则的个体所构成的种群在演化的过程中不可能被采取不同学习规则的突变基因所侵犯。因此，具有演化稳定性的学习规划，与其他稳定战略具有同样意义，这一规则同样满足（2.9）式定义的替代性学习规则的集合。

1704422429

1704422430 一个“演化稳定策略的学习规则”则是这样一个规则：对一个特定的博弈或一些博弈，这个规则将在一个世代的学习时间内，把一个初始没有经验的种群带到ESS频率。

1704422431

1704422432 第一点需要说明的便是，当个体参与具有相同纯策略集合的频率独立型博弈时，一个ESS的规则也是将个体引致一个最优策略的规则。设想一个种群中的所有个体都具有同样的学习规则，参与一个博弈并具有纯策略集合｛A、B、C…｝，假设整个种群并不处于ESS，但是在其所在状态下，纯策略A与其他策略相比有更高的回报。如果学习规则的目的是将种群带到ESS状态，那么它必须使得在下一轮博弈时采取A策略的概率得以增加。显然这样的一个学习规则将在一个频率独立的博弈中把一个种群带到最优策略状态。

1704422433

1704422434 现在我们准备来对付Harley的定理，这一定理断言如果存在一个ES学习规则，那么这个规则也必然是ESS的规则。为了证明这一点，我们必须先做一些假设：

1704422435

1704422436 （1）在一个动物一生的时间中，它参与了一个或几个不同类型的博弈，这些博弈可以是频率独立的与其他对手的博弈，也可以是频率依赖或频率独立的与自然的博弈。

1704422437

1704422438 （2）所有参与的博弈都存在一个ESS（或一个最优解）。

1704422439

1704422440 （3）每一个博弈都进行很多次，这样达到稳定状态之后所获得的回报比在学习过程中所获得的回报更具重要性。

1704422441

1704422442 （4）在这些博弈中，至少存在一个ESS的学习规则。

1704422443

1704422444 令I表示一个学习规则，且这个学习规则在所有的博弈中都不能将种群带到ESS，无论是对博弈1、2、3…还是对博弈n、n＋1…考虑这样一个种群，采取规则I的动物被采取规则J的突变异种所侵害，且J正是一个ESS的学习规则（注意，由假设（4）这样的规则至少有一个存在）。在博弈1、2、3…中，种群将会达到某一个非ESS的状态，这就说明存在某个行动X，使得其所带来的回报高于种群中的典型个体所获得的回报。对于突变异种J而言，这便向它表明了这是一个具有最优策略X的频率独立的博弈，正如我们所预料的那样，这个突变异种J会进行学习并采取策略X。因此，在博弈1、2、3…中，一旦达到一个稳定的状态，J就会比I做得更好，而在以后的博弈n、n＋1…中，I和J都同样的合适。因此J比I更为合适，于是I不可能成为一个ESS。

1704422445

1704422446 这就表明，如果ES学习规则存在，那么它一定也是一个ESS的学习规则。

1704422447

1704422448 我们现在需要对这一命题进行证明。ES学习规则不会导致特定行为的完全丧失或固化。于是我们假设，对一个特定的博弈，其ESS便是“总是采取A策略”，于是行为A应该会从遗传上变得固定，这里没有任何学习的影子。如果学习效应被保留下来，这大概是由于博弈的回报在空间或时间上存在变化。这样，ES学习规则将把种群带到ESS这一猜想则必须做些修正，那就是要在这个猜想后面加上“除了当ESS是一个纯策略的情况，或ESS不包含某些特定的策略的情形，在这种情形下，学习规则将导致个体以极低的频率采取这些未被包含于ESS内的策略”。正如Darwin所建议的那样，为了以防万一，偶尔也需要做一个愚蠢的试验。

1704422449

1704422450 在确定了一个ES学习规则必须具备的性质之后，我们现在可以讨论这些规则的类型这样的问题。

1704422451

1704422452 对于每一个博弈，每个参与其中的动物都有一个可能行为的集合，或说是行动Bi（i＝1，2，…，n；n≥2）所构成的集合。Pi（t）表示一个动物在第t次试验中采取行动Bi所得到的回报（即适应度的增量）；如果在第t次试验中采取了有异于Bi的行动，那么Pi（t）＝0。设在第t次试验中采取行动Bi的概率为fi（t），那么对于每一个博弈，学习规则就是把这n个概率值fi（t）定义为前期所获回报Pi（τ）（其中τ＜t）的函数。

1704422453

1704422454 Harley证明了以下性质：当一个具有ES学习规则的种群达到一种均衡状态，采取行动Bi的概率就相等于从开始到现在采取行动Bi所获得的回报总额除以采取所有可能的行动所获得的回报总额。更正式地我们有：

1704422455

[ 上一页 ] [ :1.704422406e+09 ] [ 下一页 ]