1704422436
(1)在一个动物一生的时间中,它参与了一个或几个不同类型的博弈,这些博弈可以是频率独立的与其他对手的博弈,也可以是频率依赖或频率独立的与自然的博弈。
1704422437
1704422438
(2)所有参与的博弈都存在一个ESS(或一个最优解)。
1704422439
1704422440
(3)每一个博弈都进行很多次,这样达到稳定状态之后所获得的回报比在学习过程中所获得的回报更具重要性。
1704422441
1704422442
(4)在这些博弈中,至少存在一个ESS的学习规则。
1704422443
1704422444
令I表示一个学习规则,且这个学习规则在所有的博弈中都不能将种群带到ESS,无论是对博弈1、2、3…还是对博弈n、n+1…考虑这样一个种群,采取规则I的动物被采取规则J的突变异种所侵害,且J正是一个ESS的学习规则(注意,由假设(4)这样的规则至少有一个存在)。在博弈1、2、3…中,种群将会达到某一个非ESS的状态,这就说明存在某个行动X,使得其所带来的回报高于种群中的典型个体所获得的回报。对于突变异种J而言,这便向它表明了这是一个具有最优策略X的频率独立的博弈,正如我们所预料的那样,这个突变异种J会进行学习并采取策略X。因此,在博弈1、2、3…中,一旦达到一个稳定的状态,J就会比I做得更好,而在以后的博弈n、n+1…中,I和J都同样的合适。因此J比I更为合适,于是I不可能成为一个ESS。
1704422445
1704422446
这就表明,如果ES学习规则存在,那么它一定也是一个ESS的学习规则。
1704422447
1704422448
我们现在需要对这一命题进行证明。ES学习规则不会导致特定行为的完全丧失或固化。于是我们假设,对一个特定的博弈,其ESS便是“总是采取A策略”,于是行为A应该会从遗传上变得固定,这里没有任何学习的影子。如果学习效应被保留下来,这大概是由于博弈的回报在空间或时间上存在变化。这样,ES学习规则将把种群带到ESS这一猜想则必须做些修正,那就是要在这个猜想后面加上“除了当ESS是一个纯策略的情况,或ESS不包含某些特定的策略的情形,在这种情形下,学习规则将导致个体以极低的频率采取这些未被包含于ESS内的策略”。正如Darwin所建议的那样,为了以防万一,偶尔也需要做一个愚蠢的试验。
1704422449
1704422450
在确定了一个ES学习规则必须具备的性质之后,我们现在可以讨论这些规则的类型这样的问题。
1704422451
1704422452
对于每一个博弈,每个参与其中的动物都有一个可能行为的集合,或说是行动Bi(i=1,2,…,n;n≥2)所构成的集合。Pi(t)表示一个动物在第t次试验中采取行动Bi所得到的回报(即适应度的增量);如果在第t次试验中采取了有异于Bi的行动,那么Pi(t)=0。设在第t次试验中采取行动Bi的概率为fi(t),那么对于每一个博弈,学习规则就是把这n个概率值fi(t)定义为前期所获回报Pi(τ)(其中τ<t)的函数。
1704422453
1704422454
Harley证明了以下性质:当一个具有ES学习规则的种群达到一种均衡状态,采取行动Bi的概率就相等于从开始到现在采取行动Bi所获得的回报总额除以采取所有可能的行动所获得的回报总额。更正式地我们有:
1704422455
1704422456
1704422457
1704422458
1704422459
注意到采取行动Bi的概率是总回报的一个比例,而不是每次行动所得回报的一个比例。
1704422460
1704422461
上述性质的证明如下所述:令ti为在t次试验中采取行动Bi的总次数(t=∑ti),并令E[Pi(t)]为在第t次试验中给定采取行动Bi的情况下所得到的期望回报。在一个充分长的试验序列中
1704422462
1704422463
1704422464
1704422465
1704422466
从Bishop-Canning定理(见附录三)可知:E[Pi(t)]=E[Pj(t)],i,j属于构成ESS的任意两个纯策略。如果这个竞争的期望回报是C,那么有:
1704422467
1704422468
1704422469
1704422470
1704422471
1704422472
于是有:
1704422473
1704422474
1704422475
又因为:
1704422476
1704422477
1704422478
于是有:
1704422479
1704422480
这样我们就得到了表达式(5.1)。
1704422481
1704422482
1704422483
1704422484
为了使这个表达式更具内涵,我们先假想一个种群,进行具有三个纯策略的博弈,这个博弈的ESS是A、B和0C。在均衡状态下,动物采取策略A的频率将是采取策略B的两倍,而且根本不会采取策略C。因此由实施策略A所获得的总回报将是由实施B所得回报的两倍。应用表达式(5.1),我们就可以知道一旦总体达到ESS状态,学习规则将使得实施各策略所对应的概率不变。
1704422485
[
上一页 ]
[ :1.704422436e+09 ]
[
下一页 ]