1704422427
1704422428
一个“演化稳定学习规则”,或简称“ES学习规则”,是这样一个规则:采取这样规则的个体所构成的种群在演化的过程中不可能被采取不同学习规则的突变基因所侵犯。因此,具有演化稳定性的学习规划,与其他稳定战略具有同样意义,这一规则同样满足(2.9)式定义的替代性学习规则的集合。
1704422429
1704422430
一个“演化稳定策略的学习规则”则是这样一个规则:对一个特定的博弈或一些博弈,这个规则将在一个世代的学习时间内,把一个初始没有经验的种群带到ESS频率。
1704422431
1704422432
第一点需要说明的便是,当个体参与具有相同纯策略集合的频率独立型博弈时,一个ESS的规则也是将个体引致一个最优策略的规则。设想一个种群中的所有个体都具有同样的学习规则,参与一个博弈并具有纯策略集合{A、B、C…},假设整个种群并不处于ESS,但是在其所在状态下,纯策略A与其他策略相比有更高的回报。如果学习规则的目的是将种群带到ESS状态,那么它必须使得在下一轮博弈时采取A策略的概率得以增加。显然这样的一个学习规则将在一个频率独立的博弈中把一个种群带到最优策略状态。
1704422433
1704422434
现在我们准备来对付Harley的定理,这一定理断言如果存在一个ES学习规则,那么这个规则也必然是ESS的规则。为了证明这一点,我们必须先做一些假设:
1704422435
1704422436
(1)在一个动物一生的时间中,它参与了一个或几个不同类型的博弈,这些博弈可以是频率独立的与其他对手的博弈,也可以是频率依赖或频率独立的与自然的博弈。
1704422437
1704422438
(2)所有参与的博弈都存在一个ESS(或一个最优解)。
1704422439
1704422440
(3)每一个博弈都进行很多次,这样达到稳定状态之后所获得的回报比在学习过程中所获得的回报更具重要性。
1704422441
1704422442
(4)在这些博弈中,至少存在一个ESS的学习规则。
1704422443
1704422444
令I表示一个学习规则,且这个学习规则在所有的博弈中都不能将种群带到ESS,无论是对博弈1、2、3…还是对博弈n、n+1…考虑这样一个种群,采取规则I的动物被采取规则J的突变异种所侵害,且J正是一个ESS的学习规则(注意,由假设(4)这样的规则至少有一个存在)。在博弈1、2、3…中,种群将会达到某一个非ESS的状态,这就说明存在某个行动X,使得其所带来的回报高于种群中的典型个体所获得的回报。对于突变异种J而言,这便向它表明了这是一个具有最优策略X的频率独立的博弈,正如我们所预料的那样,这个突变异种J会进行学习并采取策略X。因此,在博弈1、2、3…中,一旦达到一个稳定的状态,J就会比I做得更好,而在以后的博弈n、n+1…中,I和J都同样的合适。因此J比I更为合适,于是I不可能成为一个ESS。
1704422445
1704422446
这就表明,如果ES学习规则存在,那么它一定也是一个ESS的学习规则。
1704422447
1704422448
我们现在需要对这一命题进行证明。ES学习规则不会导致特定行为的完全丧失或固化。于是我们假设,对一个特定的博弈,其ESS便是“总是采取A策略”,于是行为A应该会从遗传上变得固定,这里没有任何学习的影子。如果学习效应被保留下来,这大概是由于博弈的回报在空间或时间上存在变化。这样,ES学习规则将把种群带到ESS这一猜想则必须做些修正,那就是要在这个猜想后面加上“除了当ESS是一个纯策略的情况,或ESS不包含某些特定的策略的情形,在这种情形下,学习规则将导致个体以极低的频率采取这些未被包含于ESS内的策略”。正如Darwin所建议的那样,为了以防万一,偶尔也需要做一个愚蠢的试验。
1704422449
1704422450
在确定了一个ES学习规则必须具备的性质之后,我们现在可以讨论这些规则的类型这样的问题。
1704422451
1704422452
对于每一个博弈,每个参与其中的动物都有一个可能行为的集合,或说是行动Bi(i=1,2,…,n;n≥2)所构成的集合。Pi(t)表示一个动物在第t次试验中采取行动Bi所得到的回报(即适应度的增量);如果在第t次试验中采取了有异于Bi的行动,那么Pi(t)=0。设在第t次试验中采取行动Bi的概率为fi(t),那么对于每一个博弈,学习规则就是把这n个概率值fi(t)定义为前期所获回报Pi(τ)(其中τ<t)的函数。
1704422453
1704422454
Harley证明了以下性质:当一个具有ES学习规则的种群达到一种均衡状态,采取行动Bi的概率就相等于从开始到现在采取行动Bi所获得的回报总额除以采取所有可能的行动所获得的回报总额。更正式地我们有:
1704422455
1704422456
1704422457
1704422458
1704422459
注意到采取行动Bi的概率是总回报的一个比例,而不是每次行动所得回报的一个比例。
1704422460
1704422461
上述性质的证明如下所述:令ti为在t次试验中采取行动Bi的总次数(t=∑ti),并令E[Pi(t)]为在第t次试验中给定采取行动Bi的情况下所得到的期望回报。在一个充分长的试验序列中
1704422462
1704422463
1704422464
1704422465
1704422466
从Bishop-Canning定理(见附录三)可知:E[Pi(t)]=E[Pj(t)],i,j属于构成ESS的任意两个纯策略。如果这个竞争的期望回报是C,那么有:
1704422467
1704422468
1704422469
1704422470
1704422471
1704422472
于是有:
1704422473
1704422474
1704422475
又因为:
1704422476
[
上一页 ]
[ :1.704422427e+09 ]
[
下一页 ]