1704422450
在确定了一个ES学习规则必须具备的性质之后,我们现在可以讨论这些规则的类型这样的问题。
1704422451
1704422452
对于每一个博弈,每个参与其中的动物都有一个可能行为的集合,或说是行动Bi(i=1,2,…,n;n≥2)所构成的集合。Pi(t)表示一个动物在第t次试验中采取行动Bi所得到的回报(即适应度的增量);如果在第t次试验中采取了有异于Bi的行动,那么Pi(t)=0。设在第t次试验中采取行动Bi的概率为fi(t),那么对于每一个博弈,学习规则就是把这n个概率值fi(t)定义为前期所获回报Pi(τ)(其中τ<t)的函数。
1704422453
1704422454
Harley证明了以下性质:当一个具有ES学习规则的种群达到一种均衡状态,采取行动Bi的概率就相等于从开始到现在采取行动Bi所获得的回报总额除以采取所有可能的行动所获得的回报总额。更正式地我们有:
1704422455
1704422456
1704422457
1704422458
1704422459
注意到采取行动Bi的概率是总回报的一个比例,而不是每次行动所得回报的一个比例。
1704422460
1704422461
上述性质的证明如下所述:令ti为在t次试验中采取行动Bi的总次数(t=∑ti),并令E[Pi(t)]为在第t次试验中给定采取行动Bi的情况下所得到的期望回报。在一个充分长的试验序列中
1704422462
1704422463
1704422464
1704422465
1704422466
从Bishop-Canning定理(见附录三)可知:E[Pi(t)]=E[Pj(t)],i,j属于构成ESS的任意两个纯策略。如果这个竞争的期望回报是C,那么有:
1704422467
1704422468
1704422469
1704422470
1704422471
1704422472
于是有:
1704422473
1704422474
1704422475
又因为:
1704422476
1704422477
1704422478
于是有:
1704422479
1704422480
这样我们就得到了表达式(5.1)。
1704422481
1704422482
1704422483
1704422484
为了使这个表达式更具内涵,我们先假想一个种群,进行具有三个纯策略的博弈,这个博弈的ESS是A、B和0C。在均衡状态下,动物采取策略A的频率将是采取策略B的两倍,而且根本不会采取策略C。因此由实施策略A所获得的总回报将是由实施B所得回报的两倍。应用表达式(5.1),我们就可以知道一旦总体达到ESS状态,学习规则将使得实施各策略所对应的概率不变。
1704422485
1704422486
条件(5.1)描述了种群达到ESS状态时所表现出的行为,但只要它没有具体设定没有经验的动物应该怎样去行动,那么它本身不能够成为一个ES学习规则。Harley提出,下面这个方法能够求得一个现实的ES学习规则:
1704422487
1704422488
1704422489
1704422490
1704422491
其中0<m<1。
1704422492
1704422493
在上述表达式中,ri表示对应每一种行为的“剩余价值”。举例说来,比如所有的ri都相等,那么所有行为在第一次试验中便会以相同概率出现。m表示一个记忆因子,m越接近于1,动物便越看重前期的回报。
1704422494
1704422495
这样的“相对回报总和(RPS)”学习规则的性质可以更进一步地分为两个方面:第一,我们将描述一个简单的机制,这样一个规则生机的简单机制很容易在化学反应或神经网络条件下得到实现。阐明这个机制一方面是为了展示存在一个这样的规则的假设并不是不切实际的,另一方面是为了让那些没有很高数学才能而仅有些数学常识的人能够更好地洞悉所发生的一切。第二,采取这种学习规则的动物的行为将会在很多种类型的博弈中被模仿。
1704422496
1704422497
图11表示了RPS学习规则的一个可能的内在机制,对于具有两种行为(B1和B2)的博弈,在每一次试验中,行动的选择依赖于两个细胞中某种物质的浓度S1和S2,采取B1和B2的概率分别为S1/(S1+S2)和S2/(S1+S2)。比如,这些细胞是神经细胞,其产生冲动的速率(firing rates)与某种物质的浓度成正比,并且行动的选择依赖于任意的一个刺激之后率先产生冲动的那个神经细胞。行动B1的后果便是细胞1增加了P1这么多的重量(相当于博弈的回报)。在两次试验之间的一段时间里,根据一阶化学动力学(chemical kinetics),S1和S2的量将减少,假设分别减少到mS1和mS2,并且由于合成作用(synthesis),S1和S2的量分别将增加(1-m)r1和(1-m)r2。这里r1和r2分别表示有利于行动B1和B2的一个自然的偏差(unlearnt bias)。当不存在回报时,两个细胞里那种物质的浓度分别为r1和r2。
1704422498
1704422499
[
上一页 ]
[ :1.70442245e+09 ]
[
下一页 ]