打字猴:1.704422469e+09
1704422469
1704422470
1704422471
1704422472 于是有:    
1704422473
1704422474
1704422475 又因为:    
1704422476
1704422477
1704422478 于是有:    
1704422479
1704422480 这样我们就得到了表达式(5.1)。
1704422481
1704422482
1704422483
1704422484 为了使这个表达式更具内涵,我们先假想一个种群,进行具有三个纯策略的博弈,这个博弈的ESS是A、B和0C。在均衡状态下,动物采取策略A的频率将是采取策略B的两倍,而且根本不会采取策略C。因此由实施策略A所获得的总回报将是由实施B所得回报的两倍。应用表达式(5.1),我们就可以知道一旦总体达到ESS状态,学习规则将使得实施各策略所对应的概率不变。
1704422485
1704422486 条件(5.1)描述了种群达到ESS状态时所表现出的行为,但只要它没有具体设定没有经验的动物应该怎样去行动,那么它本身不能够成为一个ES学习规则。Harley提出,下面这个方法能够求得一个现实的ES学习规则:
1704422487
1704422488
1704422489
1704422490
1704422491 其中0<m<1。
1704422492
1704422493 在上述表达式中,ri表示对应每一种行为的“剩余价值”。举例说来,比如所有的ri都相等,那么所有行为在第一次试验中便会以相同概率出现。m表示一个记忆因子,m越接近于1,动物便越看重前期的回报。
1704422494
1704422495 这样的“相对回报总和(RPS)”学习规则的性质可以更进一步地分为两个方面:第一,我们将描述一个简单的机制,这样一个规则生机的简单机制很容易在化学反应或神经网络条件下得到实现。阐明这个机制一方面是为了展示存在一个这样的规则的假设并不是不切实际的,另一方面是为了让那些没有很高数学才能而仅有些数学常识的人能够更好地洞悉所发生的一切。第二,采取这种学习规则的动物的行为将会在很多种类型的博弈中被模仿。
1704422496
1704422497 图11表示了RPS学习规则的一个可能的内在机制,对于具有两种行为(B1和B2)的博弈,在每一次试验中,行动的选择依赖于两个细胞中某种物质的浓度S1和S2,采取B1和B2的概率分别为S1/(S1+S2)和S2/(S1+S2)。比如,这些细胞是神经细胞,其产生冲动的速率(firing rates)与某种物质的浓度成正比,并且行动的选择依赖于任意的一个刺激之后率先产生冲动的那个神经细胞。行动B1的后果便是细胞1增加了P1这么多的重量(相当于博弈的回报)。在两次试验之间的一段时间里,根据一阶化学动力学(chemical kinetics),S1和S2的量将减少,假设分别减少到mS1和mS2,并且由于合成作用(synthesis),S1和S2的量分别将增加(1-m)r1和(1-m)r2。这里r1和r2分别表示有利于行动B1和B2的一个自然的偏差(unlearnt bias)。当不存在回报时,两个细胞里那种物质的浓度分别为r1和r2。
1704422498
1704422499
1704422500
1704422501
1704422502 图11 “相对回报总和(RPS)”学习规则的内在机制。其具体解释见正文(After Harley,1981)
1704422503
1704422504 这个模型是否可以认为是对神经生理学家寻找学习规则的物理实现的一种启发完全取决于主观判断。所假设的化学动力学是简单且华而不实的。但是对于我们现在的目标而言,这个模型足以阐明由表达式(5.1)定义的RPS学习规则的性质。
1704422505
1704422506 在进一步讨论该模型的模拟问题之前,我们有必要先列示一些我们意料之中的性质:
1704422507
1704422508 (1)模拟行为能够在下列约束下,把一个种群带到ESS状态。这个约束是,由于剩余投入ri的存在,没有一种行为会完全地消失。对于一个只有两个行为的博弈,fi的上限和下限大约为m和1-m。
1704422509
1704422510 (2)离现在较近的试验相比前期的试验对行为具有更大的影响力。m值越小,对前期试验的记忆就越短。
1704422511
1704422512 (3)初始的行为完全决定于剩余比率ri。一个没有经验的动物可能有对某种特定的行为偏向。一个更为复杂精密的规则还允许根据经验来修正这些剩余比率。
1704422513
1704422514 (4)行为变化的速率取决于剩余ri以及回报Pi的相对大小。如果剩余值较大,动物将比较缓慢地改变它们起初没有经验的行为,与之形成对照的是,如果回报值比剩余值来得更大,那么动物会很快适应并以较高的概率采取某一特定的行为。从生物学的角度,其重要性如下所述:剩余表示对一个特定博弈的初始期望回报。如果实际的回报低于它,那么一个动物必然会不断改变它的行为。如果时间回报高于初始期望,那么动物一定会盯住这个有利可图的特定行为,这就等价于改变了其初始的随机行为。
1704422515
1704422516 Harley四种博弈的模拟行为如下:
1704422517
1704422518 (1)两个武装的强盗。这是一个频率依赖的博弈,在这个博弈中,存在两种可能的行为,B1和B2。这两个行为带来一笔钱财的概率始终不变,而这两个概率值一开始并不为其所知,但是能在试错的过程中被估计出来。在一个足够长的试验序列下,一旦知道了两个概率值,ESS总是采取具有较高回报概率的那个行为。这是由RPS学习规则所造成的,除非一个动物从不把行为完全固定在最优行为上。图12表示的就是这样的一个例子。有试验证明脊椎动物的行为就是如此,(Bush和Wilson对圆尾斗鱼的试验,1956;Roberts对老鼠的试验;以及Krebs,Kacelnik和Taylor对大山雀的试验)。
[ 上一页 ]  [ :1.704422469e+09 ]  [ 下一页 ]