1704422500
1704422501
1704422502
图11 “相对回报总和(RPS)”学习规则的内在机制。其具体解释见正文(After Harley,1981)
1704422503
1704422504
这个模型是否可以认为是对神经生理学家寻找学习规则的物理实现的一种启发完全取决于主观判断。所假设的化学动力学是简单且华而不实的。但是对于我们现在的目标而言,这个模型足以阐明由表达式(5.1)定义的RPS学习规则的性质。
1704422505
1704422506
在进一步讨论该模型的模拟问题之前,我们有必要先列示一些我们意料之中的性质:
1704422507
1704422508
(1)模拟行为能够在下列约束下,把一个种群带到ESS状态。这个约束是,由于剩余投入ri的存在,没有一种行为会完全地消失。对于一个只有两个行为的博弈,fi的上限和下限大约为m和1-m。
1704422509
1704422510
(2)离现在较近的试验相比前期的试验对行为具有更大的影响力。m值越小,对前期试验的记忆就越短。
1704422511
1704422512
(3)初始的行为完全决定于剩余比率ri。一个没有经验的动物可能有对某种特定的行为偏向。一个更为复杂精密的规则还允许根据经验来修正这些剩余比率。
1704422513
1704422514
(4)行为变化的速率取决于剩余ri以及回报Pi的相对大小。如果剩余值较大,动物将比较缓慢地改变它们起初没有经验的行为,与之形成对照的是,如果回报值比剩余值来得更大,那么动物会很快适应并以较高的概率采取某一特定的行为。从生物学的角度,其重要性如下所述:剩余表示对一个特定博弈的初始期望回报。如果实际的回报低于它,那么一个动物必然会不断改变它的行为。如果时间回报高于初始期望,那么动物一定会盯住这个有利可图的特定行为,这就等价于改变了其初始的随机行为。
1704422515
1704422516
Harley四种博弈的模拟行为如下:
1704422517
1704422518
(1)两个武装的强盗。这是一个频率依赖的博弈,在这个博弈中,存在两种可能的行为,B1和B2。这两个行为带来一笔钱财的概率始终不变,而这两个概率值一开始并不为其所知,但是能在试错的过程中被估计出来。在一个足够长的试验序列下,一旦知道了两个概率值,ESS总是采取具有较高回报概率的那个行为。这是由RPS学习规则所造成的,除非一个动物从不把行为完全固定在最优行为上。图12表示的就是这样的一个例子。有试验证明脊椎动物的行为就是如此,(Bush和Wilson对圆尾斗鱼的试验,1956;Roberts对老鼠的试验;以及Krebs,Kacelnik和Taylor对大山雀的试验)。
1704422519
1704422520
1704422521
1704422522
1704422523
图12 两个武装的强盗博弈中,对RPS学习规则的模拟。B1表示采用较低回报概率的武器,采取行为B1的概率在图中表示为试验次数的函数,图中每一条曲线表示30个重复试验中的一个。采取不同武器所带来回报的概率值分别为0.1和0.4。剩余值r1和r2等于0.25,且m=0.95。(After Harley,1981)
1704422524
1704422525
(2)鹰鸽博弈。图13表示由30个个体组成的种群进行鹰鸽博弈的模拟行为。种群平均值靠近ESS,即以80%的概率采取鸽策略。但是还有相当一部分个体一直采取鹰策略或一直采取鸽策略。这种现象的发生主要是因为在ESS状态下,期望回报值是相等的,于是个体没有动机去改变自己的行为。但是也偶然存在一些动物在起初时由于采取一个策略或另一个策略而使自己的境况得到改善。
1704422526
1704422527
1704422528
1704422529
1704422530
图13 鹰鸽博弈中,对RPS学习规则的模拟。图中的实线表示在一个30个个体构成的种群中,20个个体采取鸽策略的概率;虚线表示种群的平均值。博弈的ESS为(☆)P(D)=0.8。(After Harley,1981)
1704422531
1704422532
(3)种群竞食博弈。这是Milinsky(1979)对刺鱼试验的一个模拟。在鱼缸中有六条鱼,使用丹弗尼鱼食从鱼缸的两端进行喂养,但在鱼缸的一端喂养的频率是另一端的两倍。只有当没有一条刺鱼能够通过改变自身在鱼缸中的位置而获得更多食物的时候,这个博弈的ESS才会出现,那就是四条刺鱼处于喂养频率较高的一段,而另两条刺鱼处于另一端。图14表示了这种实验的结果。从统计数据上看,刺鱼所处的位置正是根据我们所预测的ESS来分布的,或者更精确地说,是根据Fretwell和Lucas(1970)所说的“理想自由分布(ideal free distribution)”来分布其所处位置的。“理想自由分布”这个概念将在本书第七章进行更为深入的讨论。但是,也如所预料的那样,个别的刺鱼还是会不断地从鱼缸的一端游向另一端,因为动物总是很自然地认为鱼缸两端的相对收益率不会总是保持不变那样。事实上,Milinsky在每一次实验的过程之中,的确调换过鱼缸两端的喂食频率,而且刺鱼自身位置的分布也相应地对做出了调整。
1704422533
1704422534
1704422535
1704422536
1704422537
图14 Milinsky(1979)刺鱼试验的结果。●表示11次实验的平均值,每次实验有6条刺鱼;图中的短横线表示了标准差。实心箭头表示开始喂食的时刻;空心箭头表示变换两端喂食频率的时刻;虚线表示根据“理想自由分布”预测的位于初始较低收益端的刺鱼数量。
1704422538
1704422539
Harley假设这些鱼具有RPS学习规则,模拟了Milinsky的刺鱼试验并得到了极其相似的结果。图15表示了对实验序列进一步的模拟,表明了剩余值相对于期望回报变化的效应。当剩余值很小时(如图15b),动物个体会非常快地把位置固定于一端或另一端;当剩余值较大时(如图15c),动物个体将保持较长时间的探索与尝试。但是,在所有的情形下,种群的平均值总是逐渐地向ESS靠拢。这幅图阐明了一种预测,这种预测可以在如同Milinsky那样设计的刺鱼实验中得到检验。饥饿刺鱼的行为必然如图15b所示,而喂饱刺鱼的行为必然如图15c所示。虽然,Milinsky未曾检验过他的预测,但是仍然存在与其预测结果相吻合的数据(Heller和Milinsky,1979)。
1704422540
1704422541
(4)同时发生的可变间距博弈。这个博弈一般在鸽子与实验心理学家之间发生。和两个武装强盗的博弈一样,存在两个可能的策略选择,比如“左端”策略和“右端”策略。每一个策略在每一次试验中,递送一个食物的概率是固定不变的。但是如果在任何试验中动物都选择“左端”策略,右端仍将以其固定的概率递送食物,虽然这一食物对动物而言,既难以获得又不可见。但食物将保存在那里,并在动物下一次选择“右端”策略时获得该食物。并且一旦食物在某一端出现,将没有更多的食物会递送到这一端,直到这些食物被吃掉为止。
1704422542
1704422543
1704422544
1704422545
1704422546
1704422547
1704422548
1704422549
[
上一页 ]
[ :1.7044225e+09 ]
[
下一页 ]