1704422519
1704422520
1704422521
1704422522
1704422523
图12 两个武装的强盗博弈中,对RPS学习规则的模拟。B1表示采用较低回报概率的武器,采取行为B1的概率在图中表示为试验次数的函数,图中每一条曲线表示30个重复试验中的一个。采取不同武器所带来回报的概率值分别为0.1和0.4。剩余值r1和r2等于0.25,且m=0.95。(After Harley,1981)
1704422524
1704422525
(2)鹰鸽博弈。图13表示由30个个体组成的种群进行鹰鸽博弈的模拟行为。种群平均值靠近ESS,即以80%的概率采取鸽策略。但是还有相当一部分个体一直采取鹰策略或一直采取鸽策略。这种现象的发生主要是因为在ESS状态下,期望回报值是相等的,于是个体没有动机去改变自己的行为。但是也偶然存在一些动物在起初时由于采取一个策略或另一个策略而使自己的境况得到改善。
1704422526
1704422527
1704422528
1704422529
1704422530
图13 鹰鸽博弈中,对RPS学习规则的模拟。图中的实线表示在一个30个个体构成的种群中,20个个体采取鸽策略的概率;虚线表示种群的平均值。博弈的ESS为(☆)P(D)=0.8。(After Harley,1981)
1704422531
1704422532
(3)种群竞食博弈。这是Milinsky(1979)对刺鱼试验的一个模拟。在鱼缸中有六条鱼,使用丹弗尼鱼食从鱼缸的两端进行喂养,但在鱼缸的一端喂养的频率是另一端的两倍。只有当没有一条刺鱼能够通过改变自身在鱼缸中的位置而获得更多食物的时候,这个博弈的ESS才会出现,那就是四条刺鱼处于喂养频率较高的一段,而另两条刺鱼处于另一端。图14表示了这种实验的结果。从统计数据上看,刺鱼所处的位置正是根据我们所预测的ESS来分布的,或者更精确地说,是根据Fretwell和Lucas(1970)所说的“理想自由分布(ideal free distribution)”来分布其所处位置的。“理想自由分布”这个概念将在本书第七章进行更为深入的讨论。但是,也如所预料的那样,个别的刺鱼还是会不断地从鱼缸的一端游向另一端,因为动物总是很自然地认为鱼缸两端的相对收益率不会总是保持不变那样。事实上,Milinsky在每一次实验的过程之中,的确调换过鱼缸两端的喂食频率,而且刺鱼自身位置的分布也相应地对做出了调整。
1704422533
1704422534
1704422535
1704422536
1704422537
图14 Milinsky(1979)刺鱼试验的结果。●表示11次实验的平均值,每次实验有6条刺鱼;图中的短横线表示了标准差。实心箭头表示开始喂食的时刻;空心箭头表示变换两端喂食频率的时刻;虚线表示根据“理想自由分布”预测的位于初始较低收益端的刺鱼数量。
1704422538
1704422539
Harley假设这些鱼具有RPS学习规则,模拟了Milinsky的刺鱼试验并得到了极其相似的结果。图15表示了对实验序列进一步的模拟,表明了剩余值相对于期望回报变化的效应。当剩余值很小时(如图15b),动物个体会非常快地把位置固定于一端或另一端;当剩余值较大时(如图15c),动物个体将保持较长时间的探索与尝试。但是,在所有的情形下,种群的平均值总是逐渐地向ESS靠拢。这幅图阐明了一种预测,这种预测可以在如同Milinsky那样设计的刺鱼实验中得到检验。饥饿刺鱼的行为必然如图15b所示,而喂饱刺鱼的行为必然如图15c所示。虽然,Milinsky未曾检验过他的预测,但是仍然存在与其预测结果相吻合的数据(Heller和Milinsky,1979)。
1704422540
1704422541
(4)同时发生的可变间距博弈。这个博弈一般在鸽子与实验心理学家之间发生。和两个武装强盗的博弈一样,存在两个可能的策略选择,比如“左端”策略和“右端”策略。每一个策略在每一次试验中,递送一个食物的概率是固定不变的。但是如果在任何试验中动物都选择“左端”策略,右端仍将以其固定的概率递送食物,虽然这一食物对动物而言,既难以获得又不可见。但食物将保存在那里,并在动物下一次选择“右端”策略时获得该食物。并且一旦食物在某一端出现,将没有更多的食物会递送到这一端,直到这些食物被吃掉为止。
1704422542
1704422543
1704422544
1704422545
1704422546
1704422547
1704422548
1704422549
1704422550
1704422551
1704422552
图15 使用RPS学习规则的种群竞食博弈的模拟。实现表示个体行为的平均值;虚线表示种群行为的平均值;☆表示ESS状态。期望回报率由剩余值给出,分别为(a)中等、(b)较小、(c)较大(After Harley,1981)。
1704422553
1704422554
这是一个频率依赖类型的个体博弈,尝试这些策略的时间越长,所获回报的概率也就越高。如果补充食物的概率为p1和p2,且数值较小,那么很容易得到ESS,那就是以概率p1/(p1+p2)采取策略1。事实上,动物的确达致了ESS状态,且它们的行为与选择策略的概率与其所获得回报成正比这一理论依据相一致(Heyman,1979)。正如所预料的那样,计算机模拟也显示RPS学习规则能够使博弈达致ESS状态。这一点需要与两个武装强盗博弈中的“概率匹配(probability matching)”区别开来,“概率匹配”就是说选择某个武器的概率与到目前为止的选择该武器所带来的回报成正比。这显然是非效率的,而且也不会有动物采取这样的策略。
1704422555
1704422556
计算机模拟显示RPS学习规则很好地说明了在很大范围内存在的学习情形下的动物行为,包括种群博弈、频率依赖的个体博弈以及频率独立的个体博弈。但是,仍存在另外两个需要被考虑的内容,那就是非对称博弈和面对同一对手的重复博弈。Harley在其文章中没有报告这种竞争的模拟行为,但是在之后展开了对它们的研究(私人交流)。
1704422557
1704422558
首先,考虑一个进行鹰鸽博弈的种群,个体面对的对手是一个随机序列,并带有一个附加假设,每一场竞争都是非对称的,参与者时而处于A角色,时而处于B角色。参与这类博弈并具有RPS学习规则的动物构成的种群的模拟行为表示动物学习并取得了ESS,即处于角色A,则采取鹰策略;处于角色B,则采取鸽策略(或者,由于回报和所处角色并不相关,学习效应可能等概率地导致所有动物都采取与上述相反的策略)。
1704422559
1704422560
如果一个动物与每一个对手都进行过多次的博弈,假设个体识别是可能的,那么动物便会在不同的博弈场合中对不同的对手进行有区别的对待。对单个对手的一系列重复博弈的模拟显示,在一段时间之后,其中一个竞争者总是选择鹰策略,而其对手则一直选择鸽策略。所以在种群的情况下,一个参与竞争的动物个体对某些对手将采取鹰策略,而对另一些对手则采取鸽策略。在这样的情形下,对每一对对手,一个采取鹰策略而另一个采取鸽策略,那么相互搏斗的竞争场合会变得非常罕见。
1704422561
1704422562
但仍遗留了一个疑难的问题:在证明ES学习规则是ESS学习规则的必要条件中,我们假设博弈的回报对应于适应度的变化。如果我们愿意,我们便可将此用定义的形式予以明确,那就是,我们可以把一个特定行动的回报定义为由这个行动导致的期望后代数量的变化。于是我们留下的问题便是,参与者如何将某个行动的直接结果转化为适应度单位?这等于问,在图11(第62页)的模型中,某些化学物质的合成是怎样使其和适应度的变化成正比?在普通的演化博弈理论中,不会出现这样的难题,正是适应度的变化导致了在种群中表现型的相对频率的变化。与之相反的是,一个会学习的动物知道的是它是否处于饥饿,口渴或疼痛的状态,而不知道这些状态可能会对其未来的生育产生影响。
1704422563
1704422564
有两个一般性的结论如下所述。第一,上述难题并不是学习行为所特有的。如果某种动物的行为适合于其生存,那么不论这样的行为是学习而得还是本能所致,根据从适应度角度所言的特定种类行为的效用(McFarland,1974),都必然存在一个从外部感觉向内在动机状态的合适转换;第二点便是必然存在有利于那些能够最成功地运用这样的转换的动物的自然选择机制。一个能够执行“正确”行动的动物——从最大化适应度角度而言的正确——当同时经历饥饿、口渴和性冲动时,那么根据定义,它将留下最多的后代。当然,并不存在这样理想的转换系统,无论在什么情形下,能够一直保证正确的行为:飞蛾扑火、人类吸食海洛因而上瘾以及芦笛莺饲养杜鹃幼鸟。当所有回报都用同一货币单位去衡量,我们可以期望获得学术理论和实际观测的最好拟合,比如,如果在竞食理论中我们忽略掠夺行为的风险,就属于这种情形。
1704422565
1704422566
1704422567
1704422568
[
上一页 ]
[ :1.704422519e+09 ]
[
下一页 ]