打字猴:1.704422509e+09

1704422509

1704422510 （2）离现在较近的试验相比前期的试验对行为具有更大的影响力。m值越小，对前期试验的记忆就越短。

1704422511

1704422512 （3）初始的行为完全决定于剩余比率ri。一个没有经验的动物可能有对某种特定的行为偏向。一个更为复杂精密的规则还允许根据经验来修正这些剩余比率。

1704422513

1704422514 （4）行为变化的速率取决于剩余ri以及回报Pi的相对大小。如果剩余值较大，动物将比较缓慢地改变它们起初没有经验的行为，与之形成对照的是，如果回报值比剩余值来得更大，那么动物会很快适应并以较高的概率采取某一特定的行为。从生物学的角度，其重要性如下所述：剩余表示对一个特定博弈的初始期望回报。如果实际的回报低于它，那么一个动物必然会不断改变它的行为。如果时间回报高于初始期望，那么动物一定会盯住这个有利可图的特定行为，这就等价于改变了其初始的随机行为。

1704422515

1704422516 Harley四种博弈的模拟行为如下：

1704422517

1704422518 （1）两个武装的强盗。这是一个频率依赖的博弈，在这个博弈中，存在两种可能的行为，B1和B2。这两个行为带来一笔钱财的概率始终不变，而这两个概率值一开始并不为其所知，但是能在试错的过程中被估计出来。在一个足够长的试验序列下，一旦知道了两个概率值，ESS总是采取具有较高回报概率的那个行为。这是由RPS学习规则所造成的，除非一个动物从不把行为完全固定在最优行为上。图12表示的就是这样的一个例子。有试验证明脊椎动物的行为就是如此，（Bush和Wilson对圆尾斗鱼的试验，1956；Roberts对老鼠的试验；以及Krebs，Kacelnik和Taylor对大山雀的试验）。

1704422519

1704422520

1704422521

1704422522

1704422523 图12　两个武装的强盗博弈中，对RPS学习规则的模拟。B1表示采用较低回报概率的武器，采取行为B1的概率在图中表示为试验次数的函数，图中每一条曲线表示30个重复试验中的一个。采取不同武器所带来回报的概率值分别为0.1和0.4。剩余值r1和r2等于0.25，且m＝0.95。（After Harley，1981）

1704422524

1704422525 （2）鹰鸽博弈。图13表示由30个个体组成的种群进行鹰鸽博弈的模拟行为。种群平均值靠近ESS，即以80％的概率采取鸽策略。但是还有相当一部分个体一直采取鹰策略或一直采取鸽策略。这种现象的发生主要是因为在ESS状态下，期望回报值是相等的，于是个体没有动机去改变自己的行为。但是也偶然存在一些动物在起初时由于采取一个策略或另一个策略而使自己的境况得到改善。

1704422526

1704422527

1704422528

1704422529

1704422530 图13　鹰鸽博弈中，对RPS学习规则的模拟。图中的实线表示在一个30个个体构成的种群中，20个个体采取鸽策略的概率；虚线表示种群的平均值。博弈的ESS为（☆）P（D）＝0.8。（After Harley，1981）

1704422531

1704422532 （3）种群竞食博弈。这是Milinsky（1979）对刺鱼试验的一个模拟。在鱼缸中有六条鱼，使用丹弗尼鱼食从鱼缸的两端进行喂养，但在鱼缸的一端喂养的频率是另一端的两倍。只有当没有一条刺鱼能够通过改变自身在鱼缸中的位置而获得更多食物的时候，这个博弈的ESS才会出现，那就是四条刺鱼处于喂养频率较高的一段，而另两条刺鱼处于另一端。图14表示了这种实验的结果。从统计数据上看，刺鱼所处的位置正是根据我们所预测的ESS来分布的，或者更精确地说，是根据Fretwell和Lucas（1970）所说的“理想自由分布（ideal free distribution）”来分布其所处位置的。“理想自由分布”这个概念将在本书第七章进行更为深入的讨论。但是，也如所预料的那样，个别的刺鱼还是会不断地从鱼缸的一端游向另一端，因为动物总是很自然地认为鱼缸两端的相对收益率不会总是保持不变那样。事实上，Milinsky在每一次实验的过程之中，的确调换过鱼缸两端的喂食频率，而且刺鱼自身位置的分布也相应地对做出了调整。

1704422533

1704422534

1704422535

1704422536

1704422537 图14　Milinsky（1979）刺鱼试验的结果。●表示11次实验的平均值，每次实验有6条刺鱼；图中的短横线表示了标准差。实心箭头表示开始喂食的时刻；空心箭头表示变换两端喂食频率的时刻；虚线表示根据“理想自由分布”预测的位于初始较低收益端的刺鱼数量。

1704422538

1704422539 Harley假设这些鱼具有RPS学习规则，模拟了Milinsky的刺鱼试验并得到了极其相似的结果。图15表示了对实验序列进一步的模拟，表明了剩余值相对于期望回报变化的效应。当剩余值很小时（如图15b），动物个体会非常快地把位置固定于一端或另一端；当剩余值较大时（如图15c），动物个体将保持较长时间的探索与尝试。但是，在所有的情形下，种群的平均值总是逐渐地向ESS靠拢。这幅图阐明了一种预测，这种预测可以在如同Milinsky那样设计的刺鱼实验中得到检验。饥饿刺鱼的行为必然如图15b所示，而喂饱刺鱼的行为必然如图15c所示。虽然，Milinsky未曾检验过他的预测，但是仍然存在与其预测结果相吻合的数据（Heller和Milinsky，1979）。

1704422540

1704422541 （4）同时发生的可变间距博弈。这个博弈一般在鸽子与实验心理学家之间发生。和两个武装强盗的博弈一样，存在两个可能的策略选择，比如“左端”策略和“右端”策略。每一个策略在每一次试验中，递送一个食物的概率是固定不变的。但是如果在任何试验中动物都选择“左端”策略，右端仍将以其固定的概率递送食物，虽然这一食物对动物而言，既难以获得又不可见。但食物将保存在那里，并在动物下一次选择“右端”策略时获得该食物。并且一旦食物在某一端出现，将没有更多的食物会递送到这一端，直到这些食物被吃掉为止。

1704422542

1704422543

1704422544

1704422545

1704422546

1704422547

1704422548

1704422549

1704422550

1704422551

1704422552 图15　使用RPS学习规则的种群竞食博弈的模拟。实现表示个体行为的平均值；虚线表示种群行为的平均值；☆表示ESS状态。期望回报率由剩余值给出，分别为（a）中等、（b）较小、（c）较大（After Harley，1981）。

1704422553

1704422554 这是一个频率依赖类型的个体博弈，尝试这些策略的时间越长，所获回报的概率也就越高。如果补充食物的概率为p1和p2，且数值较小，那么很容易得到ESS，那就是以概率p1/（p1＋p2）采取策略1。事实上，动物的确达致了ESS状态，且它们的行为与选择策略的概率与其所获得回报成正比这一理论依据相一致（Heyman，1979）。正如所预料的那样，计算机模拟也显示RPS学习规则能够使博弈达致ESS状态。这一点需要与两个武装强盗博弈中的“概率匹配（probability matching）”区别开来，“概率匹配”就是说选择某个武器的概率与到目前为止的选择该武器所带来的回报成正比。这显然是非效率的，而且也不会有动物采取这样的策略。

1704422555

1704422556 计算机模拟显示RPS学习规则很好地说明了在很大范围内存在的学习情形下的动物行为，包括种群博弈、频率依赖的个体博弈以及频率独立的个体博弈。但是，仍存在另外两个需要被考虑的内容，那就是非对称博弈和面对同一对手的重复博弈。Harley在其文章中没有报告这种竞争的模拟行为，但是在之后展开了对它们的研究（私人交流）。

1704422557

1704422558 首先，考虑一个进行鹰鸽博弈的种群，个体面对的对手是一个随机序列，并带有一个附加假设，每一场竞争都是非对称的，参与者时而处于A角色，时而处于B角色。参与这类博弈并具有RPS学习规则的动物构成的种群的模拟行为表示动物学习并取得了ESS，即处于角色A，则采取鹰策略；处于角色B，则采取鸽策略（或者，由于回报和所处角色并不相关，学习效应可能等概率地导致所有动物都采取与上述相反的策略）。

[ 上一页 ] [ :1.704422509e+09 ] [ 下一页 ]