1704424509
1704424510
1704424511
1704424512
1704424513
图45 两策略非对称博弈的动态变化。(a)图描述了方程组(J. 2)的情况;(b)图描述了方程组(J. 1)的情况。
1704424514
1704424515
不幸的是,得出这种类型的博弈必然会达致一个稳定的多态这一结论并不可靠。如果在物种世代之间相互隔离的情况下,用差分方程来替代上述微分方程,那么就会像时间滞后的情形一样,存在一个很强的失稳效应。于是我们能够肯定的是这样的博弈可能导致振荡的行为。至于这样的振荡会趋于收敛还是导致发散则随着情况的不同而不同。
1704424516
1704424518
十一、重复博弈的囚徒困境
1704424519
1704424520
囚徒困境的博弈如表36所示。这场竞争由相同的两个局中人之间展开的一系列博弈所构成。在每一次博弈之后,下一场博弈出现的概率是w。这样,每场竞争所包含博弈的期望次数为1+w+w2+…=1/(1-W)。
1704424521
1704424522
表36 囚徒困境博弈
1704424523
1704424524
1704424525
1704424526
1704424527
以牙还牙的策略,即TFT策略,在第一次博弈中采取策略C,而在后继的所有博弈中,参与者都会采取对手在前一次博弈中所实施的策略。Axelrod(1981)证明只要博弈的次数足够多,那么策略TFT能够抵抗所有其他策略的侵害,是博弈的一个ESS。
1704424528
1704424529
首先我们要说明的是,我们只需要考虑以下几种可选的策略序列,那就是CCCC……、DDDD……以及DCDC……这是因为除了这些策略之外,其他所有的策略在面对TFT策略时有没有更好的表现。
1704424530
1704424531
首先我们注意到TFT只有对博弈的一期记忆,并且在任何时刻,后继博弈的期望次数总是一个常数。如果I是面对TFT策略所采取的一个策略序列,在任何时刻I采取一次C策略就可以把整场竞争回复到最初状态。同样地,如果I采取的第一个策略是D,在以后任意时刻实施一次D策略也可以把整场竞争恢复到最初状态。
1704424532
1704424533
其次我们注意到如果I是TFT策略的最优反应,那么当最初的状态不断出现时,它必须采取第一步行动时它所采取的策略。如果在那个状态下存在一个更好的策略,那么它应该在一开始就采取过。
1704424534
1704424535
于是我们得到一个最优反应必须具备下列三种形式之一:
1704424536
1704424537
(1)首先采取策略C,于是最初的状态在第二次博弈中得以重复,并且策略C必须再次实施,并一以贯之。也就是说采取策略序列是CCCC……
1704424538
1704424539
(2)首先采取策略D,然后选择策略C。于是最初的状态在第三次博弈中得以重复,并且策略D必须再次实施,并按此规则一直进行。也就是说采取策略序列是DCDCDC……
1704424540
1704424541
(3)首先采取D策略,并且继续采取D策略,于是最初的状态在第三次博弈中得以重复,并且D会被一直实施下去。也就是说采取策略序列是DDDD……
1704424542
1704424543
现在,我们容易看出在三种可选择情形中,那一种场合可以侵害种群。
1704424544
1704424545
TFT策略面对其自身所得回报为:
1704424546
1704424547
R+wR+w2R+…=R/(1-w);
1704424548
1704424549
策略CCCC……面对TFT策略所得回报与上式相同,所以CCCC……不可能侵害种群;
1704424550
1704424551
策略DCDCDC……面对TFT策略所得回报为:
1704424552
1704424553
T+wS+w2T+w3S+…=(T+wS)/(1-w2)
1704424554
1704424555
策略DDDD……面对TFT策略所得回报为:
1704424556
1704424557
T+wP+w2P+…=T+wP/(1-w)
1704424558
[
上一页 ]
[ :1.704424509e+09 ]
[
下一页 ]