1704424518
十一、重复博弈的囚徒困境
1704424519
1704424520
囚徒困境的博弈如表36所示。这场竞争由相同的两个局中人之间展开的一系列博弈所构成。在每一次博弈之后,下一场博弈出现的概率是w。这样,每场竞争所包含博弈的期望次数为1+w+w2+…=1/(1-W)。
1704424521
1704424522
表36 囚徒困境博弈
1704424523
1704424524
1704424525
1704424526
1704424527
以牙还牙的策略,即TFT策略,在第一次博弈中采取策略C,而在后继的所有博弈中,参与者都会采取对手在前一次博弈中所实施的策略。Axelrod(1981)证明只要博弈的次数足够多,那么策略TFT能够抵抗所有其他策略的侵害,是博弈的一个ESS。
1704424528
1704424529
首先我们要说明的是,我们只需要考虑以下几种可选的策略序列,那就是CCCC……、DDDD……以及DCDC……这是因为除了这些策略之外,其他所有的策略在面对TFT策略时有没有更好的表现。
1704424530
1704424531
首先我们注意到TFT只有对博弈的一期记忆,并且在任何时刻,后继博弈的期望次数总是一个常数。如果I是面对TFT策略所采取的一个策略序列,在任何时刻I采取一次C策略就可以把整场竞争回复到最初状态。同样地,如果I采取的第一个策略是D,在以后任意时刻实施一次D策略也可以把整场竞争恢复到最初状态。
1704424532
1704424533
其次我们注意到如果I是TFT策略的最优反应,那么当最初的状态不断出现时,它必须采取第一步行动时它所采取的策略。如果在那个状态下存在一个更好的策略,那么它应该在一开始就采取过。
1704424534
1704424535
于是我们得到一个最优反应必须具备下列三种形式之一:
1704424536
1704424537
(1)首先采取策略C,于是最初的状态在第二次博弈中得以重复,并且策略C必须再次实施,并一以贯之。也就是说采取策略序列是CCCC……
1704424538
1704424539
(2)首先采取策略D,然后选择策略C。于是最初的状态在第三次博弈中得以重复,并且策略D必须再次实施,并按此规则一直进行。也就是说采取策略序列是DCDCDC……
1704424540
1704424541
(3)首先采取D策略,并且继续采取D策略,于是最初的状态在第三次博弈中得以重复,并且D会被一直实施下去。也就是说采取策略序列是DDDD……
1704424542
1704424543
现在,我们容易看出在三种可选择情形中,那一种场合可以侵害种群。
1704424544
1704424545
TFT策略面对其自身所得回报为:
1704424546
1704424547
R+wR+w2R+…=R/(1-w);
1704424548
1704424549
策略CCCC……面对TFT策略所得回报与上式相同,所以CCCC……不可能侵害种群;
1704424550
1704424551
策略DCDCDC……面对TFT策略所得回报为:
1704424552
1704424553
T+wS+w2T+w3S+…=(T+wS)/(1-w2)
1704424554
1704424555
策略DDDD……面对TFT策略所得回报为:
1704424556
1704424557
T+wP+w2P+…=T+wP/(1-w)
1704424558
1704424559
倘若不等式R/(1-w)≥(T+wS)/(1-w2)以及R/(1-w)≥T+wP/(1-w)成立,那么TFT就是一个ESS。这就是要求
1704424560
1704424561
1704424562
1704424563
且
1704424564
1704424565
于是,如果w足够大,那么以牙还牙策略就一定是博弈的ESS。
1704424566
[
上一页 ]
[ :1.704424517e+09 ]
[
下一页 ]