1704424528
1704424529
首先我们要说明的是,我们只需要考虑以下几种可选的策略序列,那就是CCCC……、DDDD……以及DCDC……这是因为除了这些策略之外,其他所有的策略在面对TFT策略时有没有更好的表现。
1704424530
1704424531
首先我们注意到TFT只有对博弈的一期记忆,并且在任何时刻,后继博弈的期望次数总是一个常数。如果I是面对TFT策略所采取的一个策略序列,在任何时刻I采取一次C策略就可以把整场竞争回复到最初状态。同样地,如果I采取的第一个策略是D,在以后任意时刻实施一次D策略也可以把整场竞争恢复到最初状态。
1704424532
1704424533
其次我们注意到如果I是TFT策略的最优反应,那么当最初的状态不断出现时,它必须采取第一步行动时它所采取的策略。如果在那个状态下存在一个更好的策略,那么它应该在一开始就采取过。
1704424534
1704424535
于是我们得到一个最优反应必须具备下列三种形式之一:
1704424536
1704424537
(1)首先采取策略C,于是最初的状态在第二次博弈中得以重复,并且策略C必须再次实施,并一以贯之。也就是说采取策略序列是CCCC……
1704424538
1704424539
(2)首先采取策略D,然后选择策略C。于是最初的状态在第三次博弈中得以重复,并且策略D必须再次实施,并按此规则一直进行。也就是说采取策略序列是DCDCDC……
1704424540
1704424541
(3)首先采取D策略,并且继续采取D策略,于是最初的状态在第三次博弈中得以重复,并且D会被一直实施下去。也就是说采取策略序列是DDDD……
1704424542
1704424543
现在,我们容易看出在三种可选择情形中,那一种场合可以侵害种群。
1704424544
1704424545
TFT策略面对其自身所得回报为:
1704424546
1704424547
R+wR+w2R+…=R/(1-w);
1704424548
1704424549
策略CCCC……面对TFT策略所得回报与上式相同,所以CCCC……不可能侵害种群;
1704424550
1704424551
策略DCDCDC……面对TFT策略所得回报为:
1704424552
1704424553
T+wS+w2T+w3S+…=(T+wS)/(1-w2)
1704424554
1704424555
策略DDDD……面对TFT策略所得回报为:
1704424556
1704424557
T+wP+w2P+…=T+wP/(1-w)
1704424558
1704424559
倘若不等式R/(1-w)≥(T+wS)/(1-w2)以及R/(1-w)≥T+wP/(1-w)成立,那么TFT就是一个ESS。这就是要求
1704424560
1704424561
1704424562
1704424563
且
1704424564
1704424565
于是,如果w足够大,那么以牙还牙策略就一定是博弈的ESS。
1704424566
1704424567
〔1〕 如果纯策略a,b,c……在混合策略I中以非零的概率被采取,那么我们就说纯策略a,b,c……是策略I的支撑。
1704424568
1704424569
1704424570
1704424571
1704424573
演化与博弈论 主要术语解释
1704424574
1704424575
“策略(strategy)”是指,一个个体在自己所知的处境中,对它将采取的行动作出的一个设定。一个策略可能是“纯”的也可能是“混合”的,后一种情形表明在行为设定中存在随机性的因素。
1704424576
1704424577
“行动(action)”是指,在一个特定的情形中,个体所表现的行为。
[
上一页 ]
[ :1.704424528e+09 ]
[
下一页 ]