打字猴:1.704424528e+09

1704424528

1704424529 首先我们要说明的是，我们只需要考虑以下几种可选的策略序列，那就是CCCC……、DDDD……以及DCDC……这是因为除了这些策略之外，其他所有的策略在面对TFT策略时有没有更好的表现。

1704424530

1704424531 首先我们注意到TFT只有对博弈的一期记忆，并且在任何时刻，后继博弈的期望次数总是一个常数。如果I是面对TFT策略所采取的一个策略序列，在任何时刻I采取一次C策略就可以把整场竞争回复到最初状态。同样地，如果I采取的第一个策略是D，在以后任意时刻实施一次D策略也可以把整场竞争恢复到最初状态。

1704424532

1704424533 其次我们注意到如果I是TFT策略的最优反应，那么当最初的状态不断出现时，它必须采取第一步行动时它所采取的策略。如果在那个状态下存在一个更好的策略，那么它应该在一开始就采取过。

1704424534

1704424535 于是我们得到一个最优反应必须具备下列三种形式之一：

1704424536

1704424537 （1）首先采取策略C，于是最初的状态在第二次博弈中得以重复，并且策略C必须再次实施，并一以贯之。也就是说采取策略序列是CCCC……

1704424538

1704424539 （2）首先采取策略D，然后选择策略C。于是最初的状态在第三次博弈中得以重复，并且策略D必须再次实施，并按此规则一直进行。也就是说采取策略序列是DCDCDC……

1704424540

1704424541 （3）首先采取D策略，并且继续采取D策略，于是最初的状态在第三次博弈中得以重复，并且D会被一直实施下去。也就是说采取策略序列是DDDD……

1704424542

1704424543 现在，我们容易看出在三种可选择情形中，那一种场合可以侵害种群。

1704424544

1704424545 TFT策略面对其自身所得回报为：

1704424546

1704424547 R＋wR＋w2R＋…＝R/（1－w）；

1704424548

1704424549 策略CCCC……面对TFT策略所得回报与上式相同，所以CCCC……不可能侵害种群；

1704424550

1704424551 策略DCDCDC……面对TFT策略所得回报为：

1704424552

1704424553 T＋wS＋w2T＋w3S＋…＝（T＋wS）/（1－w2）

1704424554

1704424555 策略DDDD……面对TFT策略所得回报为：

1704424556

1704424557 T＋wP＋w2P＋…＝T＋wP/（1－w）

1704424558

1704424559 倘若不等式R/（1－w）≥（T＋wS）/（1－w2）以及R/（1－w）≥T＋wP/（1－w）成立，那么TFT就是一个ESS。这就是要求

1704424560

1704424561

1704424562

1704424563 且

1704424564

1704424565 于是，如果w足够大，那么以牙还牙策略就一定是博弈的ESS。

1704424566

1704424567 〔1〕　如果纯策略a，b，c……在混合策略I中以非零的概率被采取，那么我们就说纯策略a，b，c……是策略I的支撑。

1704424568

1704424569

1704424570

1704424571

1704424572 演化与博弈论 [:1704421384]

1704424573 演化与博弈论主要术语解释

1704424574

1704424575 “策略（strategy）”是指，一个个体在自己所知的处境中，对它将采取的行动作出的一个设定。一个策略可能是“纯”的也可能是“混合”的，后一种情形表明在行为设定中存在随机性的因素。

1704424576

1704424577 “行动（action）”是指，在一个特定的情形中，个体所表现的行为。

[ 上一页 ] [ :1.704424528e+09 ] [ 下一页 ]