打字猴:1.704424517e+09

1704424517 演化与博弈论 [:1704421383]

1704424518 十一、重复博弈的囚徒困境

1704424519

1704424520 囚徒困境的博弈如表36所示。这场竞争由相同的两个局中人之间展开的一系列博弈所构成。在每一次博弈之后，下一场博弈出现的概率是w。这样，每场竞争所包含博弈的期望次数为1＋w＋w2＋…＝1/（1－W）。

1704424521

1704424522 表36　囚徒困境博弈

1704424523

1704424524

1704424525

1704424526

1704424527 以牙还牙的策略，即TFT策略，在第一次博弈中采取策略C，而在后继的所有博弈中，参与者都会采取对手在前一次博弈中所实施的策略。Axelrod（1981）证明只要博弈的次数足够多，那么策略TFT能够抵抗所有其他策略的侵害，是博弈的一个ESS。

1704424528

1704424529 首先我们要说明的是，我们只需要考虑以下几种可选的策略序列，那就是CCCC……、DDDD……以及DCDC……这是因为除了这些策略之外，其他所有的策略在面对TFT策略时有没有更好的表现。

1704424530

1704424531 首先我们注意到TFT只有对博弈的一期记忆，并且在任何时刻，后继博弈的期望次数总是一个常数。如果I是面对TFT策略所采取的一个策略序列，在任何时刻I采取一次C策略就可以把整场竞争回复到最初状态。同样地，如果I采取的第一个策略是D，在以后任意时刻实施一次D策略也可以把整场竞争恢复到最初状态。

1704424532

1704424533 其次我们注意到如果I是TFT策略的最优反应，那么当最初的状态不断出现时，它必须采取第一步行动时它所采取的策略。如果在那个状态下存在一个更好的策略，那么它应该在一开始就采取过。

1704424534

1704424535 于是我们得到一个最优反应必须具备下列三种形式之一：

1704424536

1704424537 （1）首先采取策略C，于是最初的状态在第二次博弈中得以重复，并且策略C必须再次实施，并一以贯之。也就是说采取策略序列是CCCC……

1704424538

1704424539 （2）首先采取策略D，然后选择策略C。于是最初的状态在第三次博弈中得以重复，并且策略D必须再次实施，并按此规则一直进行。也就是说采取策略序列是DCDCDC……

1704424540

1704424541 （3）首先采取D策略，并且继续采取D策略，于是最初的状态在第三次博弈中得以重复，并且D会被一直实施下去。也就是说采取策略序列是DDDD……

1704424542

1704424543 现在，我们容易看出在三种可选择情形中，那一种场合可以侵害种群。

1704424544

1704424545 TFT策略面对其自身所得回报为：

1704424546

1704424547 R＋wR＋w2R＋…＝R/（1－w）；

1704424548

1704424549 策略CCCC……面对TFT策略所得回报与上式相同，所以CCCC……不可能侵害种群；

1704424550

1704424551 策略DCDCDC……面对TFT策略所得回报为：

1704424552

1704424553 T＋wS＋w2T＋w3S＋…＝（T＋wS）/（1－w2）

1704424554

1704424555 策略DDDD……面对TFT策略所得回报为：

1704424556

1704424557 T＋wP＋w2P＋…＝T＋wP/（1－w）

1704424558

1704424559 倘若不等式R/（1－w）≥（T＋wS）/（1－w2）以及R/（1－w）≥T＋wP/（1－w）成立，那么TFT就是一个ESS。这就是要求

1704424560

1704424561

1704424562

1704424563 且

1704424564

1704424565 于是，如果w足够大，那么以牙还牙策略就一定是博弈的ESS。

1704424566

[ 上一页 ] [ :1.704424517e+09 ] [ 下一页 ]