打字猴:1.701315018e+09

1701315018 石头剪刀布博弈心理学 [:1701313746]

1701315019 石头剪刀布博弈心理学如果反复进行囚徒困境博弈，结果会怎样？

1701315020

1701315021 ～反复进行的囚徒困境博弈～

1701315022

1701315023 这次，我们稍微改变一下视角。如果将囚徒困境的博弈反复进行，会得到什么样的结果呢？被捕的犯罪嫌疑人，如果只给他们一次选择的机会，即只进行一次囚徒困境博弈的话，他们当然容易选择坦白，出卖同伙。但是，如果告知他们可以反复进行多次选择，那么他们是否愿意相信同伙，而选择沉默呢？

1701315024

1701315025 非常遗憾的是，不管进行多少次囚徒困境的博弈，局中人都不会选择相信同伙。我们将表4-8中的博弈模型反复进行100次。我们将“沉默”换成了“协作”，“坦白”换成了“背叛”。如果两个人都背叛对方，并且相互背叛100次的话，那他们各自的最终收益只有1。但是，如果一直相互协作的话，那么每次的收益都是3。说到这里，也许你会认为，如果两个人从相互协作开始，也许他们会一直协作下去，一共协作100次，因为只有如此，两人的收益才最大。但是，事情并不会发展得那么顺利。

1701315026

1701315027 如果两个局中人的思维都很正常，会合理地进行思考，那么，他们肯定会把注意的焦点放在最后一次博弈上。最后一次，与选择协作相比，选择背叛的收益会更高一些。因此，第100次博弈的最优反应应当是背叛。那么，第99次博弈呢？对第99次博弈的思考和第100次一样，所以，局中人还是会选择背叛。之所以前面的博弈有可能选择协作，是因为在局中人心中怀有一种淡淡的期待，他们心里想的是：也许下一次对方会选择协作。但是，他们知道第100次博弈时，自己和对方确实都会选择背叛。于是，第99次博弈就没有选择协作的理由了。也就是说，第99次博弈时选择背叛是最优反应。那么，第98次博弈呢？这样一次一次往前推导，结果就是第一次博弈时就应该选择背叛。由此可见，单纯增加博弈的次数，人也是难以逃出囚徒困境的。

1701315028

1701315029

1701315030

1701315031

1701315032 ～无限反复的囚徒困境博弈～

1701315033

1701315034 这次，我们不限定囚徒困境反复的次数，让它无限反复下去，结果又会怎样呢？在有限次数的反复中，局中人可能会在最后一次选择背叛。那么，如果没有最后一次的话，局中人会不会一直选择协作呢？即使我们无法让囚徒困境无限反复下去，但只要不明确设定最后一次就可以了。会合理思考的局中人愿意选择协作，是因为他们心中期待对方在下一次博弈中也选择协作。

1701315035

1701315036 我们将囚徒困境的模型以“协作”对“协作”的策略组合重复三次，看看会出现什么样的结果。在这3次囚徒困境的博弈中，A和B的累计收益都是9。但是，A突然在第4次博弈中选择了“背叛”，那么，非常生气的B在第5次博弈中也会选择“背叛”。结果，从第5次博弈开始，双方就以“背叛”对“背叛”的策略组合持续博弈下去，一共进行了10次博弈之后，双方就不愿再继续了。此时，A的累计收益是20，B的累计收益是15。如果双方在10次博弈中都选择“协作”，那么他们各自的累计收益都是30。如果一方中途选择了“背叛”，那么下一次对方肯定也会选择“背叛”，接下来的博弈就只能是“背叛”对“背叛”了。这样一来，也许就没有第11次博弈了。但是，如果双方一直选择“协作”，不仅各自的收益更高，而且还会有第11次、12次博弈，并且一直持续下去。也就是说，长远来说，只追求眼前利益，中途选择“背叛”，并不能让自己获得更高的收益。

1701315037

1701315038 不过，还有一种情况是我们不得不考虑的，那就是中途选择“背叛”会让局中人获得特别高的收益。这种情况下，一开始一方为了让对方感到安心，会故意选择“协作”，等对方放松警惕的时候，突然选择“背叛”让自己获得巨大的收益。这种例子在商业活动中很常见。比如，商品采购方和供货方之间的博弈中，有些图谋不轨的采购方一开始会小批量采购货物，并按时支付货款，以骗取供货方的信任。结果，突然有一次大量订货，待收到货物之后便消失得无影无踪了。在商业欺诈案件中，经常能见到类似的例子。所以，和不太熟悉的客户进行交易时一定要小心，尤其是对方突然下大额订单的时候，更要提高警惕。

1701315039

1701315040

1701315041

1701315042

1701315043

1701315044

1701315045

1701315046 石头剪刀布博弈心理学 [:1701313747]

1701315047 石头剪刀布博弈心理学在不断反复的囚徒困境中获得胜利的策略——“以牙还牙”

1701315048

1701315049 ～第一届囚徒困境大赛～

1701315050

1701315051 美国密歇根州州立大学有一位政治学教授——罗伯特·艾克斯罗德，他在博弈论方面的研究非常深入。关于囚徒困境，他曾经做过一个非常有趣的实验。罗伯特·艾克斯罗德组织了一场囚徒困境大赛，他想在众多策略中找出一种能够在不断重复的囚徒困境中获得胜利的策略。

1701315052

1701315053 他请社会学、经济学、数学等众多领域中对博弈论有研究的专家提出自己的制胜策略，最终一共收集到14组策略，再加上一组随机策略，参赛的总共有15组策略。其实，每一组策略就是一种规则或一种程序，它们会在不断重复的200次囚徒困境博弈中选择“协作”或者“背叛”。而每一次囚徒困境博弈就如下一页表4-9所示，是非常简单的囚徒困境模型。A、B相互协作的话，就各得3分；相互背叛的话，就各得1分。比赛结束后，按照累计收益得分为15组策略排名。

1701315054

1701315055 结果，这次比赛的第一名并不是什么复杂的策略，而是名为“Tit for Tat”的简单策略，翻译过来就是“以牙还牙”的策略。这个策略一开始选择“协作”，然后在下一次博弈中模仿对方上一次的策略。如果上次对方选择“背叛”，这次自己也选择“背叛”；上次对方选择“协作”，这次自己也选择“协作”，所以叫作“以牙还牙”的策略。

1701315056

1701315057 后来，罗伯特·艾克斯罗德还对得分高的策略与得分低的策略进行了对比。结果发现，得分高的策略有一个很明显的特征，那就是“自己不先背叛对方”。也就是说，自己绝不先于对方选择“背叛”，只有对方“背叛”我们之后，我们才能“背叛”对方。

1701315058

1701315059

1701315060

1701315061

1701315062 ～第二届囚徒困境大赛～

1701315063

1701315064 在得到前一小节介绍的结果之后，罗伯特·艾克斯罗德又举办了第二次囚徒困境大赛。这次一共征集到六个国家的62组策略。在学科领域上，除了参加第一届大赛的那些专业领域之外，还吸引了进化生物学、物理学、计算机学等专业的教授、专家参与。主办者罗伯特·艾克斯罗德向所有参赛者详细介绍了第一届大赛的情况和结果，在此基础上，让参赛者设计自己的策略。

1701315065

1701315066 结果，获得第二届大赛胜利的还是“以牙还牙”策略。当然，“以牙还牙”的策略能够胜出，可能跟主办方提供的这个囚徒困境模型的收益分配（5、3、1、0）存在很大的关系。如果把收益分值改动一下，也许其他策略就能获得更好的成绩。但是，这样的一个结果给我们带来了很多启发。

1701315067

[ 上一页 ] [ :1.701315018e+09 ] [ 下一页 ]