打字猴:1.701028605e+09
1701028605
1701028606 [1]贝尔(Behr 1981)用这一标准重新计算了第一轮计算机“囚徒困境”的分数。他指出,在某些环境中,比赛者试图将他们的相对而非绝对得分最大化。然而,依照这种解释,比赛就不再是“囚徒困境”,而是一种零和博弈,在这种零和博弈中“总是背叛”是在任何w值的情况下的唯一的超优策略。
1701028607
1701028608 [2]对策者的这两种比较标准可以采用以下规范表述方式:用表达式V(A|B)代表当策略A与策略B相遇时策略A的期望值。人们共同的错误是将V(A|B)与V(B|A)作比较,然后试图使自己比对手做得更好。正如在竞赛结构中所反映的比赛的本来目的是在与其他所有对策者相遇时获得最高可能的得分,即与所有策略B相遇后V(A|B)的平均值的最大化。当遇到使用特别策略B的对策者,一个好的比较标准是看你是否做得尽可能的好。与同一个策略B相遇,策略A的表现应和策略A′的表现相比较,即V(A|B)与V(A′|B)相比较。总之,你采用的应该是在与所有的策略B相遇后平均得分最高的策略。
1701028609
1701028610 [3]更多的有关吉普赛人与非吉普赛人之间的关系的论述,参见Kenrick and Puxon(1972),Quintana and Floyd(1972),Acton(1974),Sway(1980)。
1701028611
1701028612 [4]这一小群体的作用的例子基于w=0.9,T=5,R=3,P=1,S=0。
1701028613
1701028614
1701028615
1701028616
1701028617 合作的进化(修订版) [:1701027610]
1701028618 合作的进化(修订版) 第七章 如何促进合作
1701028619
1701028620 这一章是从改革者的角度来看问题。本章提出的问题是为了促进参与者之间的合作,策略的环境本身要如何改变。上一章是从一个不同的角度考虑如何给处于一个给定环境的个体提建议。如果策略环境允许个体之间有足够长时间的接触,那么这些建议指出了为什么一个自私者在即使存在短期不合作的激励的情况下会愿意合作。但是如果这种接触不是持续性的,那么一个自私者将会通过短期的利益而得到好处,即背叛。然而这一章不考虑给定的策略环境,而是探讨如何通过改变策略的环境本身,例如通过增大未来的影响,来促进合作。
1701028621
1701028622 通常人们认为合作是件好事,从对局者本身的眼光考虑这是很自然的。毕竟双方合作在“囚徒困境”中对双方都有好处。所以,本章是用如何促进合作的观点来写的。然而如前面说过的,在一些情形中人们要做的却恰恰相反。为了防止公司联手固定价格或者防止潜在的敌人协调他们的行动,人们需要做破坏合作的事。
1701028623
1701028624 “囚徒困境”本身来源于这样一种情形。两个同案犯被逮捕并被分别审讯。他们可以坦白罪行而背叛对方,以期得到较轻的惩罚。但是如果他们两人都供认,那么这个坦白就不那么值钱了。另一方面,如果他们俩相互合作,拒绝供认,地方检察官只能给他们一个很小的惩罚。假设他们俩都不会因为告密而感觉道德上的不安或害怕,那么收益情况能构成“囚徒困境”(Luce and Raiffa 1957,pp.94—95)。从社会的观点看,这两个同案犯最好不要不久又在同样的情况下被抓,因为只有这样他们才能通过出卖对方得到个人的好处。
1701028625
1701028626 只要这种接触不是重复的,合作就非常困难,这就是为什么促进合作的一个重要方法,就是安排两个人再次见面,使他们能相互认识,并能回忆起对方至今是如何行为的。正是持续的接触,使基于回报的合作的稳定成为可能。促进双方合作可以从三个方面着手:使得未来相对于现在更重要些;改变对策者的四个可能的结果的收益值;教给对策者那些促进合作的准则、事实和技能。
1701028627
1701028628 增大未来的影响
1701028629
1701028630 如果未来相对于现在是足够重要的话,双方的合作就会是稳定的。因为每个对策者可以用隐含的报复来威胁对方,如果相互之间的接触时间持续足够长,使得这种威胁能够奏效的话。用数值的例子来说明这是如何进行的能使增加未来的影响的不同方法系统化。
1701028631
1701028632 如前所述,假设下一步所得到的收益只是当前步得到同样收益的一个固定的百分比。这个折扣系数w反映了为什么未来不如现在重要的两个理由。首先,对策的任何一方可能去世、破产或迁移,或者这个关系由于其他原因而终止。因为这些因素是不能明确预测的,所以下一步就不如当前步重要,有时还可能没有下一步。另一个未来没有现在重要的原因是,每个人都愿意今天就得到一定的好处,而不愿等到明天去得到同样的好处。这些因素结合起来就使得下一步没有当前重要。
1701028633
1701028634 数值的例子是我们熟悉的“重复囚徒困境”,它的收益值如下:当对方合作你背叛时则得到“诱惑”T=5,双方合作得到“奖励”R=3,双方背叛得到“惩罚”P=1,对方背叛你合作时则得到“笨蛋”的收益S=0。暂时先假设下一步的收益只相当于当前步的90%,即w=0.9。那么,如果对方采用“一报还一报”策略,你背叛就没有好处,这个结果可以从关于“一报还一报”什么时候是集体稳定的命题2直接得到。但我们可以再算算看是怎么回事。当遇到“一报还一报”策略时,你从不背叛,那么,你每一步得分是R。考虑到折扣率,它的累计期望得分是R+wR+w2R+w3R…,即R/(1-w),在R=3,w=0.9时,这个得分是30分。
1701028635
1701028636 你不能比这做得更好了。如果你总是背叛,你在第一步得到富有诱惑的T=5。但在此之后,你只能得到对背叛的惩罚P=1,这个积累值是14分。[1]这显然没有你通过合作得到的30分好。你也可以试试采用背叛和合作交替的策略,重复地每两步占“一报还一报”一次便宜。但代价是每两步中有一步你要被占便宜,这时的得分是26.3分。[2]这虽然比总是背叛的14分好,但比与“一报还一报”总是合作的30分差。命题2的含义是:如果这两个策略与“一报还一报”的对策结果没能比双方合作好,那么,其他策略也不能。如果未来对现在有较大的影响,如折扣系数为90%,那么,与采用“一报还一报”的人合作是有好处的。正因为这样,采用“一报还一报”是有好处的。因此,在未来的影响较大的情况下,基于回报的合作是稳定的。
1701028637
1701028638 当未来的影响不是这么大时,情况就有所变化。假设折扣系数从90%变成30%,这个减少可能是由于终止相互接触的可能性变大,或者由于对即时的利益比对以后的报酬有更大的偏好,或者由于两个因素的组合。另外,假设对方采用“一报还一报”,如果你合作,你每步将得到R,期望得分将和原来一样:R/(1-w)。但现在因为w值较低,它只值4.3分。你是否能做得更好?如果你总是背叛,第一步得T=5,以后的每步你得P=1,这个积累值是5.4分,它比你善良时所能得到的多。背叛与合作交替的策略做得更好,它得5.5分。所以当折扣系数不是足够高的话,合作就很可能被双方错过或者很快就消失掉。这个结果和采用“一报还一报”无关,因为第三章中的命题3表明,任何首先合作的策略只有在折扣系数足够大时才是稳定的。这意味着当未来相对于现在不是足够重要时,没有任何形式的合作是稳定的。
1701028639
1701028640 这个结论强调了促进合作的第一方法的重要性,即增大未来的影响。有两个基本的方法来做到这一点:使相互作用更持久和使相互作用更频繁。
1701028641
1701028642 最直接促进合作的方法是使相互作用更持久。例如,婚礼就是一个用来庆祝和促进持续关系的公共行为。相互作用的持久性不仅对相爱的人有用,对敌人也有用。能证明这一点的最令人吃惊的例子就是在第一次世界大战的堑壕战期间发展起来的“自己活也让别人活”的系统。正如第四章所述的堑壕战的与众不同之处在于,相同的小股部队要相互接触一段很长的时间。他们知道他们的相互接触将持续下去,因为没有人能到其他地方去。在更机动的战争中,一个小单位在每次战斗中可能遭遇不同的敌人单位。因此,你希望对方的个体或小单位将会在以后回报你而采取合作是没有好处的。但是在相对固定的战斗中,两个小单位之间的接触要持续一段相当长的时间。这种持续的接触,使得基于回报的合作是值得一试的,并且使合作得以建立。
1701028643
1701028644 另一个增大未来影响的方法是使接触更加频繁。在下一步接触很快就会发生的情况下,下一步就显然比通常更重要。这个接触速度的增加,自然反映在下一步相对于当前的重要性w的增加上来。
1701028645
1701028646 重要的是要知道折扣系数w是以这一步和下一步的相对重要性而不是以时间间隔为基础。因此,如果认为两年后的收益只值现在相同收益值的一半,那么,促进合作的一个办法就是使他们更经常接触。
1701028647
1701028648 增加两个给定的个体之间的相互接触频率的一个好方法是排除第三者。例如,当鸟类建立一个领地时就意味着它们只有少数的几个邻居。换句话说,它们将更经常地与这些邻近的个体打交道。在商业上也一样,一个有地方性基础的公司只和在同一地方的公司做买卖。同样,任何专业化公司也趋向于仅限于与少数几个公司接触以便使这种接触更加频繁。这就是为什么合作在小城镇比在大城市容易出现的一个原因。在某些行业中往往存在着限制竞争的默契,这也是为什么同类行业的公司都试图排斥那些可能扰乱这种默契的新公司。同样,一个巡回商人或打散工的人将更容易与那些定期见面的顾客建立合作关系。因此,原则总是一样的,经常接触有助于促进稳定的合作。
1701028649
1701028650 等级和组织在集中特殊个体之间的相互接触方面是特别有效的。官僚系统使人们的工作专业化,把做相关工作的人组织在一起。这种组织形式增加了相互接触的频度,使工作人员更容易建立起稳定的合作。另外当一个问题需要不同部门之间协调时,等级结构允许把这个问题提交给更高一级的政策制定者,这些人通常只处理这类问题。通过把人们束缚在长期的和多等级的游戏中,组织机构增加了未来相互接触的次数和重要性,因而促进了那些个人之间相互接触比较困难的大群体之间的合作的出现。进而导致了处理更大更复杂的问题的组织的进化。
1701028651
1701028652 集中的相互接触使得每个人只与其他少数几个人经常见面。在使得合作更稳定之外还有一个好处,即有助于合作的产生。正如第三章对小群体的论述,小群体的成员之间必须有一定的相互接触的比例。尽管他们主要是与大群体成员相互接触。前面的数据例子说明了采用“一报还一报”的小群体如何容易地侵入总是背叛的群体。在标准的收益值(T=5,R=3,P=1,S=0)和中等折扣系数(w=0.90)的情况下,小群体成员只要有5%与其他小群体成员接触的机会,就能使合作在一个“小人”的世界里产生。
1701028653
1701028654 集中接触是使两个人更经常见面的一个方法。在协商谈判中,另一个使接触更加频繁的方法是把问题分解成若干的部分。例如,可以将军备控制和裁军条约分解成许多阶段,这样就允许双方有更多步的相遇而不只是一两个大步。这样可以使回报更有效。如果双方都知道对方的一步不合适的策略可以通过下一步的回报来补偿,那么双方对整个过程可以按所期望的进行就更有信心。当然,军备控制的主要问题在于一方如何真正知道对方上一步干了什么,他们是合作地履行了他们的义务还是采用了欺骗手段进行背叛。但是如果双方对自己识别欺骗的能力缺乏信心,那么,有许多小的步骤比只有少数大的步骤更有助于促进合作。这种促进合作的稳定的分解是通过使当前步的欺骗所得少于以后的步骤中潜在的合作的所得来实现的。
[ 上一页 ]  [ :1.701028605e+09 ]  [ 下一页 ]