打字猴:1.70103846e+09
1701038460 从这一点看,概率论就引进了另一种混合策略。不仅仅是参与者持有混合策略,备选的可行概率分布也会变化。科学家描述博弈持有一种“混合策略”,那就是对于博弈结果的可行预测。
1701038461
1701038462 “当你想到这个的时候,觉得显而易见,”沃尔波特说,“如果给你一场真人参加的博弈,不,你就不会总是得到同一种结果。你会得到不止一种可能出现的结果……他们不可能总是以完全一样的那套混合策略去结束博弈。对于他们使用的混合策略会出现一个分布现象,就像在其他科学问题中一样”。
1701038463
1701038464 显然这个想法已经将博弈论带到了一个新的水平。当每个参与者都有自己的一个混合策略时,科学家描述该博弈用到的一个纯策略的概率分布应该估计所有参与者的所有混合策略的概率分布。然而你如何找出那些混合策略的概率分布呢?当然,得通过最大化你的无知。如果你想对待概率论就好像其中的参与者就是微粒,假设他们策略的概率分布最好的方法就是最大化不确定性(或者用信息论中的专业术语,熵)。使用这个方法,你不需要假设博弈中的参与者们理性有限;这种“有限”自然地出现在信息论的准则中。如果给你一个关于该博弈可能结果的概率分布,那么你就能够用决策论原理来选择哪种结果是你预测的。
1701038465
1701038466 “当你需要一个预测时,概率分布却不需要,”沃尔波特说,“你不得不决定发射导弹或者不发射;向左转还是向右转。”做这样一种决定的数学基础、根本原则是由雷纳德·萨维奇(Leonard Savage)于20世纪50年代比较精确地发展出来的,但是他们却对诸如帕斯卡赌注之类的问题刨根问底。如果你知道一个可能结果的概率分布,但是却不足以过滤掉一些可能性来得到一个单一的预测结果,你就需要考虑如果你决策错(或对)了你不得不失去(或得到)什么。
1701038467
1701038468 “如果你预测出X,但是真实的结果却是Y,你的损失会是多少?或者反过来,你能获得什么好处?”沃尔波特解释道,“有些误判不会给你带来多少损失,这取决于真实结果是什么。但是在其他情况下,你对于真实结果的预测可能导致各种各样的问题——例如你现在已经发动了第三次世界大战。”
1701038469
1701038470 决策论要求你做出的预测应该能使你的预期损失达到最小(“预期”意味着与最终选择相关的可能性都被考虑在内——你将所有可能性造成的损失量平均化了)。结果,沃尔波特观察到不同的观察者会对一场博弈的结果做出不同的预测,即使在可能结果的概率分布是一样的情况下,因为在一些特定的错误预测中一些参与者可能比其他人损失得更多。
1701038471
1701038472 “换言之,对于一模一样的博弈,作为一个局外人你的决策如何去预测将取决于你的损失函数,”他说。那就意味着最佳预测不是博弈中建立的均衡点,而是依赖于“那些剥离于博弈之外的对于结果进行预测的局外人。”因此,有时候最有可能的博弈结果不是一个纳什均衡。
1701038473
1701038474 但为什么不是呢,如果一个纳什均衡代表一个稳定的结果,即在没有人有改变想法的动机的情况下。好像人们会总是变换着他们的策略指导他们不想这么做为止。但是当博弈论放在关于最大熵值的信息-假设等式中时,答案是明确的。等式中的一个符号代表了计算出最优策略的成本,并且在一场复杂的博弈中,这个成本可能会非常高。换个说法,一个参与者想得到最大回报就必须将一个成本考虑在内,那就是计算出得到这个回报他必须付出什么。参与者得到的收益并不是期望收益,而是期望收益减去计算出它所需的成本。
1701038475
1701038476 另外,个人的差异能够影响该计算。最大无知法(就是最大化不确定性)的数学推导中包含了另一个因素,它可以被理解为一个参与者的热度。热度将无知(或不确定性)与计算策略的成本联系起来——对要做的事情具有更多的不确定性就意味着搞清楚这些事需要更高的代价。较低的热度表明一个专注于寻找最优策略的参与者不关注其计算成本;而高热度的参与者将对可能的策略进行更多的探索。
1701038477
1701038478 “那么这个意思,”沃尔波特又解释,“就是,字面上真的会存在纯理性的人,他们总是做那些最可行的事情,他们是冰冷的——是冷酷的。反之一些人做任何事都是满世界的转,期望尝试各种可能的方法,他们是火热的。这个恰巧不在数学考虑范畴之内。这甚至都不算是个比喻;它事实就是这样的。”热度,换个说法,代表了非理性的一种量化。在一种气体中,较高温度意味着分子不处于它们能量最小化状态的可能性更高。之于博弈参与者,较高热度意味着他们不会最大化自己收益的可能性更大。
1701038479
1701038480 “这个类比是说你有可能进入一个非纯理性的状态,”沃尔波特说,“这是完全一样的事情。降低能量就是提高收益。”你还是可以运用策略来增加你的收益,但是增加多少就看你的热度有多高了。
1701038481
1701038482 深入到关键部位,最大熵的数学方法告诉你博弈参与者将会限制理性——这不是你不得不假设的事情。由于一些局外人而非局内人接受这个观点,它就自然而然发生了。
1701038483
1701038484 “这很关键,”沃尔波特强调,“博弈论总是将概率论包含其中,因为参与者使用混合策略,但是博弈论却从未真正地将概率论作为一个整体来应用。此即为传统博弈论中的一个大漏洞。”
1701038485
1701038486 最终,提出参与者热度这个概念就能对于真实的选手参与现实的博弈进行更好的预测了。在那个学生成绩案例中的概率分布,最大熵值就表示所有的成绩分布都是可能的。但是如果你对学生有所了解——也许他们都是优秀学生,每次考试成绩都在B以上——这样你就能通过将这个信息加入方程来调整最终的概率分布。如果你了解一些参与者的热度状况——如习惯于探索不同的可能策略——你就能够将此信息也考虑到算法中,来改善你的概率分布。在伯克利大学和普度大学同行的共同努力下,沃尔波特正开始在真实人群中检验这个观点——或者至少是在大学生中进行。
1701038487
1701038488 “我们已经在本科生身上进行了一些实验,实验中我们实际上关注了他们的热度状况,在一组重复的游戏中——此案例中为投票游戏——然后观察他们的热度状况随时间推移是如何变化的。他们实际上是变得更理性了还是没那么理性了?不同个体的热度状况之间又有什么联系?当你变得不那么理性的时候我是不是变得更理性了?”
1701038489
1701038490 举个例子,如果一个参与者总是做出一样的选择,这个行为使得其对手更容易判断他/她的举动。“这就很直观地表明如果你的热度状况下降,我的就会上升,”沃尔波特说,“所以我们进行这些实验的意图实际上是想找出那些影响。”
1701038491
1701038492 纳什均衡与博弈论:纳什博弈论及对自然法则的研究 [:1701036551]
1701038493 第五节 心理史学的视角
1701038494
1701038495 这些实验,在我看来,应加入那些行为博弈论者和实验经济学者们已经积累的(包括)关于人类行为方面的知识。这听起来就像是沃尔波特在说,为了改进博弈论的预测能力,所有这种知识都该加入到概率分布公式中。但是在我能问我脑中究竟想到什么解决办法之前,他就推出这精密的理论准确地将我带到了我想去的地方。
1701038496
1701038497 “让我们这么说,你对心理学有所了解,并且你已经从实验得到一些结果,”他说,“而且在这里面(概率分布公式中)你实际上还有其他一些东西,除了知道人们都有热度这个属性之外。你也了解一些他们风险规避的程度,以及这个、那个,等等。你不是只有热度这一个特征;你还有很多其他方面的特征。”
1701038498
1701038499 加入这些有关真实人的知识到公式中后就降低了无知度,而正是依靠无知度我们才能得到原始概率分布。所以,除了基于所有可能混合策略的预测,你还将得到更能反映真人参与情况下的预测结果。“正式地说,这实际上是将博弈论和心理学结合起来了,”沃尔波特说,“结合用来处理激励和效益函数及回报的数学模型来定量单个个人的行为。”
1701038500
1701038501 沃尔波特开始谈论股票市场预期走势中的概率分布问题,然后几乎是旁白一样,揭示出其更广阔的用途。“从艾萨克·阿西莫夫的观点说,就是一种试图得到研究心理史学的数学能力的一种途径,”沃尔伯特说,“换言之,它有潜力——也就是还没实现——有潜力成为研究人类行为的物理学。”
1701038502
1701038503 就像我先前怀疑的,阿西莫夫的心理史学和博弈论中的行为学间存在着隐含的相似性,而事实上这相似性反映出一些普遍的、根本性的数学原理。是数学融合了博弈论和统计物理学。所以,沉浸在沃尔波特所说的话中,我意识到,除了心理史学或社会物理学或自然法则,有一个更好的方法适用于人类行为的科学研究。那应该是博弈物理学(游戏开发物理学)。
1701038504
1701038505 唉,“博弈物理学(游戏开发物理学)”已经被使用了——它已经是一个专业术语,被计算机程序员们用来描述模拟电视游戏中物体如何移动,以及如何蹦来蹦去的动作。但是它也很好地抓住了心理史学或社会物理学的真谛。结合了统计物理学的博弈论,博弈的物理学,是社会的科学。
1701038506
1701038507
1701038508
1701038509
[ 上一页 ]  [ :1.70103846e+09 ]  [ 下一页 ]