打字猴:1.70103841e+09
1701038410
1701038411 夏农将这种数学方法广泛应用到任何一个信号传导系统中,从摩斯密码到烟雾信号。但是假设,例如你所想要做的就是发送给某人一条单字信息(这个字是从一本标准未删节的字典里选出的,大概字典里收录了50万字)。如果你告诉接收者这个信息中的单字来自该字典的前半部分,那么你就将这个字出现的可能性从50万字减少到了25万字。换言之,你将不确定性减半(这碰巧与一比特信息相符)。
1701038412
1701038413 基于信息降低不确定性的想法,夏农通过它来展示如何量化所有的通信。他发现了一个精确衡量不确定性的量的公式——不确定性越大,量就越大。夏农称其为熵,一个有意与统计物理学及热力学里使用的物理专业术语熵类似的概念。
1701038414
1701038415 物理学家使用的熵是用来度量物理体系混乱度。假设你有一个房间,里面包括分隔开的两个隔间,而且你在左边的隔间里放了100亿个氧分子,而在右边隔间里放了 400亿的氮分子。然后你移除隔间之间的分隔物。这些分子就会全部迅速混合到一起——更加无序——所以这个体系的熵就增加了。但是其他一些事也会随之发生——你不再知道这些分子在哪了。你对它们位置的无知随着熵的增大而增加。夏农展示出他计算通信中熵的公式——作为对无知或不确定性的量度——和统计物理学中描述微粒集合体中增加熵的公式完全如出一辙。
1701038416
1701038417 熵,换言之,与无知几乎等同。熵也是不确定性的同义词。信息理论提供了一种在概率分布中计算不确定性的新的精确的方法。
1701038418
1701038419 因此,当你对于你要研究的体系中的概率一无所知的时候,这里有一条线索指引你该如何去做。选择一个使熵值最大的概率分布!最大熵意味着最大的无知,而且如果你什么都不知道,无知就被限定为最大。假设出最大熵/无知不仅仅是假设;它是对你所处情况的真实陈述。
1701038420
1701038421 杰尼斯提出,这个最大无知的概念应该被提升到作为科学地描述任何事物的基本准则的层面。以他的观点,统计物理学本身便成为对于一个体系进行统计推论的系统。通过使用最大熵的方法,你仍可以使用所有统计物理学提供的计算规则,而无需在基本物理学方面假设任何前提。
1701038422
1701038423 特别地,你现在能够证明这个观念,即所有的可能性出现的概率都是等同的。整体思想为,没有任何一种概率(只要是遵守物理定律的)会被排除。你所获得的信息中没有被明确排除的任何情况都将被视为存在发生的可 能(在标准的统计物理学中,这种特征是无需证据而简单地被假设出的——整体的概率分布基于所有的分子均遵循各自的可能运动状态的概念)。而且,如果你一无所知,你不能说任何一个概率相较于另一个概率更可能出现——这是常识。
1701038424
1701038425 当然,如果你了解一些关于概率的知识,你可以将其融入你使用的概率分布去预测将来的未知。但是如果你对此一无所知,那供你用来预测将来的未知的就只剩一种概率分布了:这就是最大熵、最大不确定性、最大无知。毕竟,这种做法还是有意义的,因为一无所知,事实上,即最大无知。
1701038426
1701038427 听起来有些神奇,即使对面前的物体或人一无所知,你仍然可能做出预测。当然,你的预测可能不一定正确。但是,那仍然是当你不知从何做起时,你所能做的最好预测,你所能找寻的最近似的答案。
1701038428
1701038429 “概率分布将受制于某些限制的熵最大化,这成为解释分布推理使用的关键,”杰尼斯写道,“无论结果是否符合实验,它们仍然代表基于可用信息所能做的最佳预估。”
1701038430
1701038431 但是“熵的最大化”确切的含义是什么呢?简单的解释是,选择那些源于一切符合自然法则的可能性集合中的概率分布(既然你一无所知,你也就不能丢下任何可能的情况)。这里有一个简单的例子。假设你想预测一个有100名学生的班级所有人的平均成绩。你所知道的只有一般规则(即,自然法则)——每人都会得到一个成绩,且成绩被定为A、B、C、D或F(不允许任何未评)。你对学生的水平和努力程度一无所知。那么你对班里孩子们平均成绩的最好预测是什么呢?换言之,你如何找到一个成绩的概率分布来告诉你哪个平均成绩最有可能是真实的?
1701038432
1701038433 运用最大熵或最大无知原理,你简单假设成绩能分布的所有可能情况——所有可能组合出现的概率均等。例如,一种可能的分布是100个A而没有别的情况出现。另一种可能是全部的F。也可能是每种成绩都分别由20人获得。也可能是50个C、20个B、20个D、5个A和5个F。所有的组合情况全部加和到一起成为一个概率的集合,该集合由符合最大无知原理——对于班级以及学生和学生成绩的完全无知的所有概率分布组成。
1701038434
1701038435 在统计物理学里,这种情况被称之为“典范系综”——系统中分子的所有可能状态的集合。每一种组合都是一个微观状态。许多不同可能的微观状态(成绩的分布)与相同的平均值(宏观状态)一致。
1701038436
1701038437 不要试图列出所有可能的组合,那会消耗你大量的时间(你所涉及的数字可能大得接近10的70次方级别)。但是你能计算出,或者甚至可以凭直觉看出,最有可能的平均成绩就是C。在所有可能的微观状态组合中,出现平均成绩为C的概率比任何其他成绩的概率都要大很多。例如,只有一种情况下能得到完美的平均成绩为A——所有的100个学生都得到A。但是你得到平均成绩是C的情况却有很多——100个C、50个A和50个F,5个级别的成绩各有20人得到,等等。
1701038438
1701038439 就像扔硬币,一次扔4枚硬币,头像朝上的硬币数量相对于上例中的成绩(0就是F,4就是A)。在100次试验中,许多组合的平均值为2,而只有很少的情况平均值为0或4。因此,基于一无所知,你的预测为平均成绩是C。
1701038440
1701038441 纳什均衡与博弈论:纳什博弈论及对自然法则的研究 [:1701036550]
1701038442 第四节 回到博弈
1701038443
1701038444 在博弈论中,一个参与者的混合策略也是概率分布,与平均成绩或扔硬币的例子非常相似。概率论就是关于如何找到对于每个参与者都是最好的混合策略(为了达到这个博弈的最大效用,或最大回报)。在一个多人参与的博弈中,在所有参与者的各种混合策略中至少有一个组合可以达到一种情况,即没有一个参与者能通过改变策略获得更好的结果——这就是纳什均衡,博弈论中最重要的基本原理。
1701038445
1701038446 但是,纳什的现代博弈论基础也有自身的瑕疵。正如纳什指出的,虽然所有的博弈(在确定条件下)都有至少一个纳什均衡,但在很多博弈中能够出现不止一个纳什均衡。在那些情况中,博弈论并不能预测会达到哪个均衡点——你无法辨别出在真实世界情况下参与者们将会实际采用哪套混合策略。并且,即便在一个复杂的博弈中只存在一个纳什均衡,要计算出所有参与者的混合策略是什么,这也远远超出了超级计算机组的能力。
1701038447
1701038448 同时,传统博弈论的基本假设的薄弱之处使此瑕疵更为明显——在获得所有必需的信息计算回报时,参与者是理性的回报最大化者。在大多数人不计算吉士汉堡的营业税的世界里,那是一个苛刻的要求。在现实生活中,人们并不是“绝对理性的”,不能够找到最佳的利润最大化策略来应对所有其他竞争者使用的策略组合。所以,博弈论显然是在假设每个参与者能够做到那些超级计算机都不能做到的事。而且,事实上,几乎每个人都意识到这种完全的理性是无法达到的。故而,博弈论中使用的现代方法经常假设这种理性是有限的或“有界的”。
1701038449
1701038450 博弈论学家们千方百计去处理关于纳什理论里原初数学问题的这些限制。大量最高水准的研究工作已经对博弈论的原始公式进行了修正和改良,使之成为一个修正了许多初期“瑕疵”的理论体系。例如,已经展开了许多研究用于理解理性的限制。虽然如此,众多博弈论学家仍坚持这样一个观点,即“解决一个博弈”意味着找到一个均衡——一个所有参与者都能得到他们最大效用的结果。博弈论学家们一直在探讨各参与者应该怎么做才能使自己的回报最大化,而不是去思考当参与者们真正参加一场博弈时将会发生什么样的情况。
1701038451
1701038452 我们在波士顿会谈后一年,当我去国家航空航天局艾姆斯研究中心拜访沃尔波特时,他指出找寻博弈均衡解应该从博弈内部去审视,从参与者之一的观点去审视,而不是以一个局外人、一个评估整个体系的科学家的有利观点来审视。从局内看,可能会有一个最优解,但是局外的科学家向局内看,只要仅仅预测什么将会发生即可(而不是试图去赢得这场博弈)。沃尔波特坚持,如果你这样看待此问题,你只知道你永远不能确定一场博弈怎么结束。所以概率论的科学应该不仅是寻找单个的解,而是找到一个解,它的概率分布能做出最优的可能性预测来解释博弈的结果将是什么。“情况将会是,无论何时提供你关于一个体系不完整信息后,你必须马上给出的是各种概率的分布,而不是单个的解。”
1701038453
1701038454 换句话说,过去科学家们没有真正将博弈参与者们当作统计物理学中的微粒来考虑,至少没有从正确的角度去考虑。如果你真的考虑过这一点,你就会意识到没有一个物理学家在计算气体热力学性质时考虑单个分子的状态。这个观点是为了计算出整个分子集合体的全面特征。你不可能知道单个分子在干什么,但是你能够统计计算出结合在一起的所有分子的宏观表现。博弈和气体之间的联系应该很清楚了。统计物理学研究气体,并不知道单个分子的活动,而博弈论学家同样不知道单个参与者是如何思考的。但是物理学家确实知道分子集合体的表现可能是怎样的——统计学意义上的——并且能针对气体的性质给出较好的预测。类似地,博弈论学家应该能对博弈中将会发生的事件作出统计学预测。
1701038455
1701038456 正如沃尔波特反复强调的,这就是科学通常的处理方式。科学家们对他们研究的体系相关的信息进行限制,并试着基于他们手上已有的信息做出可能的最优预测。就像一场博弈中的一个参与者仅仅对这个博弈中可能出现的策略组合持有不完整信息,那么科学家们就研究在拥有不完整信息情况下的博弈,信息包括参与者们都知道些什么以及他们是如何思考的(切记,不同的个人在博弈时使用的思路是不同的)。
1701038457
1701038458 所有的科学都面对这种问题——对于一个体系知道一些情况,然后就根据这有限的知识,试图去预测将会发生什么,沃尔波特指出。“那么科学将如何着手来回答这些问题呢?在你所致力研究的每个独立的科学领域中,这种尝试的结果将是一个概率分布。”
1701038459
[ 上一页 ]  [ :1.70103841e+09 ]  [ 下一页 ]