打字猴:1.70100335e+09
1701003350
1701003351
1701003352
1701003353 上述方程式中x是指城市的人口(规模),y表示这个规模的城市有多少个,C是一个常数,而x的指数a是上图中直线的斜率前面加个负号。
1701003354
1701003355 从传统统计学的角度来说,幂律分布的性质非常奇怪,完全不符合人们的直觉。正态分布的平均数、众数和中位数都相等;而幂律分布的L形是歪斜的、不对称的,所以幂律分布的平均数、众数和中位数并不相等。小布什总统就曾在他的竞选演说里利用过幂律分布的这个性质。小布什总统声称,2003年的减税计划让每个美国家庭平均少缴纳税款1 586美元。从技术上来说,这句话并没有撒谎,1 586美元是减税额度的平均值,但这个说法却带有很强的误导性。因为幂律分布是高度不对称的,最左侧0.1%的富裕家庭中,每个家庭可能获得数万美元的减税数额,减税额度的平均数被这些家庭严重地拉高了。而右侧这个长长的“尾巴”才能反映出普通家庭获得的减税数额,这个“长尾”服从幂律分布。在幂律分布的情况下,平均数并不能反映出大部分家庭获得的减税额度。事实上,减税额度分布的中位数是650美元,也就是说,一半以上的家庭获得的减税金额不足650美元。从这个例子可以看出,幂律分布的平均值和中位数的差异很大。
1701003356
1701003357 上面的例子展示出幂律分布的最大特点:长尾分布,长尾分布又称肥尾分布或重尾分布。相比正态分布,长尾分布中极端情况发生的概率会更大。当然,和正常情况比,极端情况仍然是极少发生的,但是如果把一个长尾分布误认作正态分布,我们就可能会严重低估极端情况的发生概率。
1701003358
1701003359 1987年10月19日被称为金融市场的“黑色星期一”。那一天,美国道·琼斯工业平均股票指数一日之内暴跌了22%。相比正常交易日中股市的波动幅度,那一天的跌幅远在22个标准差之外。如果我们用传统的正态分布钟形曲线来模拟股市,这一天的情况几乎是不可能发生的,22个标准差之外的极端情况的发生概率,应该在10的50次方分之一以下,而这种极端情况居然真的发生了。为什么呢?因为股市的波动并不服从正态分布,长尾分布比正态分布更适合用来模拟股市的变化。
1701003360
1701003361 除了股市的波动,地震、山火、洪水的发生也都不服从正态分布。这给保险公司的风险管理部门带来了更大的挑战。同样,战争和恐怖袭击等造成的死亡事件也不服从正态分布。当然,长尾分布并不是灾难的专利,小说里词汇的出现频率和人们的性行为习惯也都服从长尾分布。
1701003362
1701003363 虽然长尾、肥尾、重尾这几个名字并不好听,但随着长尾理论日益受到人们的重视,这几个词的出现频率也渐渐高了起来。我仿佛能听到这个极不对称的分布骄傲地指着自己的尾巴说:“说我长,说我重,说我肥?请搞清楚,我才是当下的常态。”
1701003364
1701003365
1701003366
1701003367
1701003368 X的奇幻之旅:在现实生活中发现数学思维之美 [:1701001377]
1701003369 X的奇幻之旅:在现实生活中发现数学思维之美 第23章 贝叶斯定理:辛普森杀死前妻的概率有多大?
1701003370
1701003371 你有没有做过这样的噩梦:马上就要期末考试了,你突然发现有一门课你从来没有上过,试卷的内容你一点儿也看不懂?这是学生的噩梦。而教授的噩梦与学生的噩梦正好相反,教授会梦见自己站在讲台上准备讲课,却突然发现要讲的内容自己一点儿也不记得了。
1701003372
1701003373 每次上概率课的时候,我就好像生活在这样的噩梦里。我自己做学生的时候从来没上过概率课,所以对我来说,给学生们上概率课既恐怖又有趣,就好像是在游乐园游玩时进“鬼屋”一样。
1701003374
1701003375 概率课上最能让我心跳过速的内容是条件概率:在发生事件B的前提下,发生事件A的条件概率是多少(即已知事件B发生,在此条件下事件A发生的概率是多少)?这个概念非常复杂,很容易就会把B发生的前提下A发生的条件概率,与A发生的前提下B发生的条件概率相混淆。这两个概念当然是不一样的,但是,需要集中注意力保持头脑清醒,才能搞清楚它们之间的区别。在举例之前,我们先考虑下面这个问题。
1701003376
1701003377 你打算外出度假一周,出发之前,你请一个粗心的朋友帮你给一棵“生病”的植物浇水。如果不浇水,这棵植物有90%的概率会死掉。但即使是用心浇水,这棵植物也有20%的概率会死掉。根据你的判断,这个粗心的朋友忘记浇水的概率是30%。
1701003378
1701003379 以上是本题的条件,本题的问题如下:
1701003380
1701003381 (a)你回来时,这棵植物还活着的概率是多大?
1701003382
1701003383 (b)如果你回来时发现植物已经死了,请问你的朋友没有浇水的概率是多大?
1701003384
1701003385 (c)如果你的朋友没有给植物浇水,你回来时发现植物死了的概率是多大?
1701003386
1701003387 虽然(b)问题和(c)问题听起来差不多,但是这两个问题是不一样的,答案当然也不一样。实际上,题目的条件已经告诉我们,“如果不给植物浇水,这棵植物有90%的概率会死掉”,所以问题(c)的答案是90%。但是,怎样利用这些条件求解出(a)和(b)问题的答案呢?
1701003388
1701003389 因为我对概率不大熟悉,所以一开始教这门课的时候,我主要追求稳妥:什么都按照书本来,像上面这种题目我就直接套用书本上的公式来解答。但是渐渐地,我发现有些学生不用贝叶斯定理也能解出这类题目。为了绕过繁杂的贝叶斯定理,这些聪明的同学用一种与贝叶斯定理的原理相同但却更加简单明了的方法来解答这类题目。
1701003390
1701003391 时光飞逝,我给一届又一届的学生讲授概率课。在这些聪明学生的启发下,我慢慢地发现了一套理解条件概率的更好的办法。贝叶斯定理看上去很令人迷惑,而这些学生教我的方法则完全顺应人的直觉。这个方法的窍门就是,不要去想抽象的概率、机会、百分比之类的概念,而是直接考虑事情发生的次数(显然,这是一种更为自然的频率计算法,也可称为事件的“自然频率”)。只要转变思路,一切就都豁然开朗了。
1701003392
1701003393 就职于柏林马克思·普朗克人类发展研究所的认知心理学家捷尔德·盖格瑞泽写了一本非常有意思的书,书名为《风险的计算》。在这本书中,盖格瑞泽举出了很多他在研究中发现的人类对风险和不确定性的误判和错误计算。算错概率的例子遍及各个领域:从艾滋病治疗到脱氧核糖核酸(DNA)指纹图谱的识别。虽然我们计算概率的时候常常错得离谱儿,但是这位仁慈的心理学家并没有责骂我们的愚蠢,也没有哀叹人类的脆弱,他只是耐心地告诉我们怎样才能减少这类错误。盖格瑞泽的方法和我的学生们发明的方法差不多,那就是,当面对条件概率问题的时候,不使用抽象的概率和百分比,而是依赖最自然、最原始的计数方法:计算事件发生的次数(自然频率)。
1701003394
1701003395 在其中一项研究中,盖格瑞泽和他的同事请德国和美国的医生们来解答这样一个问题:如果一位妇女的乳房X射线检查结果呈阳性,但是这位妇女又属于乳腺癌发病风险较低的人群(年龄在40~50岁,无家族乳腺癌病史,本人无乳腺癌症状),那么她罹患乳腺癌的概率到底有多大?为了把问题进一步具体化,盖格瑞泽给受访的医生们提供了如下信息:一是这个人群中乳癌的发病率,二是乳房X射线检查的灵敏度和阴性被误判为阳性的概率。这些信息都是以概率和百分比的形式给出的,具体数据如下:
1701003396
1701003397 在年龄为40~50岁、无家族乳腺癌病史、本人无乳腺癌症状的妇女中,乳腺癌发病率是0.8%。如果一位妇女确实患有乳腺癌,那么乳房X射线检查呈阳性的概率是90%。如果一位妇女没有患上乳腺癌,但乳房X射线检查结果呈阳性的概率为7%。现在,有一位妇女,她属于乳腺癌发病风险较低的人群,但是她的乳房X射线检查结果呈阳性,请问她实际患有乳腺癌的概率是多少?
1701003398
1701003399 盖格瑞泽询问的第一位医生是一所大学附属医院某部门的主任,对于乳腺癌的诊断,这位医生有着超过30年的专业经验。根据盖格瑞泽的描述,这位医生对上述问题的反应是这样的:
[ 上一页 ]  [ :1.70100335e+09 ]  [ 下一页 ]