打字猴:1.701003342e+09
1701003342
1701003343 也就是说,看两个城市的人口(规模)差距的时候,我们应该考虑两个城市人口的相对比例,而不是人口差的绝对数量。如果城市A的人口数量是城市B的两倍,城市B的人口数量是城市C的两倍,我们就可以认为,城市A和B的规模差距与城市B和C的规模差距是一样的(虽然A市和B市人口差的绝对数量要大于B市和C市人口差的绝对数量)。这类似于音乐领域对音阶的定义:音阶上相距8度的两个音,其频率相差一倍。这里我们考虑的是相对比例而非绝对差异。如果我们用这样的方法修正一下上图的竖轴,城市人口的分布就变成了这样:
1701003344
1701003345
1701003346
1701003347
1701003348 可以看出,上图中的数据点几乎在一条直线上。根据对数的性质,我可以推导出之前图中L形曲线的函数,这个L形曲线服从幂律分布:
1701003349
1701003350
1701003351
1701003352
1701003353 上述方程式中x是指城市的人口(规模),y表示这个规模的城市有多少个,C是一个常数,而x的指数a是上图中直线的斜率前面加个负号。
1701003354
1701003355 从传统统计学的角度来说,幂律分布的性质非常奇怪,完全不符合人们的直觉。正态分布的平均数、众数和中位数都相等;而幂律分布的L形是歪斜的、不对称的,所以幂律分布的平均数、众数和中位数并不相等。小布什总统就曾在他的竞选演说里利用过幂律分布的这个性质。小布什总统声称,2003年的减税计划让每个美国家庭平均少缴纳税款1 586美元。从技术上来说,这句话并没有撒谎,1 586美元是减税额度的平均值,但这个说法却带有很强的误导性。因为幂律分布是高度不对称的,最左侧0.1%的富裕家庭中,每个家庭可能获得数万美元的减税数额,减税额度的平均数被这些家庭严重地拉高了。而右侧这个长长的“尾巴”才能反映出普通家庭获得的减税数额,这个“长尾”服从幂律分布。在幂律分布的情况下,平均数并不能反映出大部分家庭获得的减税额度。事实上,减税额度分布的中位数是650美元,也就是说,一半以上的家庭获得的减税金额不足650美元。从这个例子可以看出,幂律分布的平均值和中位数的差异很大。
1701003356
1701003357 上面的例子展示出幂律分布的最大特点:长尾分布,长尾分布又称肥尾分布或重尾分布。相比正态分布,长尾分布中极端情况发生的概率会更大。当然,和正常情况比,极端情况仍然是极少发生的,但是如果把一个长尾分布误认作正态分布,我们就可能会严重低估极端情况的发生概率。
1701003358
1701003359 1987年10月19日被称为金融市场的“黑色星期一”。那一天,美国道·琼斯工业平均股票指数一日之内暴跌了22%。相比正常交易日中股市的波动幅度,那一天的跌幅远在22个标准差之外。如果我们用传统的正态分布钟形曲线来模拟股市,这一天的情况几乎是不可能发生的,22个标准差之外的极端情况的发生概率,应该在10的50次方分之一以下,而这种极端情况居然真的发生了。为什么呢?因为股市的波动并不服从正态分布,长尾分布比正态分布更适合用来模拟股市的变化。
1701003360
1701003361 除了股市的波动,地震、山火、洪水的发生也都不服从正态分布。这给保险公司的风险管理部门带来了更大的挑战。同样,战争和恐怖袭击等造成的死亡事件也不服从正态分布。当然,长尾分布并不是灾难的专利,小说里词汇的出现频率和人们的性行为习惯也都服从长尾分布。
1701003362
1701003363 虽然长尾、肥尾、重尾这几个名字并不好听,但随着长尾理论日益受到人们的重视,这几个词的出现频率也渐渐高了起来。我仿佛能听到这个极不对称的分布骄傲地指着自己的尾巴说:“说我长,说我重,说我肥?请搞清楚,我才是当下的常态。”
1701003364
1701003365
1701003366
1701003367
1701003368 X的奇幻之旅:在现实生活中发现数学思维之美 [:1701001377]
1701003369 X的奇幻之旅:在现实生活中发现数学思维之美 第23章 贝叶斯定理:辛普森杀死前妻的概率有多大?
1701003370
1701003371 你有没有做过这样的噩梦:马上就要期末考试了,你突然发现有一门课你从来没有上过,试卷的内容你一点儿也看不懂?这是学生的噩梦。而教授的噩梦与学生的噩梦正好相反,教授会梦见自己站在讲台上准备讲课,却突然发现要讲的内容自己一点儿也不记得了。
1701003372
1701003373 每次上概率课的时候,我就好像生活在这样的噩梦里。我自己做学生的时候从来没上过概率课,所以对我来说,给学生们上概率课既恐怖又有趣,就好像是在游乐园游玩时进“鬼屋”一样。
1701003374
1701003375 概率课上最能让我心跳过速的内容是条件概率:在发生事件B的前提下,发生事件A的条件概率是多少(即已知事件B发生,在此条件下事件A发生的概率是多少)?这个概念非常复杂,很容易就会把B发生的前提下A发生的条件概率,与A发生的前提下B发生的条件概率相混淆。这两个概念当然是不一样的,但是,需要集中注意力保持头脑清醒,才能搞清楚它们之间的区别。在举例之前,我们先考虑下面这个问题。
1701003376
1701003377 你打算外出度假一周,出发之前,你请一个粗心的朋友帮你给一棵“生病”的植物浇水。如果不浇水,这棵植物有90%的概率会死掉。但即使是用心浇水,这棵植物也有20%的概率会死掉。根据你的判断,这个粗心的朋友忘记浇水的概率是30%。
1701003378
1701003379 以上是本题的条件,本题的问题如下:
1701003380
1701003381 (a)你回来时,这棵植物还活着的概率是多大?
1701003382
1701003383 (b)如果你回来时发现植物已经死了,请问你的朋友没有浇水的概率是多大?
1701003384
1701003385 (c)如果你的朋友没有给植物浇水,你回来时发现植物死了的概率是多大?
1701003386
1701003387 虽然(b)问题和(c)问题听起来差不多,但是这两个问题是不一样的,答案当然也不一样。实际上,题目的条件已经告诉我们,“如果不给植物浇水,这棵植物有90%的概率会死掉”,所以问题(c)的答案是90%。但是,怎样利用这些条件求解出(a)和(b)问题的答案呢?
1701003388
1701003389 因为我对概率不大熟悉,所以一开始教这门课的时候,我主要追求稳妥:什么都按照书本来,像上面这种题目我就直接套用书本上的公式来解答。但是渐渐地,我发现有些学生不用贝叶斯定理也能解出这类题目。为了绕过繁杂的贝叶斯定理,这些聪明的同学用一种与贝叶斯定理的原理相同但却更加简单明了的方法来解答这类题目。
1701003390
1701003391 时光飞逝,我给一届又一届的学生讲授概率课。在这些聪明学生的启发下,我慢慢地发现了一套理解条件概率的更好的办法。贝叶斯定理看上去很令人迷惑,而这些学生教我的方法则完全顺应人的直觉。这个方法的窍门就是,不要去想抽象的概率、机会、百分比之类的概念,而是直接考虑事情发生的次数(显然,这是一种更为自然的频率计算法,也可称为事件的“自然频率”)。只要转变思路,一切就都豁然开朗了。
[ 上一页 ]  [ :1.701003342e+09 ]  [ 下一页 ]