1701003313
1701003314
1701003315
高尔顿板是用来演示这样一个实验的:在实验开始的时候,几百个小球从上方被倒入高尔顿板中。在下落的过程中,小球随机碰撞缓冲板,有的向左边弹,有的向右边弹。最后,小球全部落入下方的窄槽中。有的窄槽里的球堆得高一些,有的窄槽里的球堆得低一些,窄槽中所堆的球的高低反映出球落入这个槽中的概率有多大。大多数的小球都掉进了中间或者靠近中间位置的窄槽里,左右两侧的窄槽里的球较少,最两侧的窄槽里几乎没有球。每一个小球的落点都是随机的,对于一个单独的小球来说,我们无法预测出它最终到底会落入哪个窄槽里,但是,从整体上来看,所有小球落点的分布却是非常容易预测的——落点的分布呈现出一口铜钟的形状。
1701003316
1701003317
为什么个体的随机性累积起来,却变成了整体的规律性呢?很简单,这就是概率的魔力。中间窄槽里球的数量最多,是因为大部分的球一路向左弹的次数和向右弹的次数是差不多的。向左弹和向右弹的次数接近,球就会掉入靠中间位置的窄槽里。要想落入最外侧的槽里,一个球必须一路几乎只朝一个方向弹。显然,这种情况发生的概率非常小,正是因为如此,最外侧的窄槽里的球数量很少。在概率的作用下,球的分布是越往中间越多,越往两侧越少。
1701003318
1701003319
每个球最终的落点是由很多微小的概率事件造成的。世界上的很多其他现象也是如此,许多微小的随机事件导致事物最终朝着不同的方向发展。因此,世界上的很多现象,都可以抽象为一个铜钟形状的曲线。保险公司熟知这个曲线,虽然保险公司无法预测每年有哪些投保人会不幸去世,但它们却可以相当精确地预测出一年大约会有多少投保人死亡,需要多少理赔金额。
1701003320
1701003321
另一个例子是人的身高。你的身高取决于很多微小的随机因素:基因、生化、营养、环境,诸如此类。虽然无法预测某个特定的人的身高,但是如果统计部门收集所有成年男女的身高数据,就会发现这些身高数据的分布也呈现出铜钟的形状。
1701003322
1701003323
在一篇题为“网上相亲的谎言”的博客文章中,热衷于统计和数据分析的某婚恋网站公布了该网站会员自行填写的身高数据。男会员和女会员的身高分布分别呈铜钟状,这与我们的预期相符。但有趣的是,这两个“铜钟”的位置都有些可疑,它们都右移了两英尺左右。
1701003324
1701003325
1701003326
1701003327
1701003328
这个现象只有两种解释:要么是该婚恋网站的会员身高非常高,高于美国男女身高的平均水平;要么是这些会员在填写自我介绍资料的时候,虚报了自己的身高。
1701003329
1701003330
有一种理想化的铜钟形曲线,数学家们给它起名叫“正态分布”,它是统计学中最重要的概念之一。正态分布的美来自它理论上的性质。数学可以证明,只要大量相互独立、大小类似的轻度随机(即方差不能为无穷大)事件相叠加,其结果必然呈正态分布。在自然界和人类的生活中,大量独立随机事件相叠加的情况比比皆是,所以正态分布很常见。
1701003331
1701003332
需要强调的是,并不是所有事情都符合上面这几个条件,因此,并不是所有的事情都服从正态分布。这是我本章想要强调的第二个要点。人们曾经认为大部分事物都应该服从正态分布,但事实并非如此。近100年来,尤其是最近几十年以来,科学家和统计学家们发现,很多现象并不服从正态分布,而是另一种分布。奇怪的是,几乎所有的初级统计学教材都对这种分布避而不谈,而是把几乎所有的篇幅都放到了正态分布上。即使偶尔有几本统计学书籍谈到了这种分布,也会把它列为一种“病理标本”,而不肯承认它是自然界和人类社会中常见的现象。我认为这太不可理喻了。下面,我要为这种分布正名,了解了这种分布后你就会发现,现代生活中的很多事情都可以被这种分布解释得很清楚。正态分布又被称为常态分布,但我认为我下面讲到的这种分布才应该称为新的常态分布。
1701003333
1701003334
我们来考虑一下美国各个城市的城市规模的分布。城市规模并不是围绕一个比较中庸的值向两侧均匀展开的,城市规模的分布也不呈铜钟形。在美国,绝大部分的城市都非常小,所以它们都挤在下图的左侧区域。
1701003335
1701003336
1701003337
1701003338
1701003339
居民人数多的城市非常少,人数越多的城市占美国城市总数量的比例就越小。所以,从整体上来看,美国城市规模的分布不呈铜钟形,而是呈L形。
1701003340
1701003341
这并不奇怪。每个人都知道,美国的大型城市只有区区几个,小型城市则分布广泛,数都数不清。神奇的是,在这种情况下,美国的城市规模仍然服从一个简单而美丽的分布,并且这种美需要更透彻的视野才能看到。
1701003342
1701003343
也就是说,看两个城市的人口(规模)差距的时候,我们应该考虑两个城市人口的相对比例,而不是人口差的绝对数量。如果城市A的人口数量是城市B的两倍,城市B的人口数量是城市C的两倍,我们就可以认为,城市A和B的规模差距与城市B和C的规模差距是一样的(虽然A市和B市人口差的绝对数量要大于B市和C市人口差的绝对数量)。这类似于音乐领域对音阶的定义:音阶上相距8度的两个音,其频率相差一倍。这里我们考虑的是相对比例而非绝对差异。如果我们用这样的方法修正一下上图的竖轴,城市人口的分布就变成了这样:
1701003344
1701003345
1701003346
1701003347
1701003348
可以看出,上图中的数据点几乎在一条直线上。根据对数的性质,我可以推导出之前图中L形曲线的函数,这个L形曲线服从幂律分布:
1701003349
1701003350
1701003351
1701003352
1701003353
上述方程式中x是指城市的人口(规模),y表示这个规模的城市有多少个,C是一个常数,而x的指数a是上图中直线的斜率前面加个负号。
1701003354
1701003355
从传统统计学的角度来说,幂律分布的性质非常奇怪,完全不符合人们的直觉。正态分布的平均数、众数和中位数都相等;而幂律分布的L形是歪斜的、不对称的,所以幂律分布的平均数、众数和中位数并不相等。小布什总统就曾在他的竞选演说里利用过幂律分布的这个性质。小布什总统声称,2003年的减税计划让每个美国家庭平均少缴纳税款1 586美元。从技术上来说,这句话并没有撒谎,1 586美元是减税额度的平均值,但这个说法却带有很强的误导性。因为幂律分布是高度不对称的,最左侧0.1%的富裕家庭中,每个家庭可能获得数万美元的减税数额,减税额度的平均数被这些家庭严重地拉高了。而右侧这个长长的“尾巴”才能反映出普通家庭获得的减税数额,这个“长尾”服从幂律分布。在幂律分布的情况下,平均数并不能反映出大部分家庭获得的减税额度。事实上,减税额度分布的中位数是650美元,也就是说,一半以上的家庭获得的减税金额不足650美元。从这个例子可以看出,幂律分布的平均值和中位数的差异很大。
1701003356
1701003357
上面的例子展示出幂律分布的最大特点:长尾分布,长尾分布又称肥尾分布或重尾分布。相比正态分布,长尾分布中极端情况发生的概率会更大。当然,和正常情况比,极端情况仍然是极少发生的,但是如果把一个长尾分布误认作正态分布,我们就可能会严重低估极端情况的发生概率。
1701003358
1701003359
1987年10月19日被称为金融市场的“黑色星期一”。那一天,美国道·琼斯工业平均股票指数一日之内暴跌了22%。相比正常交易日中股市的波动幅度,那一天的跌幅远在22个标准差之外。如果我们用传统的正态分布钟形曲线来模拟股市,这一天的情况几乎是不可能发生的,22个标准差之外的极端情况的发生概率,应该在10的50次方分之一以下,而这种极端情况居然真的发生了。为什么呢?因为股市的波动并不服从正态分布,长尾分布比正态分布更适合用来模拟股市的变化。
1701003360
1701003361
除了股市的波动,地震、山火、洪水的发生也都不服从正态分布。这给保险公司的风险管理部门带来了更大的挑战。同样,战争和恐怖袭击等造成的死亡事件也不服从正态分布。当然,长尾分布并不是灾难的专利,小说里词汇的出现频率和人们的性行为习惯也都服从长尾分布。
1701003362
[
上一页 ]
[ :1.701003313e+09 ]
[
下一页 ]