1701003293
1701003294
X的奇幻之旅:在现实生活中发现数学思维之美
1701003295
1701003296
1701003297
1701003298
1701003299
X的奇幻之旅:在现实生活中发现数学思维之美 第5部分 数据
1701003300
1701003302
第22章 长尾分布:从减税额到恐怖袭击事件
1701003303
1701003304
最近,统计学突然变成了一门特别时尚和热门的科学。这也许得益于互联网的兴起、电子商务的盛行、社交网络和人类基因组计划,总而言之,数字文化的流行使我们的社会突然之间充满了数据。市场营销部门通过数据研究顾客的习惯和喜好;网络信息系统在悄悄地收集我们所在的位置、我们的电子邮件和电话信息;体育统计学家通过分析大数据决定招收哪些队员,派谁上场参与比赛,以及最后一轮进攻机会中距离底线还有两码的时候要不要进攻。每个人都想画点和连线,每个人都想从数据的“大草垛”里翻出“金鸡蛋”来。
1701003305
1701003306
随之而来的是,教育专家们对于“人人都要学习统计学”的呼吁。2010年,哈佛大学的著名经济学家格里高利·曼昆在《纽约时报》的专栏中写道:“美国高中的数学课程应该进行改革了,孩子们在欧几里得几何学和三角学上花了太多的时间。对于一个普通人来说,几何学和三角学当然是锻炼智力的好方法,但是在现实生活中却几乎没有什么实际用处。我认为多学一些概率学和统计学方面的知识对孩子们的发展更有帮助。”《纽约时报》的评论员戴维·布鲁克斯说话更不客气,在谈到学过哪些课程才算是受过良好的教育时,布鲁克斯在专栏里写道:“学统计学吧。这样说或许有点儿不礼貌,不过步入社会以后,你的发展际遇或好或坏,到时候你就会发现,知道什么是标准差对你的人生大有裨益。”
1701003307
1701003308
是的,知道什么是标准差能帮你更好地面对人生的高峰和低谷,但我认为你更需要了解的是另一个概念:概率分布。下面,就让我们从概率分布入手,展开我们的统计学之旅。之所以选择这个切入点,是因为概率分布这个概念展示了统计学的核心观点:那些看来杂乱无章、完全无法预测的独立个体,从整体上来看却可能是极为有序和完全可预测的。
1701003309
1701003310
你可能在科学博物馆里见过下面这个装置(如果没有见过的话,可以上网搜索相关视频)。这个装置叫作高尔顿板,它看起来有点儿像我们平时玩的弹球机,只不过这个装置没有弹球杆,而且它的缓冲板分布得很均匀,形成一个金字塔形。
1701003311
1701003312
1701003313
1701003314
1701003315
高尔顿板是用来演示这样一个实验的:在实验开始的时候,几百个小球从上方被倒入高尔顿板中。在下落的过程中,小球随机碰撞缓冲板,有的向左边弹,有的向右边弹。最后,小球全部落入下方的窄槽中。有的窄槽里的球堆得高一些,有的窄槽里的球堆得低一些,窄槽中所堆的球的高低反映出球落入这个槽中的概率有多大。大多数的小球都掉进了中间或者靠近中间位置的窄槽里,左右两侧的窄槽里的球较少,最两侧的窄槽里几乎没有球。每一个小球的落点都是随机的,对于一个单独的小球来说,我们无法预测出它最终到底会落入哪个窄槽里,但是,从整体上来看,所有小球落点的分布却是非常容易预测的——落点的分布呈现出一口铜钟的形状。
1701003316
1701003317
为什么个体的随机性累积起来,却变成了整体的规律性呢?很简单,这就是概率的魔力。中间窄槽里球的数量最多,是因为大部分的球一路向左弹的次数和向右弹的次数是差不多的。向左弹和向右弹的次数接近,球就会掉入靠中间位置的窄槽里。要想落入最外侧的槽里,一个球必须一路几乎只朝一个方向弹。显然,这种情况发生的概率非常小,正是因为如此,最外侧的窄槽里的球数量很少。在概率的作用下,球的分布是越往中间越多,越往两侧越少。
1701003318
1701003319
每个球最终的落点是由很多微小的概率事件造成的。世界上的很多其他现象也是如此,许多微小的随机事件导致事物最终朝着不同的方向发展。因此,世界上的很多现象,都可以抽象为一个铜钟形状的曲线。保险公司熟知这个曲线,虽然保险公司无法预测每年有哪些投保人会不幸去世,但它们却可以相当精确地预测出一年大约会有多少投保人死亡,需要多少理赔金额。
1701003320
1701003321
另一个例子是人的身高。你的身高取决于很多微小的随机因素:基因、生化、营养、环境,诸如此类。虽然无法预测某个特定的人的身高,但是如果统计部门收集所有成年男女的身高数据,就会发现这些身高数据的分布也呈现出铜钟的形状。
1701003322
1701003323
在一篇题为“网上相亲的谎言”的博客文章中,热衷于统计和数据分析的某婚恋网站公布了该网站会员自行填写的身高数据。男会员和女会员的身高分布分别呈铜钟状,这与我们的预期相符。但有趣的是,这两个“铜钟”的位置都有些可疑,它们都右移了两英尺左右。
1701003324
1701003325
1701003326
1701003327
1701003328
这个现象只有两种解释:要么是该婚恋网站的会员身高非常高,高于美国男女身高的平均水平;要么是这些会员在填写自我介绍资料的时候,虚报了自己的身高。
1701003329
1701003330
有一种理想化的铜钟形曲线,数学家们给它起名叫“正态分布”,它是统计学中最重要的概念之一。正态分布的美来自它理论上的性质。数学可以证明,只要大量相互独立、大小类似的轻度随机(即方差不能为无穷大)事件相叠加,其结果必然呈正态分布。在自然界和人类的生活中,大量独立随机事件相叠加的情况比比皆是,所以正态分布很常见。
1701003331
1701003332
需要强调的是,并不是所有事情都符合上面这几个条件,因此,并不是所有的事情都服从正态分布。这是我本章想要强调的第二个要点。人们曾经认为大部分事物都应该服从正态分布,但事实并非如此。近100年来,尤其是最近几十年以来,科学家和统计学家们发现,很多现象并不服从正态分布,而是另一种分布。奇怪的是,几乎所有的初级统计学教材都对这种分布避而不谈,而是把几乎所有的篇幅都放到了正态分布上。即使偶尔有几本统计学书籍谈到了这种分布,也会把它列为一种“病理标本”,而不肯承认它是自然界和人类社会中常见的现象。我认为这太不可理喻了。下面,我要为这种分布正名,了解了这种分布后你就会发现,现代生活中的很多事情都可以被这种分布解释得很清楚。正态分布又被称为常态分布,但我认为我下面讲到的这种分布才应该称为新的常态分布。
1701003333
1701003334
我们来考虑一下美国各个城市的城市规模的分布。城市规模并不是围绕一个比较中庸的值向两侧均匀展开的,城市规模的分布也不呈铜钟形。在美国,绝大部分的城市都非常小,所以它们都挤在下图的左侧区域。
1701003335
1701003336
1701003337
1701003338
1701003339
居民人数多的城市非常少,人数越多的城市占美国城市总数量的比例就越小。所以,从整体上来看,美国城市规模的分布不呈铜钟形,而是呈L形。
1701003340
1701003341
这并不奇怪。每个人都知道,美国的大型城市只有区区几个,小型城市则分布广泛,数都数不清。神奇的是,在这种情况下,美国的城市规模仍然服从一个简单而美丽的分布,并且这种美需要更透彻的视野才能看到。
[
上一页 ]
[ :1.701003292e+09 ]
[
下一页 ]