1702643590
1702643591
优质的数据就是好的线索,但首先我们必须收集到优质数据,而这要比看上去困难得多。
1702643592
1702643593
1702643594
1702643595
1702643597
赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第9章 中心极限定理
1702643598
1702643599
一辆坐满肥胖乘客的抛锚客车停在你家附近的路上,你推断下,它的目的地是马拉松比赛场地,还是国际香肠节展厅?
1702643600
1702643601
有时候统计学就像魔术一样,能够从少量数据中得出不可思议的强大结论。我们只需要对1000个美国人进行电话调查,就能洞悉美国总统大选的得票数,我们通过对一家禽肉加工厂生产的100块鸡胸肉进行沙门氏菌检测,就能得出这家工厂的所有肉类产品是否安全的结论。这些“一概而论”的强大能力,到底是从哪里来的?
1702643602
1702643603
绝大部分来自中心极限定理,或者说统计学界的勒布朗•詹姆斯,勒布朗同时还是超级模特、哈佛大学教授和诺贝尔和平奖获得者。中心极限定理是许多统计活动的“动力源泉”,这些活动存在着一个共同的特点,那就是使用样本对一个更大的数量对象进行推理(比如民意调查或是沙门氏菌检测)。这类推理看上去似乎充满神秘感,但事实上,它们只是我们已经探讨过的两个工具相结合的产物,这两个工具是概率和抽样调查。在开始对中心极限定理的工作机制进行介绍之前(其实也没有那么难以理解),我们先来看一个例子,让大家有一个大致感受。
1702643604
1702643605
假设你所生活的城市正在举办一场马拉松比赛。来自世界各国的运动员们齐聚一堂,准备一决高下,但他们中的许多人都不会说英语。按照比赛组委会的安排,
1702643606
1702643607
每位运动员在比赛当天的早上签到之后,会被随机分配到一辆驶往起点的长途客车。不凑巧的是,其中的一辆长途客车没有按规定到达比赛现场,为了省去大量额外的运算,我们假设这辆客车上没有一个人有手机,而且车里也没有装载全球定位系统(GPS)设备。作为市民中的一员,你加入了搜寻长途客车的队伍。
1702643608
1702643609
偏偏就那么巧,在你家附近有一辆抛锚的长途客车,车上坐着一大群面露不快的国际乘客,他们中没有一个人会说英语。这肯定就是那辆失踪的车,你将会成为这座城市的英雄!但就在此时,一个疑惑出现在你的脑中:这辆车上的乘客看上去都“不瘦”,准确地说,他们都很胖。粗略扫一眼这些人,你估计这些乘客的平均体重至少有220磅(100公斤)。随机分配的马拉松运动员的体重不可能这么重,你打开对讲机对搜寻总部汇报道:“不是这辆客车,请继续搜寻。”
1702643610
1702643611
进一步的调查证实了你最初的判断是正确的。赶到现场的翻译人员经过一番交流后,你终于知道这辆抛锚的客车原本是要前往国际香肠节会场的,正好这一届的香肠节也在这座城市举办,连日期都碰巧相同。而且从视觉角度考虑,参加香肠节的人完全有可能也穿着宽松的运动长裤。
1702643612
1702643613
祝贺你!如果你能够体会上述的推理过程,也就是说,通过快速观察车上乘客的体型来判断他们并非马拉松运动员,那么你就已经领会了中心极限定理的基本理念,剩下的工作就是在这个基本框架下充实细节了。一旦你理解了中心极限定理,统计推断的绝大多数形式将会变得非常直观。
1702643614
1702643615
中心极限定理的核心要义就是,一个大型样本的正确抽样与其所代表的群体存在相似关系。当然,每个样本之间肯定会存在差异(比如前往马拉松起点的这么多辆客车,每辆客车乘客的组成都不可能完全相同),但是任一样本与整体之间存在巨大差异的概率是较低的。正是因为这个逻辑,让你对那辆载满肥胖乘客的抛锚客车做出了快速判断。的确有胖人参加马拉松比赛,每一次马拉松比赛中都会有几
1702643616
1702643617
百名参赛者的体重在200磅以上,但绝大多数的马拉松运动员还是比较瘦的。因此,如此之多的“重量级”运动员被随机安排到同一辆客车上的概率可以说是很低的,所以你完全有理由认为这不是那辆失踪的马拉松客车。当然,有可能你的判断是错的,但概率告诉我们你更有可能是对的。
1702643618
1702643619
这就是中心极限定理背后的基本经验。如果我们再附加一些统计学工具,就能将正确或错误的可能性进行量化。例如,在一场有10000名选手参加的马拉松比赛中,运动员的平均体重为155磅,我们可以算出,一个包含60名选手(也就是一辆客车的载客量)的随机样本的平均体重大于或等于220镑的概率不足1/100。但在此刻,让我们还是从直觉出发进行计算。通过运用中心极限定理,我们能够得出如下推理,这些推理都将会在下一章里进行深入阐述。
1702643620
1702643621
1. 如果我们掌握了某个群体的具体信息,就能推理出从这个群体中正确抽取的随机样本的情况。举个例子,假设某学校的校长手里有本校所有学生的统考成绩(平均分、标准差等),这就相当于一个相关人口数据,再过一个星期的时间,区领导将会来学校随机抽取100名学生进行一次类似统考的测验,这100名学生的成绩——也就是一个样本,将会作为考核该校教学质量的指标。
1702643622
1702643623
随机抽取的这100名学生的考试成绩是否能够准确地反映出全校学生的平均水平呢?校长需要为此担心吗?根据中心极限定理,这100名学生作为一个随机样本,其平均成绩不会与全校学生的平均成绩产生较大差异。
1702643624
1702643625
2. 如果我们掌握了某个正确抽取的样本的具体信息(平均数和标准差),就能对其所代表的群体做出令人惊讶的精确推理。从定理的使用角度来看,这与上一点内容正好相反。还是以上述假设为例,如果你是区领导,想要对本区域内的各个学校进行教学质量考核,与校长不同的是,你手中并没有(或不信任)某所学校所有学生的统考成绩,因此就有必要对每所学校进行抽样测试,也就是随机抽取100名学生参加一场类似统考的测验。
1702643626
1702643627
作为主管教育的领导,你觉得仅参考100名学生的成绩就对整所学校的教学质量做出判断是可行的吗?答案是可行的。中心极限定理告诉我们,一个正确抽取的样本不会与其所代表的群体产生较大差异,也就是说,样本结果(随机抽取的100名学生的考试成绩)能够很好地体现整个群体的情况(某所学校全体学生的测试表现)。当然,这也是民意测验的运行机制所在。通过一套完善的样本抽取方案所选取的1200名美国人能够在很大程度上告诉我们整个国家的人民此刻正在想什么。
1702643628
1702643629
请跟上我的节奏:如果上面的第一点内容是成立的,那么第二点内容一定也成立,反之亦然。如果抽取的每一个样本与其所代表的群体确实存在相似关系,那么这个群体将总是与其样本保持一致性。(如果孩子与其父母长得很像,那么父母肯定也与孩子长得很像。)
1702643630
1702643631
3. 如果我们掌握了某个样本的数据,以及某个群体的数据,就能推理出该样本是否就是该群体的样本之一。这就是我们在本章一开始的时候所举的那个马拉松比赛失踪客车的例子。已知马拉松参赛选手的平均体重(估算),以及那辆抛锚客车上所有乘客的平均体重(目测),通过中心极限定理,我们就能计算出某个样本(客车上的肥胖乘客)属于某个群体(马拉松比赛选手)的概率是多少,如果概率非常低,那么我们就能自信满满地说该样本不属于该群体(例如,客车上的乘客看上去真的不像是一群前往马拉松比赛起点的运动员)。
1702643632
1702643633
4. 最后,如果我们已知两个样本的基本特性,就能推理出这两个样本是否取自同一个群体。让我们回到那个(越来越荒谬的)客车的例子上。我们现在得知这座城市即将同时举办马拉松比赛和国际香肠节,假设这两个盛会都将会迎来数以千计的参与者,而且他们都乘坐主办方安排的客车前往会场,因此客车上要么是随机安排的马拉松运动员,要么是随机安排的香肠爱好者。进一步假设有两辆客车在路上撞在一起了(我已经承认这是一个荒谬的例子,所以还请诸位读者勉强读下去吧),作为这座城市的管理者,你被派往现场了解事故情况,看看这两辆客车是不是都前往同一个地点(马拉松比赛或香肠节)。让人不可思议的是,两辆客车上的乘客都不会说英语,但到场的医护人员给你提供了一份关于这两辆车上的乘客体重的详细信息。
1702643634
1702643635
仅从这一点信息,你就能推理出这两辆客车前往的是相同的会场还是不同的会场。请再次用你的直觉进行判断,假设其中一辆客车上乘客的平均体重为157磅,标准差为11磅(也就是说绝大部分乘客的体重为146〜168磅)。而另一辆客车上乘客的平均体重为211磅,标准差为21磅(即绝大部分乘客的体重为190〜232磅)。此刻请忘掉所有的统计学公式,仅凭逻辑做出判断:这两辆客车上的乘客是从同一个群体中随机抽取的样本吗?
1702643636
1702643637
不是。一个更有可能的情形是:其中一辆客车上是马拉松运动员,而另一辆客车上则是香肠爱好者。除了平均体重的不同以外,想必你还注意到了两辆客车乘客之间的体重差异要远大于各客车内部乘客的体重差异,总重量较轻的客车里高于平均值一个标准差的乘客体重(168磅),但还是轻于另一辆客车上低于平均值一个标准差的乘客体重(190磅),这一点表明(无论从统计学的角度还是从逻辑的角度)这两个样本有可能来自不同的群体。
1702643638
1702643639
如果凭借直觉能理解到这一步的话,就说明你已经理解了93.2%的中心极限定理了。我们需要更进一步,在直觉背后加上一些技术支撑。显而易见,当你登上一辆抛锚的客车,发现里面坐满了身穿宽松运动裤的“肥胖”乘客时,你的直觉会告诉你他们不会是马拉松运动员。而中心极限定理能够让你在直觉的基础上更上一层楼,为你的判断提供数据支持。
[
上一页 ]
[ :1.70264359e+09 ]
[
下一页 ]