打字猴:1.70264361e+09
1702643610
1702643611 进一步的调查证实了你最初的判断是正确的。赶到现场的翻译人员经过一番交流后,你终于知道这辆抛锚的客车原本是要前往国际香肠节会场的,正好这一届的香肠节也在这座城市举办,连日期都碰巧相同。而且从视觉角度考虑,参加香肠节的人完全有可能也穿着宽松的运动长裤。
1702643612
1702643613 祝贺你!如果你能够体会上述的推理过程,也就是说,通过快速观察车上乘客的体型来判断他们并非马拉松运动员,那么你就已经领会了中心极限定理的基本理念,剩下的工作就是在这个基本框架下充实细节了。一旦你理解了中心极限定理,统计推断的绝大多数形式将会变得非常直观。
1702643614
1702643615 中心极限定理的核心要义就是,一个大型样本的正确抽样与其所代表的群体存在相似关系。当然,每个样本之间肯定会存在差异(比如前往马拉松起点的这么多辆客车,每辆客车乘客的组成都不可能完全相同),但是任一样本与整体之间存在巨大差异的概率是较低的。正是因为这个逻辑,让你对那辆载满肥胖乘客的抛锚客车做出了快速判断。的确有胖人参加马拉松比赛,每一次马拉松比赛中都会有几
1702643616
1702643617 百名参赛者的体重在200磅以上,但绝大多数的马拉松运动员还是比较瘦的。因此,如此之多的“重量级”运动员被随机安排到同一辆客车上的概率可以说是很低的,所以你完全有理由认为这不是那辆失踪的马拉松客车。当然,有可能你的判断是错的,但概率告诉我们你更有可能是对的。
1702643618
1702643619 这就是中心极限定理背后的基本经验。如果我们再附加一些统计学工具,就能将正确或错误的可能性进行量化。例如,在一场有10000名选手参加的马拉松比赛中,运动员的平均体重为155磅,我们可以算出,一个包含60名选手(也就是一辆客车的载客量)的随机样本的平均体重大于或等于220镑的概率不足1/100。但在此刻,让我们还是从直觉出发进行计算。通过运用中心极限定理,我们能够得出如下推理,这些推理都将会在下一章里进行深入阐述。
1702643620
1702643621 1.   如果我们掌握了某个群体的具体信息,就能推理出从这个群体中正确抽取的随机样本的情况。举个例子,假设某学校的校长手里有本校所有学生的统考成绩(平均分、标准差等),这就相当于一个相关人口数据,再过一个星期的时间,区领导将会来学校随机抽取100名学生进行一次类似统考的测验,这100名学生的成绩——也就是一个样本,将会作为考核该校教学质量的指标。
1702643622
1702643623 随机抽取的这100名学生的考试成绩是否能够准确地反映出全校学生的平均水平呢?校长需要为此担心吗?根据中心极限定理,这100名学生作为一个随机样本,其平均成绩不会与全校学生的平均成绩产生较大差异。
1702643624
1702643625 2.   如果我们掌握了某个正确抽取的样本的具体信息(平均数和标准差),就能对其所代表的群体做出令人惊讶的精确推理。从定理的使用角度来看,这与上一点内容正好相反。还是以上述假设为例,如果你是区领导,想要对本区域内的各个学校进行教学质量考核,与校长不同的是,你手中并没有(或不信任)某所学校所有学生的统考成绩,因此就有必要对每所学校进行抽样测试,也就是随机抽取100名学生参加一场类似统考的测验。
1702643626
1702643627 作为主管教育的领导,你觉得仅参考100名学生的成绩就对整所学校的教学质量做出判断是可行的吗?答案是可行的。中心极限定理告诉我们,一个正确抽取的样本不会与其所代表的群体产生较大差异,也就是说,样本结果(随机抽取的100名学生的考试成绩)能够很好地体现整个群体的情况(某所学校全体学生的测试表现)。当然,这也是民意测验的运行机制所在。通过一套完善的样本抽取方案所选取的1200名美国人能够在很大程度上告诉我们整个国家的人民此刻正在想什么。
1702643628
1702643629 请跟上我的节奏:如果上面的第一点内容是成立的,那么第二点内容一定也成立,反之亦然。如果抽取的每一个样本与其所代表的群体确实存在相似关系,那么这个群体将总是与其样本保持一致性。(如果孩子与其父母长得很像,那么父母肯定也与孩子长得很像。)
1702643630
1702643631 3.   如果我们掌握了某个样本的数据,以及某个群体的数据,就能推理出该样本是否就是该群体的样本之一。这就是我们在本章一开始的时候所举的那个马拉松比赛失踪客车的例子。已知马拉松参赛选手的平均体重(估算),以及那辆抛锚客车上所有乘客的平均体重(目测),通过中心极限定理,我们就能计算出某个样本(客车上的肥胖乘客)属于某个群体(马拉松比赛选手)的概率是多少,如果概率非常低,那么我们就能自信满满地说该样本不属于该群体(例如,客车上的乘客看上去真的不像是一群前往马拉松比赛起点的运动员)。
1702643632
1702643633 4.   最后,如果我们已知两个样本的基本特性,就能推理出这两个样本是否取自同一个群体。让我们回到那个(越来越荒谬的)客车的例子上。我们现在得知这座城市即将同时举办马拉松比赛和国际香肠节,假设这两个盛会都将会迎来数以千计的参与者,而且他们都乘坐主办方安排的客车前往会场,因此客车上要么是随机安排的马拉松运动员,要么是随机安排的香肠爱好者。进一步假设有两辆客车在路上撞在一起了(我已经承认这是一个荒谬的例子,所以还请诸位读者勉强读下去吧),作为这座城市的管理者,你被派往现场了解事故情况,看看这两辆客车是不是都前往同一个地点(马拉松比赛或香肠节)。让人不可思议的是,两辆客车上的乘客都不会说英语,但到场的医护人员给你提供了一份关于这两辆车上的乘客体重的详细信息。
1702643634
1702643635 仅从这一点信息,你就能推理出这两辆客车前往的是相同的会场还是不同的会场。请再次用你的直觉进行判断,假设其中一辆客车上乘客的平均体重为157磅,标准差为11磅(也就是说绝大部分乘客的体重为146〜168磅)。而另一辆客车上乘客的平均体重为211磅,标准差为21磅(即绝大部分乘客的体重为190〜232磅)。此刻请忘掉所有的统计学公式,仅凭逻辑做出判断:这两辆客车上的乘客是从同一个群体中随机抽取的样本吗?
1702643636
1702643637 不是。一个更有可能的情形是:其中一辆客车上是马拉松运动员,而另一辆客车上则是香肠爱好者。除了平均体重的不同以外,想必你还注意到了两辆客车乘客之间的体重差异要远大于各客车内部乘客的体重差异,总重量较轻的客车里高于平均值一个标准差的乘客体重(168磅),但还是轻于另一辆客车上低于平均值一个标准差的乘客体重(190磅),这一点表明(无论从统计学的角度还是从逻辑的角度)这两个样本有可能来自不同的群体。
1702643638
1702643639 如果凭借直觉能理解到这一步的话,就说明你已经理解了93.2%的中心极限定理了。我们需要更进一步,在直觉背后加上一些技术支撑。显而易见,当你登上一辆抛锚的客车,发现里面坐满了身穿宽松运动裤的“肥胖”乘客时,你的直觉会告诉你他们不会是马拉松运动员。而中心极限定理能够让你在直觉的基础上更上一层楼,为你的判断提供数据支持。
1702643640
1702643641 举个例子,通过一些基本的运算,我们能够得出结论,在99%的情况下,任何一辆随机安排的客车上的选手的平均体重,都将会在全体运动员平均体重±9磅的范围之内。这就是当我偶遇一辆抛锚客车时做出上述判断的统计学支持。这些乘客的平均体重高于全体马拉松运动员平均体重整整21磅,只有低于1%的概率是马拉松运动员。因此,我可以有99%的把握认为这不是那辆失踪的马拉松客车,也就是说,我可以预期我的推理有99%的胜算。
1702643642
1702643643 当然,依照概率,我的推理中有1%的概率是错的。
1702643644
1702643645 这类分析全都源自中心极限定理。从统计学的角度看,该定理拥有和勒布朗·詹姆斯一样强大的威力和优雅品质。根据中心极限定理,任意一个群体的样本平均值都会围绕在该群体的整体平均值周围,并且呈正态分布。没有理解这句话?别着急,让我将这句话拆开来慢慢为大家解释。
1702643646
1702643647 1.   假设有一个群体,如之前提到的马拉松比赛,我们对参赛运动员的体重感兴趣。将所有随机抽取的运动员体重样本(如某辆客车上的60名运动员)求平均值。
1702643648
1702643649 2.   我们将样本抽取的工作重复再三,如不断地在运动场上随机抽取60名运动员,并将每组样本的平均体重记录下来。
1702643650
1702643651 3.   这些样本平均值中的绝大部分都极为接近所有运动员的平均体重。有一些会稍高一点,有一些会稍低一点,只有极少数的样本平均值大大高于或低于群体平均值。
1702643652
1702643653 现在可以放背景音乐了,因为接下来就是奇迹发生的时刻……
1702643654
1702643655 4.   中心极限定理告诉我们,这些样本平均值会在群体平均值周围呈现一个正态分布。我想大家应该还记得本书第2章里介绍的正态分布,也就是一条形似“铁钟”的曲线,有68%的数值位于平均值一个标准差的范围之内,95%的数值在平均值两个标准差的范围内,以此类推。
1702643656
1702643657 5.   不论所研究的群体是怎样分布的,上述结论始终都是成立的。就算样本所在的群体不是正态分布,也不影响其样本平均值的正态分布形态。
1702643658
1702643659 让我们用一些真实的数据来说话,以美国的家庭收入分布为例。在美国,家庭收入并不是呈正态分布的,而是具有向右偏移的趋势。在某个年份里,没有一个家庭的收入会是负数,因此零美元就是分布曲线的最小值。与此同时,还有小部分家庭的收入会高得离谱儿,达到数百万美元甚至数十亿美元,因此我们可以想象分布曲线的右侧将会有一条长长的“尾巴”,如同9-1所示。
[ 上一页 ]  [ :1.70264361e+09 ]  [ 下一页 ]