1702643628
1702643629
请跟上我的节奏:如果上面的第一点内容是成立的,那么第二点内容一定也成立,反之亦然。如果抽取的每一个样本与其所代表的群体确实存在相似关系,那么这个群体将总是与其样本保持一致性。(如果孩子与其父母长得很像,那么父母肯定也与孩子长得很像。)
1702643630
1702643631
3. 如果我们掌握了某个样本的数据,以及某个群体的数据,就能推理出该样本是否就是该群体的样本之一。这就是我们在本章一开始的时候所举的那个马拉松比赛失踪客车的例子。已知马拉松参赛选手的平均体重(估算),以及那辆抛锚客车上所有乘客的平均体重(目测),通过中心极限定理,我们就能计算出某个样本(客车上的肥胖乘客)属于某个群体(马拉松比赛选手)的概率是多少,如果概率非常低,那么我们就能自信满满地说该样本不属于该群体(例如,客车上的乘客看上去真的不像是一群前往马拉松比赛起点的运动员)。
1702643632
1702643633
4. 最后,如果我们已知两个样本的基本特性,就能推理出这两个样本是否取自同一个群体。让我们回到那个(越来越荒谬的)客车的例子上。我们现在得知这座城市即将同时举办马拉松比赛和国际香肠节,假设这两个盛会都将会迎来数以千计的参与者,而且他们都乘坐主办方安排的客车前往会场,因此客车上要么是随机安排的马拉松运动员,要么是随机安排的香肠爱好者。进一步假设有两辆客车在路上撞在一起了(我已经承认这是一个荒谬的例子,所以还请诸位读者勉强读下去吧),作为这座城市的管理者,你被派往现场了解事故情况,看看这两辆客车是不是都前往同一个地点(马拉松比赛或香肠节)。让人不可思议的是,两辆客车上的乘客都不会说英语,但到场的医护人员给你提供了一份关于这两辆车上的乘客体重的详细信息。
1702643634
1702643635
仅从这一点信息,你就能推理出这两辆客车前往的是相同的会场还是不同的会场。请再次用你的直觉进行判断,假设其中一辆客车上乘客的平均体重为157磅,标准差为11磅(也就是说绝大部分乘客的体重为146〜168磅)。而另一辆客车上乘客的平均体重为211磅,标准差为21磅(即绝大部分乘客的体重为190〜232磅)。此刻请忘掉所有的统计学公式,仅凭逻辑做出判断:这两辆客车上的乘客是从同一个群体中随机抽取的样本吗?
1702643636
1702643637
不是。一个更有可能的情形是:其中一辆客车上是马拉松运动员,而另一辆客车上则是香肠爱好者。除了平均体重的不同以外,想必你还注意到了两辆客车乘客之间的体重差异要远大于各客车内部乘客的体重差异,总重量较轻的客车里高于平均值一个标准差的乘客体重(168磅),但还是轻于另一辆客车上低于平均值一个标准差的乘客体重(190磅),这一点表明(无论从统计学的角度还是从逻辑的角度)这两个样本有可能来自不同的群体。
1702643638
1702643639
如果凭借直觉能理解到这一步的话,就说明你已经理解了93.2%的中心极限定理了。我们需要更进一步,在直觉背后加上一些技术支撑。显而易见,当你登上一辆抛锚的客车,发现里面坐满了身穿宽松运动裤的“肥胖”乘客时,你的直觉会告诉你他们不会是马拉松运动员。而中心极限定理能够让你在直觉的基础上更上一层楼,为你的判断提供数据支持。
1702643640
1702643641
举个例子,通过一些基本的运算,我们能够得出结论,在99%的情况下,任何一辆随机安排的客车上的选手的平均体重,都将会在全体运动员平均体重±9磅的范围之内。这就是当我偶遇一辆抛锚客车时做出上述判断的统计学支持。这些乘客的平均体重高于全体马拉松运动员平均体重整整21磅,只有低于1%的概率是马拉松运动员。因此,我可以有99%的把握认为这不是那辆失踪的马拉松客车,也就是说,我可以预期我的推理有99%的胜算。
1702643642
1702643643
当然,依照概率,我的推理中有1%的概率是错的。
1702643644
1702643645
这类分析全都源自中心极限定理。从统计学的角度看,该定理拥有和勒布朗·詹姆斯一样强大的威力和优雅品质。根据中心极限定理,任意一个群体的样本平均值都会围绕在该群体的整体平均值周围,并且呈正态分布。没有理解这句话?别着急,让我将这句话拆开来慢慢为大家解释。
1702643646
1702643647
1. 假设有一个群体,如之前提到的马拉松比赛,我们对参赛运动员的体重感兴趣。将所有随机抽取的运动员体重样本(如某辆客车上的60名运动员)求平均值。
1702643648
1702643649
2. 我们将样本抽取的工作重复再三,如不断地在运动场上随机抽取60名运动员,并将每组样本的平均体重记录下来。
1702643650
1702643651
3. 这些样本平均值中的绝大部分都极为接近所有运动员的平均体重。有一些会稍高一点,有一些会稍低一点,只有极少数的样本平均值大大高于或低于群体平均值。
1702643652
1702643653
现在可以放背景音乐了,因为接下来就是奇迹发生的时刻……
1702643654
1702643655
4. 中心极限定理告诉我们,这些样本平均值会在群体平均值周围呈现一个正态分布。我想大家应该还记得本书第2章里介绍的正态分布,也就是一条形似“铁钟”的曲线,有68%的数值位于平均值一个标准差的范围之内,95%的数值在平均值两个标准差的范围内,以此类推。
1702643656
1702643657
5. 不论所研究的群体是怎样分布的,上述结论始终都是成立的。就算样本所在的群体不是正态分布,也不影响其样本平均值的正态分布形态。
1702643658
1702643659
让我们用一些真实的数据来说话,以美国的家庭收入分布为例。在美国,家庭收入并不是呈正态分布的,而是具有向右偏移的趋势。在某个年份里,没有一个家庭的收入会是负数,因此零美元就是分布曲线的最小值。与此同时,还有小部分家庭的收入会高得离谱儿,达到数百万美元甚至数十亿美元,因此我们可以想象分布曲线的右侧将会有一条长长的“尾巴”,如同9-1所示。
1702643660
1702643661
1702643662
1702643663
1702643664
图9-1美国家庭年收入分布
1702643665
1702643666
美国所有家庭收入的中位数大约为5.19万美元,平均数为7.09万美元。(像比尔•盖茨这类富豪使得家庭收入的平均值向右移动,这跟他在第2章走进酒吧的例子是同一个道理)。现在假设我们随机抽样1000个美国家庭并询问他们的年收入,根据已知的信息,从中心极限定理出发,我们能对这个样本作怎样的推理?
1702643667
1702643668
其实结论有很多。首先,我们最应该得出的推理是,任何一个样本的平均值将会约等于其所在群体的平均值。样本的作用就是代表其所在的群体,也就是说,该样本要相似于其所在的群体。从大体上看,一个正确抽取的家庭样本应该能够反映美国所有家庭的情况,里面会包含基金经理、无家可归者、警察以及其他人,这些人出现的频率与他们在人口构成中的占比相关。因此,我们能够推测,这个包含1000个美国家庭代表性样本的家庭年收入的平均值约为7.09万美元。这个数字准确吗?并不准确,但也不会差得太多。
1702643669
1702643670
如果我们进行多次类似的抽样调查,就会发现这些不同样本的平均值基本上都接近于群体平均值——7.09万美元。我们还可以推测,有一些样本的平均值要高一点,一些样本的平均值要低一点,那么我们有可能得到一个42.7万美元的样本平均值吗?当然可能,但是概率非常低。(要注意的前提是,我们的取样方法是完善可靠的,我们不会在如格林尼治乡村俱乐部这类富人聚集地的停车场里进行抽样)。同理,如果进行了正确抽样,那么得到一个仅为8000美元的样本平均值的概率也是非常低的。
1702643671
1702643672
这些都只是基本逻辑。中心极限定理通过对不同样本平均值出现概率的描述,能够让我们推理出更为深入的结论。在这个例子中,样本平均值将会围绕着群体平均值(也就是7.09万美元)形成一条正态分布曲线。记住,群体本身的分布形态并不重要,美国家庭收入的分布曲线并非正态分布,但样本平均值的分布曲线却是正态分布。如果我们连续抽取100次包含1000个家庭的样本,并将它们的平均值的出现频率在坐标轴上标出,那么我们基本可以确定在7.09万美元周围将会呈现一个熟悉的“铁钟”曲线分布。
1702643673
1702643674
取样次数越多,结果就越接近正态分布,而且样本数量越大,分布就越接近正态分布。为了检验这一结论,我们可以进行一项有趣的实验,研究对象是美国人的真实体重。密歇根大学主持了一项名为“变化的一生”的纵向研究,对几千名美国成人的各项指标进行了监测,其中就包括他们的体重。体重分布曲线稍微右偏,这是因为从生理学的角度解释,成年人超过正常体重100磅总是要比低于正常体重100磅更容易。这项研究中包含的所有成年人的平均体重为162磅。
1702643675
1702643676
通过使用最基础的统计软件,我们可以让电脑从“变化的一生”数据库中随机选取100名成年人组成样本,事实上,如果我们不断重复这一操作,就可以验证其结果是否符合中心极限定理的预测。下图为“变化的一生”数据库中随机生成的100个样本的体重平均数(四舍五入到磅)的分布情况。
1702643677
[
上一页 ]
[ :1.702643628e+09 ]
[
下一页 ]