打字猴:1.70264364e+09
1702643640
1702643641 举个例子,通过一些基本的运算,我们能够得出结论,在99%的情况下,任何一辆随机安排的客车上的选手的平均体重,都将会在全体运动员平均体重±9磅的范围之内。这就是当我偶遇一辆抛锚客车时做出上述判断的统计学支持。这些乘客的平均体重高于全体马拉松运动员平均体重整整21磅,只有低于1%的概率是马拉松运动员。因此,我可以有99%的把握认为这不是那辆失踪的马拉松客车,也就是说,我可以预期我的推理有99%的胜算。
1702643642
1702643643 当然,依照概率,我的推理中有1%的概率是错的。
1702643644
1702643645 这类分析全都源自中心极限定理。从统计学的角度看,该定理拥有和勒布朗·詹姆斯一样强大的威力和优雅品质。根据中心极限定理,任意一个群体的样本平均值都会围绕在该群体的整体平均值周围,并且呈正态分布。没有理解这句话?别着急,让我将这句话拆开来慢慢为大家解释。
1702643646
1702643647 1.   假设有一个群体,如之前提到的马拉松比赛,我们对参赛运动员的体重感兴趣。将所有随机抽取的运动员体重样本(如某辆客车上的60名运动员)求平均值。
1702643648
1702643649 2.   我们将样本抽取的工作重复再三,如不断地在运动场上随机抽取60名运动员,并将每组样本的平均体重记录下来。
1702643650
1702643651 3.   这些样本平均值中的绝大部分都极为接近所有运动员的平均体重。有一些会稍高一点,有一些会稍低一点,只有极少数的样本平均值大大高于或低于群体平均值。
1702643652
1702643653 现在可以放背景音乐了,因为接下来就是奇迹发生的时刻……
1702643654
1702643655 4.   中心极限定理告诉我们,这些样本平均值会在群体平均值周围呈现一个正态分布。我想大家应该还记得本书第2章里介绍的正态分布,也就是一条形似“铁钟”的曲线,有68%的数值位于平均值一个标准差的范围之内,95%的数值在平均值两个标准差的范围内,以此类推。
1702643656
1702643657 5.   不论所研究的群体是怎样分布的,上述结论始终都是成立的。就算样本所在的群体不是正态分布,也不影响其样本平均值的正态分布形态。
1702643658
1702643659 让我们用一些真实的数据来说话,以美国的家庭收入分布为例。在美国,家庭收入并不是呈正态分布的,而是具有向右偏移的趋势。在某个年份里,没有一个家庭的收入会是负数,因此零美元就是分布曲线的最小值。与此同时,还有小部分家庭的收入会高得离谱儿,达到数百万美元甚至数十亿美元,因此我们可以想象分布曲线的右侧将会有一条长长的“尾巴”,如同9-1所示。
1702643660
1702643661
1702643662
1702643663
1702643664 图9-1美国家庭年收入分布
1702643665
1702643666 美国所有家庭收入的中位数大约为5.19万美元,平均数为7.09万美元。(像比尔•盖茨这类富豪使得家庭收入的平均值向右移动,这跟他在第2章走进酒吧的例子是同一个道理)。现在假设我们随机抽样1000个美国家庭并询问他们的年收入,根据已知的信息,从中心极限定理出发,我们能对这个样本作怎样的推理?
1702643667
1702643668 其实结论有很多。首先,我们最应该得出的推理是,任何一个样本的平均值将会约等于其所在群体的平均值。样本的作用就是代表其所在的群体,也就是说,该样本要相似于其所在的群体。从大体上看,一个正确抽取的家庭样本应该能够反映美国所有家庭的情况,里面会包含基金经理、无家可归者、警察以及其他人,这些人出现的频率与他们在人口构成中的占比相关。因此,我们能够推测,这个包含1000个美国家庭代表性样本的家庭年收入的平均值约为7.09万美元。这个数字准确吗?并不准确,但也不会差得太多。
1702643669
1702643670 如果我们进行多次类似的抽样调查,就会发现这些不同样本的平均值基本上都接近于群体平均值——7.09万美元。我们还可以推测,有一些样本的平均值要高一点,一些样本的平均值要低一点,那么我们有可能得到一个42.7万美元的样本平均值吗?当然可能,但是概率非常低。(要注意的前提是,我们的取样方法是完善可靠的,我们不会在如格林尼治乡村俱乐部这类富人聚集地的停车场里进行抽样)。同理,如果进行了正确抽样,那么得到一个仅为8000美元的样本平均值的概率也是非常低的。
1702643671
1702643672 这些都只是基本逻辑。中心极限定理通过对不同样本平均值出现概率的描述,能够让我们推理出更为深入的结论。在这个例子中,样本平均值将会围绕着群体平均值(也就是7.09万美元)形成一条正态分布曲线。记住,群体本身的分布形态并不重要,美国家庭收入的分布曲线并非正态分布,但样本平均值的分布曲线却是正态分布。如果我们连续抽取100次包含1000个家庭的样本,并将它们的平均值的出现频率在坐标轴上标出,那么我们基本可以确定在7.09万美元周围将会呈现一个熟悉的“铁钟”曲线分布。
1702643673
1702643674 取样次数越多,结果就越接近正态分布,而且样本数量越大,分布就越接近正态分布。为了检验这一结论,我们可以进行一项有趣的实验,研究对象是美国人的真实体重。密歇根大学主持了一项名为“变化的一生”的纵向研究,对几千名美国成人的各项指标进行了监测,其中就包括他们的体重。体重分布曲线稍微右偏,这是因为从生理学的角度解释,成年人超过正常体重100磅总是要比低于正常体重100磅更容易。这项研究中包含的所有成年人的平均体重为162磅。
1702643675
1702643676 通过使用最基础的统计软件,我们可以让电脑从“变化的一生”数据库中随机选取100名成年人组成样本,事实上,如果我们不断重复这一操作,就可以验证其结果是否符合中心极限定理的预测。下图为“变化的一生”数据库中随机生成的100个样本的体重平均数(四舍五入到磅)的分布情况。
1702643677
1702643678
1702643679
1702643680
1702643681 图9-2 样本平均体重公布图
1702643682
1702643683 样本数量越大,取样次数越多,样本平均值的分布就越接近一条正态分布曲线。(有一个经验是,样本数量必须达到30,中心极限定理才能保证成立)。这不难理解,样本所包含的数量越多,其平均值就越不容易受到随机偏差的干扰。如果一个样本只有两个人,那么其平均值就极有可能受到某一个体重特别重或特别轻的人的影响;与之相反,假如一个样本里有500人,那么即使里面有一些体重异常的人,总体的平均值也不会差得太多。
1702643684
1702643685 我们梦想着有朝一日能够用统计学解决所有的问题。现在,我们距离梦想成真只有一步之遥!上文已经提到,样本平均值基本呈正态分布,而正态分布曲线的过人之处就在于,我们能够大体确定有多少比例的数值位于整体平均值的一个标准差之内(68%),有多少数值位于两个标准差之内(95%),以此类推。这就是我们的“撒手锏”。
1702643686
1702643687 本章开头部分指出,我们可以凭直觉判断一辆客车载满乘客的平均体重比全体马拉松运动员的平均体重高25磅,那么这辆客车很可能不是那辆大赛组委会正在寻找的客车。为了将这一直觉量化,也就是说上述判断的正确率为95%、99%或99.9%,我们只需要再获得一个技术参数就可以了,那就是标准误差。
1702643688
1702643689 标准误差被用来衡量样本平均值的离散性。我们如何评价样本平均值在群体平均值周围的聚集程度?为了避免混淆,我们首先需要对两个概念进行区分:标准差和标准误差。关于这两个概念,我们有必要记住的是:
[ 上一页 ]  [ :1.70264364e+09 ]  [ 下一页 ]