打字猴:1.70264371e+09
1702643710
1702643711
1702643712 图9-5女性样本平均值分布图
1702643713
1702643714 第二张分布图的样本数量较大,因此与第一张图相比,其平均值分布要更为密集一些,也更加靠近整体平均值,这是因为样本数量越多,其平均值就越不容易偏离整体平均值。最后一张分布图所描绘的仅仅是研究对象里的一个分支——女性人口,由于数据库中的女性人口体重分布相比起整体人口来说要更为紧密,因此从图中我们也不难看出,样本平均体重的离散程度要小于整个“变化的一生”数据库。(这些样本所在的整体人口的体重平均值实际上也有细微差别,这是因为“变化的一生”数据库里女性参与者的平均体重与全体参与者的平均体重是不同的。)
1702643715
1702643716 上述结论在一般情况下都是成立的。样本平均值的聚集程度会随着样本数量的增多而上升(例如,样本数量为100的分布图看上去就要比样本数量为30的紧凑)。所在群体人口的数据分布越分散,那么其样本平均值的聚集程度就越低。(例如,整个“变化的一生”数据库样本平均值的离散程度就要高于单纯的女性人口。)
1702643717
1702643718 如果到目前为止你都能够理解,那么接下来的这个计算标准误差的方程式应该不会成为难点:
1702643719
1702643720
1702643721 ,其中SE表示标准误差,s表示抽样群体的标准差,n表示样本的数量。请随时保持头脑清醒!千万不要让表面的字母干扰你的直觉判断。如果标准差本身的数值很大,那么标准误差的数值也不会小。取自一个高度离散群体的大规模样本,其离散程度也会很高;与之对应,如果是一个高度聚集的群体,其样本围绕平均值的聚集程度也会很高。如果还是以体重为例,我们可以推测,取样自“变化的一生”全体人口的标准误差会大于仅取样自其中20〜30岁男性人口的标准误差。这也是为什么公式中的标准差(s)出现在分子的位置上。
1702643722
1702643723 同样的,如果样本数量变大,那么标准误差就会变小,这是因为大型样本受极端异常值的影响相对较小。这也是为什么公式中的样本数量(n)出现在分母的位置上(至于为什么要对样本数量n开根号,我们就留给更高阶的书籍去解释吧,在这里我们只需要理解最基本,也是最重要的关系)。
1702643724
1702643725 在“变化的一生”的例子中,我们知道整体人口的标准差,而实际上这一点通常是很难做到的。对于大型样本来说,我们可以认为样本的标准差接近于整体人口的标准差。
1702643726
1702643727 经过刚刚这一场头脑风暴,我们终于等到了品尝胜利果实的时刻。由于样本平均值是呈正态分布的(这一点要归功于中心极限定理),我们便可以通过这条神奇的曲线来获得推理所需的“超能力”。已知的是,差不多有68%的样本平均值会在群体平均值一个标准误差的范围之内,有95%的样本平均值会在群体平均值的两个标准误差的范围之内,有99.7%的样本平均值会在群体平均值3个标准误差的范围之内。
1702643728
1702643729
1702643730
1702643731
1702643732 图9-6样本平均值概率分布图
1702643733
1702643734 现在让我们回到对失踪客车案例的思考中(但这个例子还将会延续其“荒诞”的特点,我保证下一章会引用更多真实、合理的案例),这次我们需要用数字来代替直觉。假设“变化的一生”研究小组邀请了所有参与者前往波士顿共度周末,并在这期间进行一次完整的数据采集工作。参与者被随机分配到每一辆客车上,来往于不同的设备进行称重、验血等检测。令人意外的是,其中有一辆客车失踪了,当地新闻还特地报道了此事。与此同时,你正从国际香肠节的活动现场赶往这里,因为你刚刚处理了一起交通事故,一辆客车为了躲避一只野生狐狸冲到了马路外边,客车上所有的乘客都失去了意识,但所幸伤得不重(这个例子需要他们失去交流能力,但我个人又不想使他们伤势过重,于是只能出此下策)。医护人员告诉你那辆客车上所有62名乘客的平均体重为194磅,此外,客车想要竭力躲闪的狐狸也受伤了,一条后肢看上去似乎骨折了。
1702643735
1702643736
1702643737 幸运的是,你恰好知道“变化的一生”数据库上所有参与者的平均体重和标准差,而且你也知道中心极限定理的工作原理,最重要的是,你还知道如何给一头野生狐狸急救。“变化的一生”研究的参与者的平均体重为162磅,标准差是36,在此基础上,我们能够计算得出一个数量为62人(也就是客车上正处于昏迷中的那些乘客)的样本的标准误差为:,即4.6。
1702643738
1702643739 样本平均体重(194镑)与整体平均体重(162磅)之间有32磅的差距,是标准误差的3倍多。我们从中心极限定理得知,99.7%的样本平均值会处于整体人口平均值3个标准误差的范围内,因此出事的那辆客车上搭载的是“变化的一生”项目的研究对象的概率几乎为零。作为这座文明城市的一分子,你有义务呼叫研究中心,告诉相关人员这很有可能不是他们所要找的那辆客车,而且除了告诉他们你的“直觉”以外,你还可以用统计数据来支撑你的判断。你在电话里可以这样说,你有99.7%的把握认定这辆客车不是他们正在寻找的那辆,由于电话那边听你说话的都是研究人员,他们肯定能够理解这个数字背后的含义。
1702643740
1702643741 在医护人员对客车上昏迷的乘客进行验血之后,你的分析得到了进一步的证实。这些乘客血液中的胆固醇含量的平均值比“变化的一生”项目的研究对象的平均值高出了5个标准误差,这些昏迷不醒的乘客事后被证明是国际香肠节邀请的嘉宾。
1702643742
1702643743 这个故事还有一个皆大欢喜的结局。在客车上的乘客们恢复了知觉以后,“变化的一生”研究组的科学家们为他们举办了一次名为“高饱和脂肪饮食的危害”的讲座,促使他们中的许多人逐渐养成了比以前更为健康的饮食习惯。与此同时,那只受伤的狐狸也在当地一家野生动物保护中心得到了悉心照料并痊愈了,最终健康地回归大自然。[⑤]
1702643744
1702643745 本章自始至终讲的都是最基本的知识。大家要引起注意的是,为了能够让中心极限定理成立,样本数量必须足够多(依照经验法则,至少有30个);如果我们想要假设群体的标准差等同于样本的标准差,那么更要保证样本数量足够多了。当这些情况都无法满足时,我们还有多种多样的统计学方法来弥补,但这些都是蛋糕上的装饰(甚至仅仅是蛋糕上的糖霜)。本章所介绍的“真家伙”才是既简单又实用的:
1702643746
1702643747 1.   如果你从某个研究群体中多次随机抽取数量足够多的样本,那么这些样本的平均值会以整体平均值为中心呈现正态分布(不论该群体自身的分布情况是怎样的)。
1702643748
1702643749 2.   绝大多数的样本平均值都会紧紧围绕在整体平均值的周围,通过计算标准误差就可以知道这些样本平均值到底是离得“近”还是“远”。
1702643750
1702643751 3.   通过中心极限定理,我们便可知道样本平均值与整体平均值之间的距离及其概率。样本平均值离整体平均值两个标准误差的概率相对较低,3个或以上标准误差的概率基本上为零。
1702643752
1702643753 4.   如果出现了某个概率较低的结果,我们便可以推测是不是有一些其他因素介入,而且概率越低,其他因素介入的可能性就越大。
1702643754
1702643755 这些基本上囊括了统计推断的所有内容,而中心极限定理是让这一切发生的重要推动力。只要勒布朗•詹姆斯的NBA总冠军戒指的数量没有超过迈克尔•乔丹(6枚),中心极限定理的魅力就将始终在乔丹之上。
1702643756
1702643757
1702643758
1702643759
[ 上一页 ]  [ :1.70264371e+09 ]  [ 下一页 ]