打字猴:1.702643678e+09
1702643678
1702643679
1702643680
1702643681 图9-2 样本平均体重公布图
1702643682
1702643683 样本数量越大,取样次数越多,样本平均值的分布就越接近一条正态分布曲线。(有一个经验是,样本数量必须达到30,中心极限定理才能保证成立)。这不难理解,样本所包含的数量越多,其平均值就越不容易受到随机偏差的干扰。如果一个样本只有两个人,那么其平均值就极有可能受到某一个体重特别重或特别轻的人的影响;与之相反,假如一个样本里有500人,那么即使里面有一些体重异常的人,总体的平均值也不会差得太多。
1702643684
1702643685 我们梦想着有朝一日能够用统计学解决所有的问题。现在,我们距离梦想成真只有一步之遥!上文已经提到,样本平均值基本呈正态分布,而正态分布曲线的过人之处就在于,我们能够大体确定有多少比例的数值位于整体平均值的一个标准差之内(68%),有多少数值位于两个标准差之内(95%),以此类推。这就是我们的“撒手锏”。
1702643686
1702643687 本章开头部分指出,我们可以凭直觉判断一辆客车载满乘客的平均体重比全体马拉松运动员的平均体重高25磅,那么这辆客车很可能不是那辆大赛组委会正在寻找的客车。为了将这一直觉量化,也就是说上述判断的正确率为95%、99%或99.9%,我们只需要再获得一个技术参数就可以了,那就是标准误差。
1702643688
1702643689 标准误差被用来衡量样本平均值的离散性。我们如何评价样本平均值在群体平均值周围的聚集程度?为了避免混淆,我们首先需要对两个概念进行区分:标准差和标准误差。关于这两个概念,我们有必要记住的是:
1702643690
1702643691 1.   标准差是用来衡量群体中所有个体的离散性。在之前的例子中,标准差衡量的是弗雷明汉心脏研究中所有参与者的体重分布,或马拉松比赛中所有参赛运动员的体重分布。
1702643692
1702643693 2.   标准误差衡量的仅仅是样本平均值的离散性。如果我们反复从弗雷明汉心脏研究数据库中抽取100名参与者作为样本,并计算其平均值,那么这些样本平均值的分布会是怎样一种情况?
1702643694
1702643695 3.   现在就是将这两个概念合二为一的时刻:标准误差就是所有样本平均值的标准差!这个结论是不是很酷?
1702643696
1702643697 如果标准误差差很大,就意味着样本平均值在群体平均值周围分布得极为分散,如果标准误差差很小,就意味着样本平均值之间的聚集程度很高。下面是取自“变化的一生”数据库的3个真实案例。
1702643698
1702643699
1702643700
1702643701
1702643702 图9-3样本平均值分布图(n=20)
1702643703
1702643704
1702643705
1702643706
1702643707 图9-4样本平均值分布图(n=100)
1702643708
1702643709
1702643710
1702643711
1702643712 图9-5女性样本平均值分布图
1702643713
1702643714 第二张分布图的样本数量较大,因此与第一张图相比,其平均值分布要更为密集一些,也更加靠近整体平均值,这是因为样本数量越多,其平均值就越不容易偏离整体平均值。最后一张分布图所描绘的仅仅是研究对象里的一个分支——女性人口,由于数据库中的女性人口体重分布相比起整体人口来说要更为紧密,因此从图中我们也不难看出,样本平均体重的离散程度要小于整个“变化的一生”数据库。(这些样本所在的整体人口的体重平均值实际上也有细微差别,这是因为“变化的一生”数据库里女性参与者的平均体重与全体参与者的平均体重是不同的。)
1702643715
1702643716 上述结论在一般情况下都是成立的。样本平均值的聚集程度会随着样本数量的增多而上升(例如,样本数量为100的分布图看上去就要比样本数量为30的紧凑)。所在群体人口的数据分布越分散,那么其样本平均值的聚集程度就越低。(例如,整个“变化的一生”数据库样本平均值的离散程度就要高于单纯的女性人口。)
1702643717
1702643718 如果到目前为止你都能够理解,那么接下来的这个计算标准误差的方程式应该不会成为难点:
1702643719
1702643720
1702643721 ,其中SE表示标准误差,s表示抽样群体的标准差,n表示样本的数量。请随时保持头脑清醒!千万不要让表面的字母干扰你的直觉判断。如果标准差本身的数值很大,那么标准误差的数值也不会小。取自一个高度离散群体的大规模样本,其离散程度也会很高;与之对应,如果是一个高度聚集的群体,其样本围绕平均值的聚集程度也会很高。如果还是以体重为例,我们可以推测,取样自“变化的一生”全体人口的标准误差会大于仅取样自其中20〜30岁男性人口的标准误差。这也是为什么公式中的标准差(s)出现在分子的位置上。
1702643722
1702643723 同样的,如果样本数量变大,那么标准误差就会变小,这是因为大型样本受极端异常值的影响相对较小。这也是为什么公式中的样本数量(n)出现在分母的位置上(至于为什么要对样本数量n开根号,我们就留给更高阶的书籍去解释吧,在这里我们只需要理解最基本,也是最重要的关系)。
1702643724
1702643725 在“变化的一生”的例子中,我们知道整体人口的标准差,而实际上这一点通常是很难做到的。对于大型样本来说,我们可以认为样本的标准差接近于整体人口的标准差。
1702643726
1702643727 经过刚刚这一场头脑风暴,我们终于等到了品尝胜利果实的时刻。由于样本平均值是呈正态分布的(这一点要归功于中心极限定理),我们便可以通过这条神奇的曲线来获得推理所需的“超能力”。已知的是,差不多有68%的样本平均值会在群体平均值一个标准误差的范围之内,有95%的样本平均值会在群体平均值的两个标准误差的范围之内,有99.7%的样本平均值会在群体平均值3个标准误差的范围之内。
[ 上一页 ]  [ :1.702643678e+09 ]  [ 下一页 ]