1702634834
知识普及 纽约州是富州吗?
1702634835
1702634836
纽约州是一个富州吗?纽约州的个人平均收入在美国50个州中位居第四,和它的邻居康涅狄格州及新泽西州一起名列前茅(后两州分列第一、二名)。但是,康涅狄格州和新泽西州的家庭收入中位数分别位居全美第三名和第二名,纽约州却排在第17名。这是怎么回事?这是平均数不同于中位数的又一个例子。纽约州有许多收入非常高的居民,把平均收入提高了许多。但是,它的贫困户比例比新泽西和康涅狄格都要高,使得家庭收入中位数偏低。所以,纽约州并不富有,它只是同时拥有非常有钱和非常贫穷的居民这两种极端情况的州。
1702634837
1702634838
1702634839
对称分布的平均数和中位数很接近。事实上,当分布完全对称的时候,和M完全相等。然而,在偏斜分布里,平均数会离中位数而去,偏向较长的尾部。很多和钱有关的分布,例如收入、房价、财富等,都有很明显的右偏现象,平均数可能比中位数大很多。比如,我们在例3中看到,黑人、白人和讲西班牙语家庭的收入就是右偏的。美国人口普查局网站公布的2008年黑人家庭的平均收入是45127美元,讲西班牙语的家庭是50575美元,白人家庭是69107美元;其中位数分别为31969美元、37781美元和50673美元。因为有关钱的数据常常有少数特别大的观察值,所以描述这类分布常用的是中位数而不是平均数。
1702634840
1702634841
在平均数和中位数之间做选择的时候,要考虑的不只是对称分布还有偏斜分布。米德尔敦房屋售价的分布无疑是右偏的,但如果市议会为了决定税率而要估计所有房屋的总市值时,那么对他们有帮助的数字是平均数而非中位数,因为总市值是房屋总数乘以售价平均数,它和中位数没有什么关系。
1702634842
1702634843
1702634844
标准差被异常值或偏斜分布的长尾巴牵着鼻子走的情况,比平均数还要严重。湖人队全部13名球员薪酬的标准差s是780万美元,而如果不计入三个异常值,则s只有280万美元。还有一个理由让我们应该避免用标准差来描述偏斜分布:因为一个明显偏斜的分布的两边,分布情况并不一样,所以若只用一个数字,比如s,没有办法恰当地描述幅度。而五数概括里有两个四分位数还有最大值与最小值,所以比较理想。一般来说,只有在分布的形状大致对称的时候才用和s,这是比较明智的选择。
1702634845
1702634846
选择适当的数字描述分布
1702634847
1702634848
平均数和标准差会受异常值或偏斜分布的长尾巴的严重影响,而中位数和四分位数则几乎不受影响。
1702634849
1702634850
1702634851
要描述偏斜分布,或者有异常值的分布,五数概括通常要比平均数和标准差更合适。只有在分布的形状大致对称又没有异常值的时候,才用和s。
1702634852
1702634853
那么,我们为何还要花费精力在标准差上呢?原因在于,对于一种叫作“正态分布”(normal distribution)的重要对称分布来说,平均数和标准差是分布的中心和幅度的理所当然的量度。
1702634854
1702634855
请记住,图形可以提供最清楚的关于分布的总体情况。中心和幅度可以告诉我们分布的某些特征,但不能描述分布的形状。因此,每次得到数据后都应该先画图。
1702634856
1702634857
小结
1702634858
1702634859
本章要点
1702634860
1702634861
• 要呈现一组数据,我们先画出直方图或茎叶图。然后,再加入描述该分布中心和幅度的数字。
1702634862
1702634863
• 描述中心和幅度有两种常用方式:五数概括,平均数和标准差。
1702634864
1702634865
• 五数概括里包含了用来度量中心的中位数M,它位于所有观察值的中间位置,两个用来描述幅度的四分位数Q1和Q3,以及最小和最大观察值。
1702634866
1702634867
• 箱形图是展示五数概括的图形。
1702634868
1702634869
1702634870
• 平均数是所有观察值的平均值。
1702634871
1702634872
• 标准差度量幅度,它差不多是观察值与平均数的平均距离,所以用标准差的时候,一定是用平均数来度量中心。方差是标准差的平方。
1702634873
1702634874
• 平均数和标准差都会因为少数异常值而受到很大的影响。对于对称分布来说,平均数和中位数差不多一样,但是对偏斜分布来说,平均数会更加偏向长尾方向。
1702634875
1702634876
• 一般而言,大部分的分布都适合用五数概括来描述,而平均数和标准差只适用于大致对称的分布。
1702634877
1702634878
在第11章中,我们介绍了直方图和茎叶图,它们是用于展示单一变量分布的图形工具。我们对图的形状、中心、幅度感兴趣,在这一章,介绍了用于描述分布中心和幅度的几类数字。就对称分布而言,平均数和标准差可用来描述中心和幅度。对于非对称的分布,我们使用五数概括来描述。
1702634879
1702634880
在绝大多数例子里,我们使用图形和数字来描述单一变量的分布。这些观察值通常是某个总体中的一个样本,所以,它们也是第3章讨论的统计值。在后面几章,我们将用统计值得出关于总体的结论,或作为参数的估计值。从描述单一变量的分布中心的参数中得出结论,是一种重要的统计推断。
1702634881
1702634882
案例分析与评估
1702634883
[
上一页 ]
[ :1.702634834e+09 ]
[
下一页 ]