1702634810
选择描述方式
1702634811
1702634812
五数概括很容易理解,对于大部分的分布而言,它也是最佳的精简描述方式。平均数和标准差比较难懂,却很常用。我们如何决定用哪一种方式来描述分布的中心和幅度呢?让我们先比较一下平均数和中位数。不论用“中间点”还是“算术平均数”(arithmetic average)来描述一组数据的中心,都很合理。但是,二者的概念不同,用处也不一样。它们最重要的差别是,平均数(算术平均数)会因少数极端值而受到很大的影响,而中位数(中间点)则不会。
1702634813
1702634814
例6 平均数和中位数
1702634815
1702634816
表12–1给出了2011~2012赛季洛杉矶湖人队13名球员的大致薪酬。你可以算出这些球员薪酬的平均数为720万美元,中位数是400万美元。
1702634817
1702634818
表12–1 2011~2012赛季洛杉矶湖人队球员的薪酬
1702634819
1702634820
1702634821
1702634822
1702634823
资料来源:薪酬估计值来自www.sportscity.com/NBA/Los-Angeles-Lakers-Salaries.
1702634824
1702634825
为何平均数比中位数高出那么多呢?图12–8是球员薪酬的茎叶图,茎部分代表百万美元数字。这个分布偏向了右边,而且有三个很高的异常值。科比·布莱恩特、保罗·加索尔和安德鲁·拜纳姆的薪酬很高,拉升了薪酬总额。如果我们把异常值排除,其他10名球员的薪酬平均数是350万美元,而中位数的改变不大,从400万美元降至270万美元。
1702634826
1702634827
我们只要提高科比·布莱恩特的薪酬,就可以让薪酬平均数提高到任何我们想要的数字。因为只要有一个异常值一直往上升,平均数就会跟着上升。但对于中位数来说,科比的薪酬只是位于分布顶端的一个观察值,它从2520万美元变成2.52亿美元,一点儿也不会改变中位数的大小。
1702634828
1702634829
1702634830
1702634831
1702634832
图12–8 洛杉矶湖人队球员薪酬茎叶图
1702634833
1702634834
知识普及 纽约州是富州吗?
1702634835
1702634836
纽约州是一个富州吗?纽约州的个人平均收入在美国50个州中位居第四,和它的邻居康涅狄格州及新泽西州一起名列前茅(后两州分列第一、二名)。但是,康涅狄格州和新泽西州的家庭收入中位数分别位居全美第三名和第二名,纽约州却排在第17名。这是怎么回事?这是平均数不同于中位数的又一个例子。纽约州有许多收入非常高的居民,把平均收入提高了许多。但是,它的贫困户比例比新泽西和康涅狄格都要高,使得家庭收入中位数偏低。所以,纽约州并不富有,它只是同时拥有非常有钱和非常贫穷的居民这两种极端情况的州。
1702634837
1702634838
1702634839
对称分布的平均数和中位数很接近。事实上,当分布完全对称的时候,和M完全相等。然而,在偏斜分布里,平均数会离中位数而去,偏向较长的尾部。很多和钱有关的分布,例如收入、房价、财富等,都有很明显的右偏现象,平均数可能比中位数大很多。比如,我们在例3中看到,黑人、白人和讲西班牙语家庭的收入就是右偏的。美国人口普查局网站公布的2008年黑人家庭的平均收入是45127美元,讲西班牙语的家庭是50575美元,白人家庭是69107美元;其中位数分别为31969美元、37781美元和50673美元。因为有关钱的数据常常有少数特别大的观察值,所以描述这类分布常用的是中位数而不是平均数。
1702634840
1702634841
在平均数和中位数之间做选择的时候,要考虑的不只是对称分布还有偏斜分布。米德尔敦房屋售价的分布无疑是右偏的,但如果市议会为了决定税率而要估计所有房屋的总市值时,那么对他们有帮助的数字是平均数而非中位数,因为总市值是房屋总数乘以售价平均数,它和中位数没有什么关系。
1702634842
1702634843
1702634844
标准差被异常值或偏斜分布的长尾巴牵着鼻子走的情况,比平均数还要严重。湖人队全部13名球员薪酬的标准差s是780万美元,而如果不计入三个异常值,则s只有280万美元。还有一个理由让我们应该避免用标准差来描述偏斜分布:因为一个明显偏斜的分布的两边,分布情况并不一样,所以若只用一个数字,比如s,没有办法恰当地描述幅度。而五数概括里有两个四分位数还有最大值与最小值,所以比较理想。一般来说,只有在分布的形状大致对称的时候才用和s,这是比较明智的选择。
1702634845
1702634846
选择适当的数字描述分布
1702634847
1702634848
平均数和标准差会受异常值或偏斜分布的长尾巴的严重影响,而中位数和四分位数则几乎不受影响。
1702634849
1702634850
1702634851
要描述偏斜分布,或者有异常值的分布,五数概括通常要比平均数和标准差更合适。只有在分布的形状大致对称又没有异常值的时候,才用和s。
1702634852
1702634853
那么,我们为何还要花费精力在标准差上呢?原因在于,对于一种叫作“正态分布”(normal distribution)的重要对称分布来说,平均数和标准差是分布的中心和幅度的理所当然的量度。
1702634854
1702634855
请记住,图形可以提供最清楚的关于分布的总体情况。中心和幅度可以告诉我们分布的某些特征,但不能描述分布的形状。因此,每次得到数据后都应该先画图。
1702634856
1702634857
小结
1702634858
1702634859
本章要点
[
上一页 ]
[ :1.70263481e+09 ]
[
下一页 ]