打字猴:1.70263482e+09
1702634820
1702634821
1702634822
1702634823 资料来源:薪酬估计值来自www.sportscity.com/NBA/Los-Angeles-Lakers-Salaries.
1702634824
1702634825 为何平均数比中位数高出那么多呢?图12–8是球员薪酬的茎叶图,茎部分代表百万美元数字。这个分布偏向了右边,而且有三个很高的异常值。科比·布莱恩特、保罗·加索尔和安德鲁·拜纳姆的薪酬很高,拉升了薪酬总额。如果我们把异常值排除,其他10名球员的薪酬平均数是350万美元,而中位数的改变不大,从400万美元降至270万美元。
1702634826
1702634827 我们只要提高科比·布莱恩特的薪酬,就可以让薪酬平均数提高到任何我们想要的数字。因为只要有一个异常值一直往上升,平均数就会跟着上升。但对于中位数来说,科比的薪酬只是位于分布顶端的一个观察值,它从2520万美元变成2.52亿美元,一点儿也不会改变中位数的大小。
1702634828
1702634829
1702634830
1702634831
1702634832 图12–8 洛杉矶湖人队球员薪酬茎叶图
1702634833
1702634834 知识普及 纽约州是富州吗?
1702634835
1702634836 纽约州是一个富州吗?纽约州的个人平均收入在美国50个州中位居第四,和它的邻居康涅狄格州及新泽西州一起名列前茅(后两州分列第一、二名)。但是,康涅狄格州和新泽西州的家庭收入中位数分别位居全美第三名和第二名,纽约州却排在第17名。这是怎么回事?这是平均数不同于中位数的又一个例子。纽约州有许多收入非常高的居民,把平均收入提高了许多。但是,它的贫困户比例比新泽西和康涅狄格都要高,使得家庭收入中位数偏低。所以,纽约州并不富有,它只是同时拥有非常有钱和非常贫穷的居民这两种极端情况的州。
1702634837
1702634838
1702634839 对称分布的平均数和中位数很接近。事实上,当分布完全对称的时候,和M完全相等。然而,在偏斜分布里,平均数会离中位数而去,偏向较长的尾部。很多和钱有关的分布,例如收入、房价、财富等,都有很明显的右偏现象,平均数可能比中位数大很多。比如,我们在例3中看到,黑人、白人和讲西班牙语家庭的收入就是右偏的。美国人口普查局网站公布的2008年黑人家庭的平均收入是45127美元,讲西班牙语的家庭是50575美元,白人家庭是69107美元;其中位数分别为31969美元、37781美元和50673美元。因为有关钱的数据常常有少数特别大的观察值,所以描述这类分布常用的是中位数而不是平均数。
1702634840
1702634841 在平均数和中位数之间做选择的时候,要考虑的不只是对称分布还有偏斜分布。米德尔敦房屋售价的分布无疑是右偏的,但如果市议会为了决定税率而要估计所有房屋的总市值时,那么对他们有帮助的数字是平均数而非中位数,因为总市值是房屋总数乘以售价平均数,它和中位数没有什么关系。
1702634842
1702634843
1702634844 标准差被异常值或偏斜分布的长尾巴牵着鼻子走的情况,比平均数还要严重。湖人队全部13名球员薪酬的标准差s是780万美元,而如果不计入三个异常值,则s只有280万美元。还有一个理由让我们应该避免用标准差来描述偏斜分布:因为一个明显偏斜的分布的两边,分布情况并不一样,所以若只用一个数字,比如s,没有办法恰当地描述幅度。而五数概括里有两个四分位数还有最大值与最小值,所以比较理想。一般来说,只有在分布的形状大致对称的时候才用和s,这是比较明智的选择。
1702634845
1702634846 选择适当的数字描述分布
1702634847
1702634848 平均数和标准差会受异常值或偏斜分布的长尾巴的严重影响,而中位数和四分位数则几乎不受影响。
1702634849
1702634850
1702634851 要描述偏斜分布,或者有异常值的分布,五数概括通常要比平均数和标准差更合适。只有在分布的形状大致对称又没有异常值的时候,才用和s。
1702634852
1702634853 那么,我们为何还要花费精力在标准差上呢?原因在于,对于一种叫作“正态分布”(normal distribution)的重要对称分布来说,平均数和标准差是分布的中心和幅度的理所当然的量度。
1702634854
1702634855 请记住,图形可以提供最清楚的关于分布的总体情况。中心和幅度可以告诉我们分布的某些特征,但不能描述分布的形状。因此,每次得到数据后都应该先画图。
1702634856
1702634857 小结
1702634858
1702634859 本章要点
1702634860
1702634861 • 要呈现一组数据,我们先画出直方图或茎叶图。然后,再加入描述该分布中心和幅度的数字。
1702634862
1702634863 • 描述中心和幅度有两种常用方式:五数概括,平均数和标准差。
1702634864
1702634865 • 五数概括里包含了用来度量中心的中位数M,它位于所有观察值的中间位置,两个用来描述幅度的四分位数Q1和Q3,以及最小和最大观察值。
1702634866
1702634867 • 箱形图是展示五数概括的图形。
1702634868
1702634869
[ 上一页 ]  [ :1.70263482e+09 ]  [ 下一页 ]