1702634844
标准差被异常值或偏斜分布的长尾巴牵着鼻子走的情况,比平均数还要严重。湖人队全部13名球员薪酬的标准差s是780万美元,而如果不计入三个异常值,则s只有280万美元。还有一个理由让我们应该避免用标准差来描述偏斜分布:因为一个明显偏斜的分布的两边,分布情况并不一样,所以若只用一个数字,比如s,没有办法恰当地描述幅度。而五数概括里有两个四分位数还有最大值与最小值,所以比较理想。一般来说,只有在分布的形状大致对称的时候才用和s,这是比较明智的选择。
1702634845
1702634846
选择适当的数字描述分布
1702634847
1702634848
平均数和标准差会受异常值或偏斜分布的长尾巴的严重影响,而中位数和四分位数则几乎不受影响。
1702634849
1702634850
1702634851
要描述偏斜分布,或者有异常值的分布,五数概括通常要比平均数和标准差更合适。只有在分布的形状大致对称又没有异常值的时候,才用和s。
1702634852
1702634853
那么,我们为何还要花费精力在标准差上呢?原因在于,对于一种叫作“正态分布”(normal distribution)的重要对称分布来说,平均数和标准差是分布的中心和幅度的理所当然的量度。
1702634854
1702634855
请记住,图形可以提供最清楚的关于分布的总体情况。中心和幅度可以告诉我们分布的某些特征,但不能描述分布的形状。因此,每次得到数据后都应该先画图。
1702634856
1702634857
小结
1702634858
1702634859
本章要点
1702634860
1702634861
• 要呈现一组数据,我们先画出直方图或茎叶图。然后,再加入描述该分布中心和幅度的数字。
1702634862
1702634863
• 描述中心和幅度有两种常用方式:五数概括,平均数和标准差。
1702634864
1702634865
• 五数概括里包含了用来度量中心的中位数M,它位于所有观察值的中间位置,两个用来描述幅度的四分位数Q1和Q3,以及最小和最大观察值。
1702634866
1702634867
• 箱形图是展示五数概括的图形。
1702634868
1702634869
1702634870
• 平均数是所有观察值的平均值。
1702634871
1702634872
• 标准差度量幅度,它差不多是观察值与平均数的平均距离,所以用标准差的时候,一定是用平均数来度量中心。方差是标准差的平方。
1702634873
1702634874
• 平均数和标准差都会因为少数异常值而受到很大的影响。对于对称分布来说,平均数和中位数差不多一样,但是对偏斜分布来说,平均数会更加偏向长尾方向。
1702634875
1702634876
• 一般而言,大部分的分布都适合用五数概括来描述,而平均数和标准差只适用于大致对称的分布。
1702634877
1702634878
在第11章中,我们介绍了直方图和茎叶图,它们是用于展示单一变量分布的图形工具。我们对图的形状、中心、幅度感兴趣,在这一章,介绍了用于描述分布中心和幅度的几类数字。就对称分布而言,平均数和标准差可用来描述中心和幅度。对于非对称的分布,我们使用五数概括来描述。
1702634879
1702634880
在绝大多数例子里,我们使用图形和数字来描述单一变量的分布。这些观察值通常是某个总体中的一个样本,所以,它们也是第3章讨论的统计值。在后面几章,我们将用统计值得出关于总体的结论,或作为参数的估计值。从描述单一变量的分布中心的参数中得出结论,是一种重要的统计推断。
1702634881
1702634882
案例分析与评估
1702634883
1702634884
点击美国人口普查局的网址,找到按照教育水平分类的收入数据,用本章学到的知识回答以下问题:
1702634885
1702634886
• 25岁及以上高中文化程度的人、大学肄业者、有学士学位的人、有硕士学位的人和有博士学位的人的收入中位数各是多少?在表格的底部可以找到中位数收入(以美元为单位)。
1702634887
1702634888
• 从表格给出的分布里,可以(大致)找到第一四分位数和第三四分位数吗?
1702634889
1702634890
• 是否受教育程度越高的人,赚的钱也越多?请说明。
1702634891
1702634892
练习
1702634893
[
上一页 ]
[ :1.702634844e+09 ]
[
下一页 ]