1702634669
1702634670
• 箱体两头有直线往外延伸至最小数和最大数。
1702634671
1702634672
箱形图可以竖着画也可以横着画,但要记得在图中标示出数字刻度。检视箱形图的时候,要先找出中位数的位置,这就是分布的中心所在。然后看看幅度,两个四分位数的距离,显示出中间部分数据的分散状况,而箱形图的两端(最小数和最大数)则显示出整组数据的分散情况。从图12–2可以看出,如果以中位数和箱形图中箱体(涵盖中间部分数据)的位置来代表一般表现,邦兹的表现和艾伦就是接近的。我们还可以发现,艾伦的全垒打分布幅度没有邦兹的那么宽。
1702634673
1702634674
练习
1702634675
1702634676
12.2 贝比·鲁斯。这里有贝比·鲁斯在22年的职业棒球生涯中的全垒打数据,按从小到大的顺序排列为:
1702634677
1702634678
1702634679
1702634680
1702634681
画出这个分布的箱形图,并和邦兹、艾伦的箱形图(图12–2)做比较,看看有何不同?
1702634682
1702634683
因为箱形图包含的细节比直方图和茎叶图少,所以它的最佳用途是用来比较两个以上的分布,就像图12–2那样。不过,对于较少的观察值来说,画一个并列的茎叶图会更好(参考练习11.18)。因为我们从茎叶图可以清楚地看出,邦兹在2001年创下的73支全垒打纪录,在他的整个职业生涯中只不过是异常值,而这一点从箱形图中根本看不出来。
1702634684
1702634685
例3 收入不平等
1702634686
1702634687
为了调查收入不平等的情况,我们比较了讲西班牙语、黑人和白人家庭的收入。美国人口普查局网站提供了按照种族分类的家庭收入信息。图12–3比较了上述三类家庭2008年收入的分布情况,这幅图在箱形图的概念上做了一点儿修改。在几百万人中,最高收入一定是非常大的。图12–3用的是分布的95%的值,而不是单一的最高收入值。举例来说,代表讲西班牙语家庭的线只延伸到137568美元而不是最高收入值。许多统计软件允许你在画箱形图时对极端数值进行压缩,但通常不是采用95%这个比例。
1702634688
1702634689
1702634690
1702634691
1702634692
图12–3 比较讲西班牙语、黑人和白人家庭收入的箱形图,每个箱形的两端代表分布的0和95%
1702634693
1702634694
图12–3给了我们一个简单清晰的比较。我们可以看到,讲西班牙语家庭收入的中位数和中间部分要比黑人家庭稍大,而白人家庭的中位数和中间部分比讲西班牙语家庭和黑人家庭都要大。5%的最低收入很小,因为每一组都有收入为零甚至负收入的情况,原因可能是疾病或残疾。分布的95%代表了5%的最高收入家庭,白人家庭也是比黑人和讲西班牙语家庭高,讲西班牙语家庭比黑人家庭高。从整体上看,白人家庭的收入比讲西班牙语家庭和黑人家庭高,凸显了收入上的种族不平等现象。
1702634695
1702634696
图12–3还展示了箱形图是怎样表示对称分布性或偏斜分布的。在对称分布中,第一四分位数与中位数的距离和第三四分位数与中位数的距离是相等的。而在右偏分布中,第三四分位数与中位数的距离要大于第一四分位数与中位数的距离。即便略去了5%的收入最高的家庭,我们仍能看到这三组的收入分布是右偏的。
1702634697
1702634698
【统计学中的争议】收入不平等
1702634699
1702634700
在繁荣的20世纪八九十年代,美国的家庭收入虽然有所增加,贫富差距却加大了。图12–4和图12–5对于日益加大的贫富差距提供了两种不同的观点。图12–4是家庭收入的线图,单位是美元,但是经过调整,使得1美元的购买力在每一年都一样。两条线分别代表第20百分位数(percentile)与第80百分位数,二者区分出了收入最低的1/5家庭和收入最高的1/5家庭。第80百分位数(在1967~2010年增加了48%)和第20百分位数之间的差距越拉越大,因为后者只增加了大约17%。
1702634701
1702634702
1702634703
1702634704
1702634705
图12–4 美国家庭收入分布中的两个点随时间改变的状况。有80%的家庭收入在第80百分位数之下,有20%在第20百分位数之下。2010年,第20百分位数为20000美元,第80百分位数是100065美元
1702634706
1702634707
图12–5展示的是收入最高的1/5家庭以及收入最低的1/5家庭分别占总收入的百分比。收入最低的1/5家庭,收入所占百分比缓慢下降,到2010年只占总收入的3.3%。而收入最高的1/5家庭,收入却增加到占总家庭收入的50.2%(在1967~2010年增长了15.1%)。收入最高的5%家庭,收入增加的速度更快,从1967年占总收入的17.2%增加到2010年的21.3%,增长幅度达到23.8%。贫富差距问题在美国比其他发达国家严重,而且愈演愈烈。
1702634708
1702634709
1702634710
1702634711
1702634712
图12–5 20%最高收入家庭与20%最低收入家庭的所得占总家庭收入的百分比随时间变化的状况。2010年,20%最高收入家庭的所得占总家庭收入的一半
1702634713
1702634714
这些数据引发人们的关注了吗?是否准确反映了贫富差距问题?比如,随着人们的年龄增长,他们的收入增加了,也许这些数字只反映了年轻人和中年人在薪酬上的差别。你怎样看这个问题?
1702634715
1702634716
平均数和标准差
1702634717
1702634718
五数概括并不是描述变量分布最常用的方式,最常用的是平均数(mean)和标准差(standard deviation)。我们很熟悉平均数,它就是对观察值取平均。标准差的概念,指的是找出观察值与平均数之间的平均距离。但是,标准差所代表的“平均距离”,不是用一个简单明了的公式就可以计算的。我们会把公式列出来,而把计算的部分留给计算器或其他技术去完成。
[
上一页 ]
[ :1.702634669e+09 ]
[
下一页 ]