打字猴:1.702634644e+09
1702634644
1702634645 最小数 Q1M Q3最大数
1702634646
1702634647 这5个数字为分布的中心和幅度提供了大致完整的描述。艾伦的全垒打分布的五数概括是:
1702634648
1702634649 10 26 34 44 47
1702634650
1702634651 邦兹的是:
1702634652
1702634653 5 25 34 45 73
1702634654
1702634655 根据一个分布的五数概括可以画出一种新的图形,即“箱形图”(boxplot)。图12–2中显示出两组全垒打数据的箱形图比较。
1702634656
1702634657
1702634658
1702634659
1702634660 图12–2 比较邦兹和艾伦全垒打支数的箱形图
1702634661
1702634662 箱形图
1702634663
1702634664 箱形图是根据五数概括所画出的图形。
1702634665
1702634666 • 箱形图中间的箱体,从第一四分位数延伸到第三四分位数。
1702634667
1702634668 • 箱体里的直线代表中位数的位置。
1702634669
1702634670 • 箱体两头有直线往外延伸至最小数和最大数。
1702634671
1702634672 箱形图可以竖着画也可以横着画,但要记得在图中标示出数字刻度。检视箱形图的时候,要先找出中位数的位置,这就是分布的中心所在。然后看看幅度,两个四分位数的距离,显示出中间部分数据的分散状况,而箱形图的两端(最小数和最大数)则显示出整组数据的分散情况。从图12–2可以看出,如果以中位数和箱形图中箱体(涵盖中间部分数据)的位置来代表一般表现,邦兹的表现和艾伦就是接近的。我们还可以发现,艾伦的全垒打分布幅度没有邦兹的那么宽。
1702634673
1702634674 练习
1702634675
1702634676 12.2 贝比·鲁斯。这里有贝比·鲁斯在22年的职业棒球生涯中的全垒打数据,按从小到大的顺序排列为:
1702634677
1702634678
1702634679
1702634680
1702634681 画出这个分布的箱形图,并和邦兹、艾伦的箱形图(图12–2)做比较,看看有何不同?
1702634682
1702634683 因为箱形图包含的细节比直方图和茎叶图少,所以它的最佳用途是用来比较两个以上的分布,就像图12–2那样。不过,对于较少的观察值来说,画一个并列的茎叶图会更好(参考练习11.18)。因为我们从茎叶图可以清楚地看出,邦兹在2001年创下的73支全垒打纪录,在他的整个职业生涯中只不过是异常值,而这一点从箱形图中根本看不出来。
1702634684
1702634685 例3 收入不平等
1702634686
1702634687 为了调查收入不平等的情况,我们比较了讲西班牙语、黑人和白人家庭的收入。美国人口普查局网站提供了按照种族分类的家庭收入信息。图12–3比较了上述三类家庭2008年收入的分布情况,这幅图在箱形图的概念上做了一点儿修改。在几百万人中,最高收入一定是非常大的。图12–3用的是分布的95%的值,而不是单一的最高收入值。举例来说,代表讲西班牙语家庭的线只延伸到137568美元而不是最高收入值。许多统计软件允许你在画箱形图时对极端数值进行压缩,但通常不是采用95%这个比例。
1702634688
1702634689
1702634690
1702634691
1702634692 图12–3 比较讲西班牙语、黑人和白人家庭收入的箱形图,每个箱形的两端代表分布的0和95%
1702634693
[ 上一页 ]  [ :1.702634644e+09 ]  [ 下一页 ]