1702634520
统计学的世界(第8版) 第12章 用数字描述分布
1702634521
1702634522
案例分析
1702634523
1702634524
教育是否值得投资?我们了解到,一般来说,受教育程度越高的人赚到的钱也越多。到底能多赚多少钱?我们如何回答这个问题呢?
1702634525
1702634526
在美国人口普查局网站上可以找到收入数据。这些数据是估计值,即2010年133074000位年龄在25岁及以上人士的收入数据,这是2011年人口调查的结果。网站上还给出了几个教育类别的收入分布数据,特别是将这几个教育类别又按收入区间细分为1~2499美元、2500~4999美元……97500~99999美元,以及100000美元以上各档。其包含的信息量很大,直方图可以展示这些数据。是否还有更简单的方法来呈现这些数据,以便我们做出更直观的比较呢?
1702634527
1702634528
在这一章里,我们将学习一些整理数据集的方法。学完本章,你就能够回答教育是否值得投资这个问题了。
1702634529
1702634530
2007年夏天,巴里·邦兹打破了全垒打的职业纪录,也打破了之前由汉克·艾伦创造的纪录。以下是从1986年(他的职业棒球生涯第一年)到2007年他击出的全垒打支数:
1702634531
1702634532
1702634533
1702634534
1702634535
图12–1的茎叶图展示了这组数据。该分布的形状有点儿不规则,有一个大的异常值,我们可以大致将其描述为轻微左偏,有一个尖峰。那个异常值当然就是邦兹在2001赛季创下的纪录了。
1702634536
1702634537
1702634538
1702634539
1702634540
图12–1 巴里·邦兹在其职业生涯的前22个赛季击出的全垒打支数茎叶图
1702634541
1702634542
一幅图再加上几个字,就可以把巴里·邦兹在其职业生涯中击的全垒打描述得很清楚。但是,要描述高中毕业的人的收入,只用言语可能是不够的,我们还需要用数字来表示分布的中心与幅度。
1702634543
1702634544
中位数和四分位数
1702634545
1702634546
我们在比较受教育程度不同的人的收入时,用了十分简单且有效的方法来描述中心和幅度:也就是中位数和四分位数(quartile)。中位数位于一组数据的正中间,也就是把观察值区分成数字较小的一半和数字较大的一半的那个值。介于第一四分位数(first quartile)及第三四分位数(third quartile)之间的,就是观察值的中间部分。四分位数名称的由来,是因为两个四分位数加上中位数,正好可以把观察值分成4个部分:有1/4位于第一四分位数之下,有1/2小于中位数,有3/4低于第三四分位数。这只是基本概念,要真正找到这些数字,我们还需要一个更准确的定义。
1702634547
1702634548
例1 找出中位数
1702634549
1702634550
我们可以拿邦兹和艾伦的职业纪录做个比较,后者是前职业纪录保持者。下面是艾伦在23年里击出的全垒打支数:
1702634551
1702634552
1702634553
1702634554
1702634555
为了找到中位数,先把这些数字按从小到大的顺序重新排列为:
1702634556
1702634557
1702634558
1702634559
1702634560
黑体的数字34位于正中间,它的左边有11个数,右边也有11个数。当观察的数字个数n是奇数时(在这个例子里,n=23),按顺序排列这些数字,总有一个数字位于正中间。这个数字就是中位数,即M=34。
1702634561
1702634562
如何与邦兹的纪录进行比较呢?这里有邦兹的22个赛季的全垒打支数,按照从小到大的顺序排列为:
1702634563
1702634564
1702634565
1702634566
1702634567
当n是偶数时,不会有一个数字位于正中间,而是有一对数字——黑体的34和34,在它们的左右两边各有10个数字。我们把中间这两个数字求平均值作为中位数。所以,邦兹的中位数就是:
1702634568
[
上一页 ]
[ :1.702634519e+09 ]
[
下一页 ]