1702634544
中位数和四分位数
1702634545
1702634546
我们在比较受教育程度不同的人的收入时,用了十分简单且有效的方法来描述中心和幅度:也就是中位数和四分位数(quartile)。中位数位于一组数据的正中间,也就是把观察值区分成数字较小的一半和数字较大的一半的那个值。介于第一四分位数(first quartile)及第三四分位数(third quartile)之间的,就是观察值的中间部分。四分位数名称的由来,是因为两个四分位数加上中位数,正好可以把观察值分成4个部分:有1/4位于第一四分位数之下,有1/2小于中位数,有3/4低于第三四分位数。这只是基本概念,要真正找到这些数字,我们还需要一个更准确的定义。
1702634547
1702634548
例1 找出中位数
1702634549
1702634550
我们可以拿邦兹和艾伦的职业纪录做个比较,后者是前职业纪录保持者。下面是艾伦在23年里击出的全垒打支数:
1702634551
1702634552
1702634553
1702634554
1702634555
为了找到中位数,先把这些数字按从小到大的顺序重新排列为:
1702634556
1702634557
1702634558
1702634559
1702634560
黑体的数字34位于正中间,它的左边有11个数,右边也有11个数。当观察的数字个数n是奇数时(在这个例子里,n=23),按顺序排列这些数字,总有一个数字位于正中间。这个数字就是中位数,即M=34。
1702634561
1702634562
如何与邦兹的纪录进行比较呢?这里有邦兹的22个赛季的全垒打支数,按照从小到大的顺序排列为:
1702634563
1702634564
1702634565
1702634566
1702634567
当n是偶数时,不会有一个数字位于正中间,而是有一对数字——黑体的34和34,在它们的左右两边各有10个数字。我们把中间这两个数字求平均值作为中位数。所以,邦兹的中位数就是:
1702634568
1702634569
1702634570
1702634571
1702634572
在排好顺序后,我们可以用一个方法很快找到中位数:从头数起一直到(n+1)/2的位置。你可以试试看。对艾伦来说,n=23,(23+1)/2=12,所以中位数是从头数起的第12个数字。对邦兹来说,n=22,而(22+1)/2=11.5,这代表中位数“位于第11和第12个数字中间”,所以M就是这两个数字的平均数。“(n+1)/2”这个方法在有很多观察值的时候尤其好用,比如,n=46940时,收入的中位数是排序之后第23470和第23471个数字的平均值。不过要注意,(n+1)/2并不等于中位数M,而是指在对观察值进行排序后中位数所在的位置。
1702634573
1702634574
中位数M
1702634575
1702634576
中位数M是一个分布的中间点,也就是一半观察值比它小,而另一半比它大的那个数。要找到中位数,步骤如下:
1702634577
1702634578
• 把所有观察值按由小到大的顺序排序。
1702634579
1702634580
• 若观察值的个数n为奇数,中位数M就是排序后位于正中间的一个观察值。要找到中位数,只要从头数起,数到第(n+l)/2位即可。
1702634581
1702634582
• 若观察值的个数n为偶数,中位数就是排序之后位于中间的两个观察值的平均值。要找到中位数的位置,仍然是从头数到第(n+l)/2位即可。
1702634583
1702634584
1702634585
1702634586
1702634587
“没错儿,老鲍勃溺水而亡完全是因为他不懂统计学。他以为只要知道河的平均深度就可以了。”
1702634588
1702634589
美国人口普查局网站提供了收入不平等情况的数据。例如,我们看到2008年讲西班牙语家庭的收入中位数是37913美元。这虽然有用但并不全面。是不是大多数讲西班牙语家庭的收入都接近这个数呢,还是收入的分布范围非常宽广?对于一个分布的最简单有用的描述中必须包括中心和幅度。如果我们选择用中位数(中间点)来描述中心,就可以用四分位数来描述幅度。而且这个方法很简单:从排好顺序的观察值里,找出位于1/4的位置和3/4的位置的值。
1702634590
1702634591
四分位数Q1与Q3
1702634592
1702634593
寻找四分位数的步骤如下:
[
上一页 ]
[ :1.702634544e+09 ]
[
下一页 ]