1702642700
1702642701
假设竞争对手售出的打印机在保修期内平均每台反馈的质量问题数为2.8个,而你的公司所售打印机的平均质量问题数为9.1个,这样说够直白了吧?通过计算,两家公司共计100多万台打印机的信息就被你提炼浓缩为问题的核心所在:你公司的打印机经常出现问题。现在你就可以给你的老板发一封简短的邮件,用数据告诉他两家公司打印机的质量差距,然后点开之前的网页继续看那位名媛金•卡戴珊婚后第8天的生活。
1702642702
1702642703
或者,你也可以等会儿再浏览网页。刚才谈到数据分布的“中间位置”时我并没有展开,其实所谓的平均数、平均值在这里是有一些问题的,即它们容易受到远离中心区域的“异常值”的干扰而出现失真。为了能够让大家更好地理解,我来举个例子,在西雅图的一家中档酒吧的吧台前,坐着10个人,他们每年的平均收入都是3.5万美元,也就是说,这组人的人均年收入为3.5万美元。这时候,比尔•盖茨走进了这家酒吧,肩膀上立着一只会说话的鹦鹉(其实这只鹦鹉与这个事例一点儿关系都没有,之所以要提一下鹦鹉是想给这个案例增加点儿乐趣),假设他在这个案例中的年收入为10亿美元。当比尔·盖茨在吧台前的第11把発子上坐下后,这组人的平均年收入便迅速上升到了将近9100万美元。很显然,之前的那10个人丝毫没有变得更富有(尽管比尔•盖茨很有可能会帮他们付一两次酒账,但仅此而已)。如果我说吧台前的这群人平均年收入为9100万美元,这句话在数据上是正确的,但同时也相当具有误导性。这里不是一个亿万富翁会经常光顾的酒吧,只不过正好有一群收入不高的普通人坐在了比尔•盖茨和他的会说话的鹦鹉旁边。平均数必须对“异常值”有足够的敏感性,这也是为什么我们不应该用人均收入来衡量美国中产阶级的经济健康状况。因为在收入分配的顶端,有着一群收入暴涨的美国人——公司高管、对冲基金经理,以及像德瑞克•基特这样的运动员,普通美国人的收入会被这些巨富们的光环掩盖,就像一群失意的普通人坐在比尔·盖茨身边一样。
1702642704
1702642705
出于这个原因,我们还有一个数据可以用来表示分配的“中间位置”,但与平均数有所不同,这个中间位置就是中位数。中位数正好将一组数字一分为二,1/2位于中位数之前,另外1/2位于中位数之后(如果遇上一组数字的数量为偶数,那么中位数就是中间两个数的平均值)。回到刚刚酒吧的那个例子,原先坐在吧台前的10个人的年均收入中位数为3.5万美元,当比尔•盖茨和他的鹦鹉入座之后,这11个人的年收入中位数依然为3.5万美元。如果你将他们按照收入多少来排座的话,那么坐在第6把発子上的人的收入就代表了整组人收入的中位数。假如此时沃伦•巴菲特走了进来并坐在了比尔·盖茨的身边,他们的中位数还是不会改变。[③]
1702642706
1702642707
如果一组数据分布中没有特别离谱的异常值,那么它们的中位数和平均数将会是差不多的。下图中,我模拟了一张对手公司打印机质量数据的统计图,需要特别注意的是,我列出了“频数分布”的数据。每台打印机出现质量问题的次数被依次排列在X轴上,每根柱子的高度代表售出的这批打印机中出现相应数量质量问题的打印机占总数的百分比,即Y轴上的频数,例如,在保修期内,36%的打印机出现过两次质量问题。这一数据分布涵盖了所有可能出现的质量问题的数量,包括零故障,因此所有频数相加的结果肯定等于1(或100%)。
1702642708
1702642709
1702642710
1702642711
1702642712
每台打印机的质量问题
1702642713
1702642714
图2-1 对手公司打印机质量问题频数分布
1702642715
1702642716
由于上图的数据分布情况基本上是对称的,因此平均数和中位数两者相对接近。坐标轴的右边还有一小部分故障数量较多的打印机,这些异常值将会拉高平均数,但是对中位数没有影响。假如在你准备将质量统计结果发给老板之前,你决定对两家公司打印机的质量问题求一下中位数,在敲击几下键盘之后,你得出了结果。对手公司的质量投诉中位数为2,而你所在公司的这一数字则为1。
1702642717
1702642718
你瞧怎么样?你所在公司每台打印机的质量问题的中位数实际上要小于对手公司。此时,由于卡戴珊的婚姻生活已经开始变得枯燥乏味,而且你也深深地被你刚才的发现所吸引,于是你忍不住为自己公司的质量问题画了一张频数分布图。
1702642719
1702642720
1702642721
1702642722
1702642723
每台打印机质量问题
1702642724
1702642725
图2-2 你所在公司打印机质量问题频数分布
1702642726
1702642727
从图中可以清楚地看到,你所在公司的产品并不存在一个普遍的质量问题,但却有一个棘手的麻烦:一些数量不多的打印机存在大量的质量问题。这些异常值抬髙了质量问题的平均数,但没有对其中位数造成影响。从生产的角度看,更为重要的一点是,公司无须更新或重组整个生产流程或生产设备,唯一需要做的就是调查这批问题很多的劣质打印机,找出源头并予以解决。
1702642728
1702642729
无论是中位数还是平均数,要求出它们并不难,关键在于根据具体情况确定哪一个“中间位置”能够更准确地反映问题的实质。与此同时,中位数还有一些有用的“亲戚”,正如我们之前已经讨论过的,中位数将一组数据从中间分为两部分,这组数据其实还可以继续分为4部分,我们称之为“四分位数”。第一四分位数由处于底部的25%的数据构成,往后的25%的数据构成了第二四分位数,以此类推。同样的,收入分配数据还可以分为“十分位数”,每组包含10%的数据。如果你的收入属于美国人均收入分配顶层的那10%,那么这意味着你要比90%的美国人挣得都多。我们还可以细分下去,将收入数据分为100份,也就是“百分位数”,每个百分位数都代表1%的数据,也就是说,第一百分位数表示位于底部的1%的人的收入,第99百分位数代表收入分配数据中收入最高的那1%的人。
1702642730
1702642731
这类描述性数字的好处在于,它们描述了某个具体的值在与其他数据进行比较时所处的位置。如果我告诉你,你的孩子在阅读考试中的成绩处于班级的第三百分位数(有97%的孩子的分数比你的孩子高),你该即刻意识到全家人应该在学习方面多辅导孩子。你没必要知道任何有关考试本身的内容,以及你的孩子在考试中答对了多少道题目。一个以百分位数显示的成绩就已经告诉你,你的孩子的得分在所有考生中的排名。如果考试题目比较简单,那么大多数考生都会获得一个高分,而你的孩子答对的题目数量还是少于其他同学;如果考试题目特别难,那么所有考生的正确率都不会高,而你的孩子的答题正确率比其他孩子要更低一些。
1702642732
1702642733
现在我来穿插介绍几个有用的统计术语。一个“绝对”分数、号码或数字具有一些与生俱来的意义,比如,我在一场18洞高尔夫球比赛中打出了83杆,这就是一个绝对分数;或许那天的气温正好是14摄氏度,这也是一个绝对数字。通常来说,在没有任何背景或额外信息的前提下,绝对数字依然能被理解。当我告诉你我在18洞高尔夫球比赛中的成绩是83杆的时候,你不需要知道其他高尔夫球球员取得的成绩,就可以对我的表现给出一个评价(除非那天的环境极为恶劣,又或者场地条件有所限制)。又比如,在一场高尔夫球锦标赛中我的排名是第9位,这是一个相对数据。一个“相对”值或数字只有在比较或处于一个更大的背景中时才有意义,比如说有8位球手在比赛中发挥得比我出色。绝大多数的标准化考试给出的结果都只具有相对意义,如果我告诉你伊利诺伊州某小学的一个三年级学生在满分为60分的州考数学考试中的成绩是43分,这一绝对分数并没有太多的意义。但是,当我将其转换为一个百分位数,也就是将这一原始分数代入全伊利诺伊州所有三年级学生的数学成绩中作对比,那么含义将会得到大大的丰富。如果43分的成绩处于第83百分位数,就代表这个学生的成绩要优于全州大部分的同龄人。如果他处于第8百分位数的位置,那么他真的要加点儿油了。在这个例子中,百分位数(相对分数)比答对题目的数量(绝对分数)要更有意义。
1702642734
1702642735
标准差也是一个能够帮助我们在一大堆杂乱无章的数字中发现真理的统计数值,我们用它来衡量数据相对于平均值的分散程度。根据标准差,我们可以知道所观察数值的分散情况。如果我要收集某班飞往波士顿的航班上的250名乘客的体重数据,还有250名有资格参加波士顿马拉松比赛的运动员的体重,假设这两组人的平均体重差不多都是155磅(约为70.3千克)。任何一个曾经在拥挤不堪的飞机里费劲地挤进自己座位和争抢扶手的人都清楚,一架典型的商用客机上有许多人的体重都超过155磅,但同时你或许也能回忆起在这些乱哄哄、人挤人的航班上还有不少啼哭的婴儿和不听话的孩子,他们的肺活量不小,但是体重就很轻了。在计算航班上乘客的平均体重时,尽管坐在你身边的足球运动员有高达320磅的体重,但平均体重仍有可能被前排正在尖叫的婴儿和后排正在踢你座椅靠背的6岁小孩的体重拉低。
1702642736
1702642737
目前为止,用我们所学的描述统计学的工具来看,航班乘客和马拉松运动员的体重几乎是相等的,但事实并非如此。是的,两组人的体重有着相差无几的平均数,但是航班乘客的体重距离平均数的标准差要远大于马拉松运动员,也就是说前者的体重分布要更加分散。连我8岁大的儿子都会说,马拉松运动员们的体重看上去都差不多,但飞机上的乘客就很难说了,有抱在怀里的婴儿,也有胖得离谱儿的人。航班乘客们的体重“更加分散”,这是在形容两组人的体重时需要提到的一个重要特征。标准差这一描述性数据能够让我们用一个独立的数字来表示距离平均数的离散程度。用于计算标准差和方差(另一个由标准差推导而来的用于衡量离散程度的指标)的公式在本章后面的内容中可以找到。现在,首先让我们来谈谈衡量离散程度的重要性。
1702642738
1702642739
我们再来作一个情景假设。自从被提拔为北美地区打印机产品的质量总监后,你就一直倍感疲惫,于是你决定去看医生。医生给你验了血,几天后他的助手在你的电话答录机上留言,告知你的HCb2值(一个虚构的血液指标)为134。你立刻打开电脑,搜索你这个年纪的人的HCb2平均值是多少,结果网页上显示是122(而且中位数也几乎是这个值)。我的天!如果换作我,我可能就要开始写遗嘱了,然后噙满泪水地给我的父母、爱人、孩子和挚友们写告别信。做完这些之后,我会想想自己还有什么未完成的心愿。我要去跳一次伞,还要用我余下的时间写一部小说。最后,我还要写一封令人声泪俱下的控诉信给我的老板,用恶狠狠的措辞把这几年在他那里受的气都发泄出来——而且从头到尾都要用大写的英文!
1702642740
1702642741
然而,上面这些事情中没有一件是必要的(那封发给老板的信带来的后果可能会很严重)。当你回拨医生的电话,打算安排你的临终事宜时,他的助理告诉你,你的指标在正常范围内。但这怎么可能呢?“我的HCb2值比平均值足足高出12!”你不断地跟电话那头的人重复着这句话。
1702642742
1702642743
“HCb2值的标准差是18。”对方淡淡地说了一句。
1702642744
1702642745
这又是什么?
1702642746
1702642747
HCb2值与其他大多数生理现象(如身高)一样,都存在天然差异。尽管这一虚构指标的平均值为122,但大多数健康的人体检时得到的结果都会有高有低,只有在HCb2值特别高或特别低时才会对健康构成威胁。那么,对于HCb2值来说,上下浮动多少才算是数值异常呢?正如我们之前提到的,标准差是衡量离散的指标,反映了分散在平均值周围的数据的聚合程度。对于许多典型的数据分布来说,有很大比例的数值都位于它们的平均数的某个标准差范围以内,也就是说,这些数值有的比平均值大,有的比平均值小,但都是在一个正常范围之内的。举个简单的例子,美国成年男性的平均身高为70英寸(1.778米),标准差约为3英寸(0.0762米),这意味着有很大一部分美国成年男性的身高在67英寸(约1.7米)到73英寸(约1.85米)之间。
1702642748
1702642749
换言之,任何一个身高介于上述区间内的美国成年男性都不会被认为身高异常。让我们再回到刚刚那个困扰你的HCb2的问题上。是的,你的指标是比平均值高了12个数值,但还没有超过标准差范围,这就好比你的身高为72英寸一样——这没有什么好奇怪的。当然,距离平均值两个标准差的数值会减少,3~4个标准差的数值就更少了。以身高为例,如果一个美国成年男性高于平均身高3个标准差,那么他的身高至少为79英寸(约2米多)。
[
上一页 ]
[ :1.7026427e+09 ]
[
下一页 ]