打字猴:1.70264271e+09
1702642710
1702642711
1702642712 每台打印机的质量问题
1702642713
1702642714 图2-1 对手公司打印机质量问题频数分布
1702642715
1702642716 由于上图的数据分布情况基本上是对称的,因此平均数和中位数两者相对接近。坐标轴的右边还有一小部分故障数量较多的打印机,这些异常值将会拉高平均数,但是对中位数没有影响。假如在你准备将质量统计结果发给老板之前,你决定对两家公司打印机的质量问题求一下中位数,在敲击几下键盘之后,你得出了结果。对手公司的质量投诉中位数为2,而你所在公司的这一数字则为1。
1702642717
1702642718 你瞧怎么样?你所在公司每台打印机的质量问题的中位数实际上要小于对手公司。此时,由于卡戴珊的婚姻生活已经开始变得枯燥乏味,而且你也深深地被你刚才的发现所吸引,于是你忍不住为自己公司的质量问题画了一张频数分布图。
1702642719
1702642720
1702642721
1702642722
1702642723 每台打印机质量问题
1702642724
1702642725 图2-2 你所在公司打印机质量问题频数分布
1702642726
1702642727 从图中可以清楚地看到,你所在公司的产品并不存在一个普遍的质量问题,但却有一个棘手的麻烦:一些数量不多的打印机存在大量的质量问题。这些异常值抬髙了质量问题的平均数,但没有对其中位数造成影响。从生产的角度看,更为重要的一点是,公司无须更新或重组整个生产流程或生产设备,唯一需要做的就是调查这批问题很多的劣质打印机,找出源头并予以解决。
1702642728
1702642729 无论是中位数还是平均数,要求出它们并不难,关键在于根据具体情况确定哪一个“中间位置”能够更准确地反映问题的实质。与此同时,中位数还有一些有用的“亲戚”,正如我们之前已经讨论过的,中位数将一组数据从中间分为两部分,这组数据其实还可以继续分为4部分,我们称之为“四分位数”。第一四分位数由处于底部的25%的数据构成,往后的25%的数据构成了第二四分位数,以此类推。同样的,收入分配数据还可以分为“十分位数”,每组包含10%的数据。如果你的收入属于美国人均收入分配顶层的那10%,那么这意味着你要比90%的美国人挣得都多。我们还可以细分下去,将收入数据分为100份,也就是“百分位数”,每个百分位数都代表1%的数据,也就是说,第一百分位数表示位于底部的1%的人的收入,第99百分位数代表收入分配数据中收入最高的那1%的人。
1702642730
1702642731 这类描述性数字的好处在于,它们描述了某个具体的值在与其他数据进行比较时所处的位置。如果我告诉你,你的孩子在阅读考试中的成绩处于班级的第三百分位数(有97%的孩子的分数比你的孩子高),你该即刻意识到全家人应该在学习方面多辅导孩子。你没必要知道任何有关考试本身的内容,以及你的孩子在考试中答对了多少道题目。一个以百分位数显示的成绩就已经告诉你,你的孩子的得分在所有考生中的排名。如果考试题目比较简单,那么大多数考生都会获得一个高分,而你的孩子答对的题目数量还是少于其他同学;如果考试题目特别难,那么所有考生的正确率都不会高,而你的孩子的答题正确率比其他孩子要更低一些。
1702642732
1702642733 现在我来穿插介绍几个有用的统计术语。一个“绝对”分数、号码或数字具有一些与生俱来的意义,比如,我在一场18洞高尔夫球比赛中打出了83杆,这就是一个绝对分数;或许那天的气温正好是14摄氏度,这也是一个绝对数字。通常来说,在没有任何背景或额外信息的前提下,绝对数字依然能被理解。当我告诉你我在18洞高尔夫球比赛中的成绩是83杆的时候,你不需要知道其他高尔夫球球员取得的成绩,就可以对我的表现给出一个评价(除非那天的环境极为恶劣,又或者场地条件有所限制)。又比如,在一场高尔夫球锦标赛中我的排名是第9位,这是一个相对数据。一个“相对”值或数字只有在比较或处于一个更大的背景中时才有意义,比如说有8位球手在比赛中发挥得比我出色。绝大多数的标准化考试给出的结果都只具有相对意义,如果我告诉你伊利诺伊州某小学的一个三年级学生在满分为60分的州考数学考试中的成绩是43分,这一绝对分数并没有太多的意义。但是,当我将其转换为一个百分位数,也就是将这一原始分数代入全伊利诺伊州所有三年级学生的数学成绩中作对比,那么含义将会得到大大的丰富。如果43分的成绩处于第83百分位数,就代表这个学生的成绩要优于全州大部分的同龄人。如果他处于第8百分位数的位置,那么他真的要加点儿油了。在这个例子中,百分位数(相对分数)比答对题目的数量(绝对分数)要更有意义。
1702642734
1702642735 标准差也是一个能够帮助我们在一大堆杂乱无章的数字中发现真理的统计数值,我们用它来衡量数据相对于平均值的分散程度。根据标准差,我们可以知道所观察数值的分散情况。如果我要收集某班飞往波士顿的航班上的250名乘客的体重数据,还有250名有资格参加波士顿马拉松比赛的运动员的体重,假设这两组人的平均体重差不多都是155磅(约为70.3千克)。任何一个曾经在拥挤不堪的飞机里费劲地挤进自己座位和争抢扶手的人都清楚,一架典型的商用客机上有许多人的体重都超过155磅,但同时你或许也能回忆起在这些乱哄哄、人挤人的航班上还有不少啼哭的婴儿和不听话的孩子,他们的肺活量不小,但是体重就很轻了。在计算航班上乘客的平均体重时,尽管坐在你身边的足球运动员有高达320磅的体重,但平均体重仍有可能被前排正在尖叫的婴儿和后排正在踢你座椅靠背的6岁小孩的体重拉低。
1702642736
1702642737 目前为止,用我们所学的描述统计学的工具来看,航班乘客和马拉松运动员的体重几乎是相等的,但事实并非如此。是的,两组人的体重有着相差无几的平均数,但是航班乘客的体重距离平均数的标准差要远大于马拉松运动员,也就是说前者的体重分布要更加分散。连我8岁大的儿子都会说,马拉松运动员们的体重看上去都差不多,但飞机上的乘客就很难说了,有抱在怀里的婴儿,也有胖得离谱儿的人。航班乘客们的体重“更加分散”,这是在形容两组人的体重时需要提到的一个重要特征。标准差这一描述性数据能够让我们用一个独立的数字来表示距离平均数的离散程度。用于计算标准差和方差(另一个由标准差推导而来的用于衡量离散程度的指标)的公式在本章后面的内容中可以找到。现在,首先让我们来谈谈衡量离散程度的重要性。
1702642738
1702642739 我们再来作一个情景假设。自从被提拔为北美地区打印机产品的质量总监后,你就一直倍感疲惫,于是你决定去看医生。医生给你验了血,几天后他的助手在你的电话答录机上留言,告知你的HCb2值(一个虚构的血液指标)为134。你立刻打开电脑,搜索你这个年纪的人的HCb2平均值是多少,结果网页上显示是122(而且中位数也几乎是这个值)。我的天!如果换作我,我可能就要开始写遗嘱了,然后噙满泪水地给我的父母、爱人、孩子和挚友们写告别信。做完这些之后,我会想想自己还有什么未完成的心愿。我要去跳一次伞,还要用我余下的时间写一部小说。最后,我还要写一封令人声泪俱下的控诉信给我的老板,用恶狠狠的措辞把这几年在他那里受的气都发泄出来——而且从头到尾都要用大写的英文!
1702642740
1702642741 然而,上面这些事情中没有一件是必要的(那封发给老板的信带来的后果可能会很严重)。当你回拨医生的电话,打算安排你的临终事宜时,他的助理告诉你,你的指标在正常范围内。但这怎么可能呢?“我的HCb2值比平均值足足高出12!”你不断地跟电话那头的人重复着这句话。
1702642742
1702642743 “HCb2值的标准差是18。”对方淡淡地说了一句。
1702642744
1702642745 这又是什么?
1702642746
1702642747 HCb2值与其他大多数生理现象(如身高)一样,都存在天然差异。尽管这一虚构指标的平均值为122,但大多数健康的人体检时得到的结果都会有高有低,只有在HCb2值特别高或特别低时才会对健康构成威胁。那么,对于HCb2值来说,上下浮动多少才算是数值异常呢?正如我们之前提到的,标准差是衡量离散的指标,反映了分散在平均值周围的数据的聚合程度。对于许多典型的数据分布来说,有很大比例的数值都位于它们的平均数的某个标准差范围以内,也就是说,这些数值有的比平均值大,有的比平均值小,但都是在一个正常范围之内的。举个简单的例子,美国成年男性的平均身高为70英寸(1.778米),标准差约为3英寸(0.0762米),这意味着有很大一部分美国成年男性的身高在67英寸(约1.7米)到73英寸(约1.85米)之间。
1702642748
1702642749 换言之,任何一个身高介于上述区间内的美国成年男性都不会被认为身高异常。让我们再回到刚刚那个困扰你的HCb2的问题上。是的,你的指标是比平均值高了12个数值,但还没有超过标准差范围,这就好比你的身高为72英寸一样——这没有什么好奇怪的。当然,距离平均值两个标准差的数值会减少,3~4个标准差的数值就更少了。以身高为例,如果一个美国成年男性高于平均身高3个标准差,那么他的身高至少为79英寸(约2米多)。
1702642750
1702642751 不同群体对象的数据分布的离散情况是不同的。可以这么说,航班上250名乘客体重的标准差要比250名马拉松运动员的大,如果将两组人的体重数据画成频数分布图的话,前者肯定要比后者更“胖”(分散)。对于任何一组数据来说,只要知道了平均数和标准差,我们就能进行简单的统计学分析,得出一些可以信赖的结论。比如,我告诉你美国SAT数学考试的平均分为500分,标准差为100,与身高的例子一样,大部分参加考试的学生的成绩都会在一个标准差范围内浮动,比如400〜600分。那么,你觉得又有多少名学生的成绩会高于720分呢?估计不会有很多,因为这比平均分髙出两个标准差还要多。
1702642752
1702642753 事实上,我们能做的不仅只是“学生人数不会有很多”这样的回答。现在就向大家隆重介绍统计学里最重要、最有用、最常见的分布之一:正态分布。数据的分布一般来说都是对称的,以平均数为中轴呈现类似于“钟”的形状,我想大家对此应该不会感到陌生。
1702642754
1702642755 正态分布可用于描述许多常见的现象。如果我们要给爆米花的“爆炸”过程画一张频数分布图,那么分布图的情况应该是:一开始的时候只有少量玉米粒爆开,每秒可能只有一两颗玉米粒爆开;在10~15秒之后,玉米粒就进入了疯狂“爆炸”的阶段,然后慢慢地,每秒爆开的玉米粒的数量又变少了,重新回到了一开始每秒只有一两颗玉米粒爆炸的状态。美国成年男性的身高分布也是对称的,要么比70英寸的平均身高略高,要么略低,而且越接近平均身高,人数越多。每一次SAT考试都经过精心设计,以得到一个平均分为500分、标准差为100的成绩的正态分布。根据《华尔街日报》的报道,美国人甚至连在购物商场停车都呈现出正态分布,正对着商场人口的地方停车数量最多,也就是正态曲线的“峰值”,在人口左右两侧的停车数量逐渐变少,即曲线两端下滑的“尾巴”。
1702642756
1702642757 正态分布的“美”好比迈克尔·乔丹在球场上的力量、灵巧和优雅,它来自于一个事实,那就是我们通过定义就能够清楚地知道,有多少数值位于平均值一个标准差的范围之内(68.2%),有多少数值位于两个标准差的范围以内(95.4%),还有多少数值位于3个标准差的范围以内(99.7%),以此类推。这听上去似乎挺傻的,但事实上这就是统计学的基础之一。本书将会在之后的篇章中谈到更深层次的问题时再对正态分布展开讨论。
1702642758
1702642759
[ 上一页 ]  [ :1.70264271e+09 ]  [ 下一页 ]