打字猴:1.702634194e+09
1702634194
1702634195 画统计图本身并不是我们的最终目的,而是为了帮助我们理解数据。在你(或你的电脑)画完图之后,一定要问“我看到了什么”。下面是看图的一般策略。
1702634196
1702634197 形态与偏差
1702634198
1702634199 在呈现任何一组数据的图形里,我们要观察的是整体形态,以及有异于整体形态的显著偏差。
1702634200
1702634201 这个策略我们已经在线图中用过了,趋势和季节变动都是线图中常见的整体形态。图10–6中2008年年底和2009年年初因金融危机和之后的经济衰退导致的油价下跌,就是有异于2002年和2008年年中的整体形态的偏差。对图11–1的直方图而言,从异于整体形态的偏差说起会更容易些。有两个州与众不同,一旦我们在直方图中注意到这两个州,就可以到列表里面去查出是哪两个州。佛罗里达州有17.4%的居民年龄在65岁以上,而阿拉斯加则只有7.3%,这两个州是很明显的异常值。
1702634202
1702634203 异常值
1702634204
1702634205 异常值(outlier)是指落在整体形态之外的观察值。
1702634206
1702634207 犹他州的65岁以上的居民占9.0%,这算不算异常值呢?某个观察值到底算不算异常值,在某种程度上是主观判断的问题。犹他州的值虽然也很小,但并没有像佛罗里达和阿拉斯加那样脱离整体形态,所以我们不会叫它异常值。一旦你找到异常值,就应该寻求原因。许多异常值其实是人为错误造成的,比如把4.0错写成40。有些异常值则显示出某些观察值的特性。要解释异常值,通常需要些背景知识。佛罗里达有许多退休人口,所以65岁以上人口的比率高,这一点儿也不奇怪;而阿拉斯加在美国北部边陲地带,年纪大的人少也很正常。
1702634208
1702634209 要找出直方图的整体形态,得先把异常值放在一边。我们可以使用一个简单的方法:
1702634210
1702634211 分布的整体形态
1702634212
1702634213 要找出分布的整体形态:
1702634214
1702634215 • 找出中心(center)与幅度(spread)。
1702634216
1702634217 • 看看该分布是否有简单的形状(shape),可以很容易地做出描述。
1702634218
1702634219 在第12章里我们将介绍怎样用数值来描述中心和幅度。目前,我们不妨用分布的“中间点”(midpoint)来表示分布的中心。中间点就是差不多有一半观察值比它小,有一半观察值比它大的那个点。或者不考虑异常值,只用最小和最大的值来描述分布的幅度。
1702634220
1702634221 例2 描述分布的整体形态
1702634222
1702634223 看一下图11–1的形状,它只有一个尖峰(peak)。这个分布大致是对称的(symmetric),也就是说图的形态在尖峰两边很相似。该分布的中心(中间点)十分接近尖峰的位置,即13%左右。如果不计入那两个异常值,该分布的幅度差不多是从9%到16%。
1702634224
1702634225 例3 伊利诺伊州的学费
1702634226
1702634227 伊利诺伊州有116所大专院校。2009~2010学年的学费范围是从墨兰谷社区大学的1974美元到芝加哥大学的38550美元。图11–2是这116所学校学费的直方图,我们看到很多社区大学的学费低于4000美元。在这个分布的最右端,有两所学校的学费范围在36000~40000美元。
1702634228
1702634229 图11–2与图11–1的样子大不相同,在收费最低的组一边,有很突出的尖峰。大部分院校的学费低于8000美元,但是该图的右边有一条长尾巴,一直延伸到近40000美元。我们把一端有一条长尾巴的分布称为偏斜的(skewed)。这个分布的中心大概是8000美元(有一半院校的学费低于此值)。该分布的幅度很大,从1974美元到超过38000美元。该分布没有异常值,学费最高的几所院校只是长尾巴的延伸,仍是整体形态的一部分。
1702634230
1702634231
1702634232
1702634233
1702634234 图11–2 2009~2010学年伊利诺伊州116所大专院校学费的直方图
1702634235
1702634236 在描述一个分布的时候,要把注意力放在重点上。要寻找主要的尖峰,而不是直方图中的小起伏,比如图11–2里面的那些。要辨识出明显的异常值,而不是直接把最小和最大的观察值当作异常值。要看是否有对称性,或明显的偏斜。
1702634237
1702634238 对称分布与偏斜分布
1702634239
1702634240 若直方图的左半边和右半边大致可看成互为镜中影像,则称该分布是对称的。若直方图的右边(包含较大观察值的那一半)延伸得比左边远,则称该分布是右偏的(skewed to the right)。若直方图的左边延伸得比右边远,则称该分布是左偏的(skewed to thd left)。
1702634241
1702634242 在数学领域,对称的定义是:一幅图(比如直方图)的左右两半确实互为镜中影像。数据几乎不会是完全对称的,因此我们把像图11–1那样的直方图视为大致对称的整体形态,而图11–2则是明显右偏的。
1702634243
[ 上一页 ]  [ :1.702634194e+09 ]  [ 下一页 ]