打字猴:1.702634179e+09
1702634179 图11–1 50个州65岁及以上居民所占百分比的直方图
1702634180
1702634181 练习
1702634182
1702634183 11.1 18岁以下人口。下表是2008年7月美国50个州18岁以下人口所占的百分比。
1702634184
1702634185
1702634186
1702634187
1702634188
1702634189
1702634190
1702634191 按照例1给出的三个步骤画出这个分布的直方图。
1702634192
1702634193 读懂直方图
1702634194
1702634195 画统计图本身并不是我们的最终目的,而是为了帮助我们理解数据。在你(或你的电脑)画完图之后,一定要问“我看到了什么”。下面是看图的一般策略。
1702634196
1702634197 形态与偏差
1702634198
1702634199 在呈现任何一组数据的图形里,我们要观察的是整体形态,以及有异于整体形态的显著偏差。
1702634200
1702634201 这个策略我们已经在线图中用过了,趋势和季节变动都是线图中常见的整体形态。图10–6中2008年年底和2009年年初因金融危机和之后的经济衰退导致的油价下跌,就是有异于2002年和2008年年中的整体形态的偏差。对图11–1的直方图而言,从异于整体形态的偏差说起会更容易些。有两个州与众不同,一旦我们在直方图中注意到这两个州,就可以到列表里面去查出是哪两个州。佛罗里达州有17.4%的居民年龄在65岁以上,而阿拉斯加则只有7.3%,这两个州是很明显的异常值。
1702634202
1702634203 异常值
1702634204
1702634205 异常值(outlier)是指落在整体形态之外的观察值。
1702634206
1702634207 犹他州的65岁以上的居民占9.0%,这算不算异常值呢?某个观察值到底算不算异常值,在某种程度上是主观判断的问题。犹他州的值虽然也很小,但并没有像佛罗里达和阿拉斯加那样脱离整体形态,所以我们不会叫它异常值。一旦你找到异常值,就应该寻求原因。许多异常值其实是人为错误造成的,比如把4.0错写成40。有些异常值则显示出某些观察值的特性。要解释异常值,通常需要些背景知识。佛罗里达有许多退休人口,所以65岁以上人口的比率高,这一点儿也不奇怪;而阿拉斯加在美国北部边陲地带,年纪大的人少也很正常。
1702634208
1702634209 要找出直方图的整体形态,得先把异常值放在一边。我们可以使用一个简单的方法:
1702634210
1702634211 分布的整体形态
1702634212
1702634213 要找出分布的整体形态:
1702634214
1702634215 • 找出中心(center)与幅度(spread)。
1702634216
1702634217 • 看看该分布是否有简单的形状(shape),可以很容易地做出描述。
1702634218
1702634219 在第12章里我们将介绍怎样用数值来描述中心和幅度。目前,我们不妨用分布的“中间点”(midpoint)来表示分布的中心。中间点就是差不多有一半观察值比它小,有一半观察值比它大的那个点。或者不考虑异常值,只用最小和最大的值来描述分布的幅度。
1702634220
1702634221 例2 描述分布的整体形态
1702634222
1702634223 看一下图11–1的形状,它只有一个尖峰(peak)。这个分布大致是对称的(symmetric),也就是说图的形态在尖峰两边很相似。该分布的中心(中间点)十分接近尖峰的位置,即13%左右。如果不计入那两个异常值,该分布的幅度差不多是从9%到16%。
1702634224
1702634225 例3 伊利诺伊州的学费
1702634226
1702634227 伊利诺伊州有116所大专院校。2009~2010学年的学费范围是从墨兰谷社区大学的1974美元到芝加哥大学的38550美元。图11–2是这116所学校学费的直方图,我们看到很多社区大学的学费低于4000美元。在这个分布的最右端,有两所学校的学费范围在36000~40000美元。
1702634228
[ 上一页 ]  [ :1.702634179e+09 ]  [ 下一页 ]